Bộ phận dữ liệu. Năm 2013. Hồi tưởng

Trong 2013 năm IBS, lúc đó dường như đang tạo ra Bộ phận dữ liệu, đã yêu cầu tôi thực hiện một cuộc nghiên cứu như vậy (chỉ dựa trên kinh nghiệm tương tác với các khách hàng dầu khí của công ty) về lĩnh vực có vấn đề của Dữ liệu lớn và Dữ liệu nói chung. Vì vậy, tôi đã xem lại nó 7 năm sau và nghĩ rằng nó thật buồn cười. Một số điều là hiển nhiên. Một số hóa ra không hoàn toàn đúng, nhưng... 7 năm đã trôi qua.

Tôi đã viết bằng tiếng Anh và bây giờ tôi nghĩ đến việc dịch nó sang tiếng Nga. Điều gì sẽ xảy ra nếu một cái gì đó vẫn còn có liên quan bây giờ? (Tôi sẽ dịch các bản tin, nhưng để lại những biển báo bằng tiếng Anh vì lười biếng. Xanh là tốt, đỏ là nguy hiểm, xanh là mơ).

Tôi sẽ chính thức hóa những nhận xét tối thiểu từ “hôm nay” người Ýsao cho rõ ràng và dễ phân biệt.

Vì vậy, DỮ LIỆU! Dữ liệu cho chúng tôi...

Bộ phận Dữ liệu là Bộ phận Máu, vì dữ liệu có thể được so sánh, chẳng hạn như với máu chạy qua tĩnh mạch và động mạch của một cơ quan kinh doanh. Tuy nhiên, mặc dù máu giống nhau nhưng các sinh vật lại khác nhau và do đó sản xuất rất khó khăn nhưng cũng là cơ hội để phát triển.

Có những người mà dữ liệu đập thẳng vào mắt họ - đó là Chúng tôi.
Và thật không may, có những người không nhìn thấy điểm dữ liệu trống. Than ôi, đây lại là của chúng ta Khách hàng!

Bộ phận dữ liệu. Năm 2013. Hồi tưởng

Vì vậy, Nguyên tắc kinh doanh...

  1. Chúng tôi bán kinh doanh, А не CNTT (mong tất cả các chuyên gia CNTT tha thứ cho tôi ngay lập tức) vì chúng tôi đang giải quyết các vấn đề của thế giới và kiếm được nhiều tiền hơn.
  2. Tất cả các vấn đề kinh doanh đều tập trung vào các ngành dọc theo chủ đề và sẽ yêu cầu đầy đủ chuyên ngành.
  3. Nỗ lực chứng minh giá trị của "dữ liệu" hoặc thậm chí khó khăn hơn, giá trị của việc “quản lý dữ liệu” đối với một doanh nghiệp là sự đau khổ và đau đớn vĩnh viễn. Về cơ bản, nó giống như đến gặp một người đang cảm thấy dễ chịu và nói: "Anh bạn, bây giờ chúng tôi sẽ xử lý máu cho anh, và anh bạn, nó đắt quá!"
  4. “Giấc mơ ướt át” của tôi là bán “trích xuất dữ liệu” và “phân tích” trong mô hình SaaS doanh nghiệp vừa và nhỏnhững người đã leo lên 123 dịch vụ đám mây với các giao diện thú vị: quản lý dự án, bộ phận trợ giúp, kế toán, CRM, bảng lương, báo cáo thời gian, tiếp thị, ... bạn đặt tên cho nó và vùi mình vào dữ liệu. Youcalc và Successfactors (có lẽ không còn nữa) Điều này tốt đấy!
  5. Tìm người thích mày mò “giòn” với dữ liệu. Chúng hiếm và lạ (như lá trà), nhưng lại là chìa khóa kinh doanh. Ví dụ, một nhà thơ có thể rất giỏi trong việc tương quan.
  6. Kỹ sư cần thiết! Cần biến các vấn đề mà Crunchers lấy từ dữ liệu thành giải pháp. Và sự thành công hay thất bại của quyết định phụ thuộc hoàn toàn vào họ.
  7. Phát triển mã nguồn mở các dự án có giá trị lớn và giúp bạn có thể “lắp ráp” các giải pháp phức tạp ngay từ đầu.
  8. Nhưng... chúng ta không được quên rằng Hadoop là một thư viện và Lucene cũng là một thư viện và khoảng cách giữa thư viện và sản phẩm công nghiệp nhiều!
  9. Các giải pháp được xây dựng sẽ phải được điều chỉnh đáng kể, bởi vì mô đun и khả năng tích hợp - những điểm chính.
  10. Nhanh nhẹn (Chúa tha thứ cho tôi) là một kỹ thuật quan trọng trong việc tương tác với khách hàng và xác minh giả thuyết, trong đó sẽ có rất nhiều.
  11. Việc thuê ngoài tất cả mã hóa và giao diện người dùng là điều đặc biệt có thể và cần thiết. Tất cả các phân tích và thông số kinh doanh phụ trợ Cần phải rời đi bên trong và được coi là năng lực cốt lõi.
  12. Những người ra quyết định kinh doanh phải liên tục được “thông báo” về sự cần thiết phải làm việc đúng cách với dữ liệu và không ngừng tìm kiếm những cách mới để phân tích chúng. Sự kết hợp giữa năng lực kỹ thuật và kinh doanh của nhân viên chúng tôi sẽ giúp nâng cao vị thế của toàn bộ tổ chức.
  13. Internet – có một nguồn cảm hứng vô tận (hồi đó không có nhiều mèo) liên quan đến cách tiếp cận quản lý dữ liệu doanh nghiệp, mặc dù mục tiêu và phạm vi khác nhau đáng kể.

Bộ phận dữ liệu. Năm 2013. Hồi tưởng

Các định đề công nghệ...

  1. Có tiềm năng phát triển rất lớn ở sự đơn giản hóa cách dữ liệu được hiển thị cho mọi người. Bạn có thể gọi đây là từ “iPhonization”.
  2. Mặc dù thực tế là các nhà cung cấp BI tuyên bố rằng họ trực tiếp mang lại phân tích cho người dùng cuối, (và chắc chắn họ đang đi theo hướng này) - bước đột phá vẫn chưa xảy ra. Mọi người chỉ không hiểu rõ đa chiều các dữ liệu.
  3. Giao diện người dùng thể hiện dữ liệu có cấu trúc lỏng lẻo, phức tạp hơn hoặc ít hơn trong nhiều mặt hình thức - cũng gây ra vô số vấn đề. Kết luận: càng phẳng càng tốt.
  4. Nền tảng được xây dựng trên cơ sở trích xuất dữ liệu tự động từ các nguồn (không phải lúc nào cũng được thiết kế để trích xuất như vậy) phụ thuộc đáng kể vào nguồn, tính ổn định của trình kết nối và cơ sở hạ tầng. Nền tảng (người đưa tin) sẽ luôn bị đổ lỗi nếu không mang lại kết quả. Sự tự tin – vốn của loại nền tảng này. Vốn khó kiếm và dễ mất.
  5. Từ quan điểm kinh doanh, không có sự khác biệt giữa phân tích Dữ liệu lớn và Chỉ cần dữ liệu. Thường đằng sau những con số đơn giản như 2x2 là những cơ hội trị giá hàng triệu đô la. Một ví dụ điển hình là dữ liệu về thời hạn sử dụng của các thành phần cơ sở hạ tầng trên thềm Na Uy. Khi nào tất cả các ngày của giới hạn trong tương lai. Việc sửa chữa tất cả các thiết bị được đặt trên một trục và họ phát hiện ra rằng trong N năm nữa, kệ Armageddon sẽ đến - một người đàn ông rất giàu có đứng dậy khỏi ghế và vội vàng cúi đầu ra khỏi phòng với lời nói: “Xin lỗi, tôi không có nhiều thời gian, tôi cần chuẩn bị hạm đội…”
  6. Excel, về cơ bản là trình bày dữ liệu dạng bảng rõ ràng và ngắn gọn, có sức mạnh to lớn và một tương lai tươi sáng. Tôi tin vào những chiếc bàn đẹp (và vẫn) và thế là xong!
  7. Điểm mấu chốt của tất cả những “phân tích” này là tự động hóa quyết định. Có những cơ hội lớn nhất, nhưng cũng có rủi ro cao nhất, đó là lý do tại sao cơ hội rất phong phú, đó là lý do tại sao có rủi ro, đó là lý do tại sao có cơ hội, đó là lý do tại sao chúng là kẹo bơ cứng... 🙂 Quản lý khoan giếng chẳng hạn...
  8. Nếu “khả năng tích hợp” là một tính năng chính thì trên thực tế, dữ liệu sẽ được trình bày dưới dạng dịch vụ. REST của quy tắc, nhưng chúng ta không được quên về việc tối ưu hóa hiệu suất, hiện nay thường bị hy sinh vì khả năng tích hợp khi sức mạnh tính toán tiếp tục phát triển.
  9. Dữ liệu chủ - đây là những gì cần được bản địa hóa, trích xuất, chuẩn hóa trước khi giải quyết bất kỳ vấn đề kinh doanh nào. Dữ liệu chủ tuy nhỏ nhưng vấn đề với nó lại rất lớn! Như những người anh em ngữ nghĩa học đã nói, 50% vấn đề của thế giới là do mọi người gọi những thứ giống nhau bằng những cái tên khác nhau, và 50% còn lại là do họ gọi những thứ khác nhau bằng cùng một tên.
  10. Bất kỳ đóng gói ở cấp độ lưu trữ, nó hạn chế tính mở của giải pháp và dẫn đến hiện tượng hóa SILO. Thật tốt nếu bạn là một nhà cung cấp lớn, nếu không thì cũng bình thường thôi. (Tất nhiên, ở đây chúng ta đang nói không phải về cấp độ khối hay về AWS S3, lúc đó đã 6 năm tuổi, mà là về các tệp).
  11. Mô hình quan hệ dữ liệu không còn là bạn của chúng tôi nữa. RDF và khóa-giá trị – tuyệt vời! Chúng tôi đã chứng kiến ​​sự biến đổi kỳ diệu của cơ sở dữ liệu quan hệ với mô hình 2000 bảng thành 15 bảng và không người dùng nào bị mất bất cứ thứ gì.
  12. Internet hoạt động vì nó tồn tại URL như một phương pháp đánh địa chỉ thống nhất. Tầm quan trọng của URL hay đúng hơn URI nguồn thông tin doanh nghiệp khó có thể đánh giá quá cao.
  13. Khai thác văn bản và NLP rất phổ biến. Trên mạng. Nhưng ngay cả trong khu vực doanh nghiệp, bạn cũng có thể đạt được thành công lớn bằng cách trích xuất dữ liệu có cấu trúc từ dữ liệu phi cấu trúc của doanh nghiệp.
  14. Synergy giữa dữ liệu có cấu trúc và thông tin được trích xuất từ ​​dữ liệu phi cấu trúc, tức là tập tin – phân tích Klondike.
  15. Khi trích xuất dữ liệu, đừng quên các quyền và bản quyền.
  16. Công ty khai thác dữ liệu phải lập mộtbộ phận tin tặc, theo nghĩa tốt của từ này. Lấy cảm hứng từ cuộc chiến khó khăn chống lại hệ thống bảo vệ bot thu thập thông tin của Trang Vàng.
  17. Trước khi làm việc với dữ liệu, cần phải "nhìn thấy" một cách trọn vẹn. Thật khó để giải thích. Các hình thức dạng bảng xuất hiện trong tâm trí. Đối với một số người, biểu diễn bằng đồ họa, nhưng bất kỳ biểu đồ nào cũng đã là một cách diễn giải. Bằng cách này hay cách khác... "thấy"!
  18. Lặp lại vấn đề về “sự tin tưởng” của người dùng ở giao diện người dùng. Tin tưởng vào trình kết nối/quy trình tạo dữ liệu, tin cậy vào dữ liệu, tin tưởng vào những quyết định được đưa ra.

Nguồn: www.habr.com

Thêm một lời nhận xét