بخش داده ها سال 2013. گذشته نگر

در سال 2013 سندرم روده تحریک پذیر، که سپس به نظر می رسید در حال ایجاد است بخش داده ها، از من خواست تا در مورد حوزه مشکل Big Data و به طور کلی داده ها، چنین برداشت مغزی (صرفاً بر اساس تجربه تعامل با مشتریان شرکت های نفت و گاز) انجام دهم. بنابراین من 7 سال بعد با آن برخورد کردم و فکر کردم خنده دار است. بعضی چیزها واضح است. بعضی ها کاملاً درست نبودند، اما... 7 سال گذشت.

به انگلیسی نوشتم و حالا به فکر ترجمه آن به روسی افتادم. اگر الان چیزی هنوز مرتبط باشد چه؟ (من بولتن ها را ترجمه خواهم کرد، اما از روی تنبلی علائم انگلیسی را رها کنید. سبز خوب است، قرمز خطرناک است، آبی یک رویا است).

من حداقل نظرات را از "امروز" رسمی خواهم کرد ایتالیاییبه طوری که واضح و قابل تشخیص باشد.

بنابراین، داده ها! داده ها برای ما ...

بخش داده، بخش خون است، زیرا داده ها را می توان به عنوان مثال با خونی که در رگ ها و شریان های یک سازمان تجاری جریان دارد مقایسه کرد. با این حال، اگرچه خون یکسان است، ارگانیسم ها متفاوت هستند و بنابراین تولید بسیار دشوار است، اما همچنین نشان دهنده فرصتی برای توسعه است.

افرادی هستند که داده ها مستقیماً به چشم آنها می پرند - اینها هستند ما.
و افرادی هستند که متاسفانه نقطه داده را خالی نمی بینند. این، باز، افسوس، مال ماست مشتریان!

بخش داده ها سال 2013. گذشته نگر

بنابراین، اصول کسب و کار ...

  1. ما می فروشیم کسب و کارو نه آی تی (ممکن است همه متخصصان فناوری اطلاعات یکباره مرا ببخشند) زیرا ما در حال حل مشکلات جهان هستیم، و خوب، پول بیشتر.
  2. تمام مشکلات کسب و کار حول محورهای عمودی صنعت موضوعی متمرکز شده اند و به اندازه کافی نیاز دارند تخصص ها.
  3. تلاش برای اثبات ارزش "داده" یا حتی دشوارتر، ارزش "مدیریت داده" برای یک کسب و کار رنج و درد ابدی است. در اصل، مثل این است که به سراغ فردی بیای که احساس خوبی دارد و بگوید: "ای رفیق، ما الان خونت را درمان می کنیم، و رفیق، گران است!"
  4. "رویای مرطوب" من فروش "استخراج داده" و "تحلیل" در مدل SaaS است. کسب و کارهای کوچک و متوسطکه به 123 سرویس ابری با رابط های جالب صعود کرد: مدیریت پروژه، میز کمک، حسابداری، CRM، حقوق و دستمزد، گزارش زمان، بازاریابی، ... و اطلاعات را جستجو کرد. Youcalc و Successfactors (احتمالاً دیگر وجود ندارد) این خوبه!
  5. به دنبال افرادی باشید که دوست دارند سرهم بندی کنند "کروچیدن" با داده ها آنها کمیاب و عجیب هستند (مانند برگ های چای)، اما کلید تجارت هستند. مثلاً یک شاعر می تواند در همبستگی بسیار خوب باشد.
  6. مهندسین مورد نیاز! برای تبدیل مشکلاتی که Crunchers از داده‌ها استخراج می‌کردند به راه‌حل نیاز بود. و موفقیت یا شکست تصمیم کاملاً به آنها بستگی دارد.
  7. توسعه متن باز پروژه ها از ارزش بالایی برخوردار هستند و امکان "مجموعه" راه حل های پیچیده را عملاً از ابتدا فراهم می کنند.
  8. اما... نباید فراموش کنیم که هادوپ یک کتابخانه است و لوسن هم یک کتابخانه است و فاصله بین محصولات کتابخانه ای و صنعتی خیلی
  9. راه حل های ساخته شده باید به طور قابل توجهی سازگار شوند، زیرا مدولار بودن и یکپارچگی - امتیاز کلیدی.
  10. چابک (خدایا من را ببخش) یک تکنیک کلیدی در تعامل با مشتری و تأیید است فرضیه ها، که تعداد زیادی از آنها وجود خواهد داشت.
  11. به ویژه امکان و ضروری است که تمام کدنویسی و UI را برون سپاری کنیم. کلیه تحلیل ها و مشخصات کسب و کار باطن نیاز به ترک در داخل و به عنوان شایستگی اصلی در نظر گرفته می شود.
  12. تصمیم گیرندگان کسب و کار باید دائماً در مورد آنها "آگاه" شوند نیاز به کار صحیح با داده ها و مدام در جستجوی راه های جدید برای تجزیه و تحلیل آنها. ترکیبی از شایستگی های فنی و تجاری کارکنان ما به ارتقای وضعیت کل سازمان به عنوان یک کل کمک می کند.
  13. اینترنت - منبع بی پایانی از الهام وجود دارد (در آن زمان گربه های زیادی وجود نداشت) در رابطه با رویکردهای مدیریت داده های سازمانی، اگرچه اهداف و دامنه به طور قابل توجهی متفاوت است.

بخش داده ها سال 2013. گذشته نگر

فرضیه های فناوری ...

  1. پتانسیل توسعه عظیمی در آن وجود دارد ساده سازی نحوه نمایش داده ها به مردم شما می توانید این را کلمه "iPhonization" بنامید.
  2. علیرغم این واقعیت که فروشندگان BI ادعا می کنند که مستقیماً هستند تجزیه و تحلیل را برای کاربران نهایی بیاورید، (و مطمئناً در این مسیر حرکت می کنند) - پیشرفت هنوز رخ نداده است. مردم فقط خوب نمی فهمند چند بعدی داده ها.
  3. یک رابط کاربری که داده های کم و بیش پیچیده و با ساختار ضعیف را نشان می دهد وجهی فرم - همچنین تعداد بی پایانی از مشکلات را ارائه می دهد. نتیجه: هر چه صاف تر بهتر.
  4. پلتفرمی که بر اساس استخراج خودکار داده ها از منابع ساخته شده است (که همیشه برای چنین استخراجی طراحی نشده اند) به طور قابل توجهی به منابع، پایداری اتصال دهنده ها و زیرساخت وابسته است. پلتفرم (پیام رسان) همیشه به دلیل عدم ارائه نتایج مورد سرزنش قرار می گیرد. اعتماد – سرمایه این نوع پلتفرم ها سرمایه ای که سخت به دست می آید و به راحتی از دست می رود.
  5. از نقطه نظر تجاری، هیچ تفاوتی بین تجزیه و تحلیل داده های بزرگ و فقط داده. اغلب در پشت اعدادی به سادگی 2x2 میلیون ها دلار فرصت وجود دارد. یک مثال خوب داده های مربوط به پایان عمر عناصر زیرساخت در قفسه نروژی است. همه تاریخ‌های بازی‌های آتی کی هستند. تعمیرات تمام تجهیزات در یک محور انجام شد و آنها متوجه شدند که در سال N قفسه آرماگدون در راه است - یک مرد بسیار ثروتمند از روی صندلی خود بلند شد و با عجله از اتاق خارج شد و این جمله را گفت: "متاسفم، من نمی خواهم. وقت زیادی دارم، باید ناوگان را آماده کنم...»
  6. اکسل، و اساساً ارائه جدولی واضح و مختصر از داده ها، قدرت عظیم و آینده ای عالی دارد. من به میزهای زیبا اعتقاد دارم (و هنوز) و بس!
  7. کمان اصلی همه این "تحلیل" است اتوماسیون تصمیم گیری. بزرگترین فرصت ها وجود دارد، اما بالاترین ریسک ها، به همین دلیل است که فرصت ها غنی هستند، به همین دلیل است که خطرات وجود دارد، به همین دلیل است که فرصت ها وجود دارد، به همین دلیل است که آنها تافی هستند ... 🙂 مدیریت حفاری چاه، مثلا...
  8. اگر «ادغام‌پذیری» یک ویژگی کلیدی است، داده‌ها باید عملاً به عنوان یک سرویس ارائه شوند. REST قوانین، اما ما نباید بهینه سازی را فراموش کنیم بهره وری، که اکنون اغلب برای یکپارچگی قربانی می شود زیرا قدرت محاسباتی همچنان در حال رشد است.
  9. داده های اصلی - این چیزی است که باید قبل از پرداختن به هر گونه مسائل تجاری بومی سازی، استخراج و استاندارد شود. داده اصلی کوچک است، اما مشکلات آن بزرگ است! همانطور که برادران معناشناس می گویند 50 درصد از مشکلات دنیا به این دلیل است که افراد یک چیز را به نام های مختلف می نامند و 50 درصد دیگر به این دلیل است که چیزهای مختلف را به یک نام می نامند.
  10. هر کپسوله سازی در سطح ذخیره سازی، باز بودن محلول را محدود می کند و منجر به SILO-fication می شود. اگر فروشنده بزرگی هستید خوب است، در غیر این صورت چنین است. (در اینجا، البته، نه در مورد سطح بلوک و نه در مورد AWS S3 که قبلاً 6 سال از عمرش گذشته بود، بلکه در مورد پرونده ها صحبت می کنیم.).
  11. مدل سازی رابطه ای داده ها دیگر دوست ما نیستند. RDF و key-value - عالی! ما شاهد تبدیل جادویی پایگاه های داده رابطه ای با مدل های 2000 جدول به 15 جدول بوده ایم و هیچ یک از کاربران چیزی را از دست نداده اند.
  12. اینترنت کار می کند زیرا وجود دارد URL به عنوان یک روش واحد برای آدرس دهی. اهمیت URL یا بهتر است بگوییم URI برای منابع اطلاعاتی سازمانی به سختی می توان دست بالا گرفت.
  13. متن کاوی و NLP محبوب هستند. در اینترنت. اما حتی در بخش شرکتی نیز می توان با استخراج داده های ساختاریافته از داده های سازمانی بدون ساختار به موفقیت های بزرگی دست یافت.
  14. هم افزایی بین داده های ساخت یافته و اطلاعات استخراج شده از داده های بدون ساختار، به عنوان مثال. فایل ها – تحلیلی Klondike.
  15. هنگام استخراج داده ها، حقوق و حق چاپ.
  16. شرکت استخراج داده باید الف تشکیل دهدبخش هکرها، به معنای خوب کلمه. با الهام از نبرد سخت در برابر سیستم های حفاظتی ربات خزنده Yellow Pages.
  17. قبل از کار با داده ها، لازم است "دیدن" به طور کامل. توضیح دادنش سخت است. اشکال جدولی به ذهن می رسد. برای برخی، نمایش های گرافیکی، اما هر نموداری در حال حاضر یک تفسیر است. به هر حال... «ببین»!
  18. تکرار موضوع "اعتماد" کاربر در قسمت جلو. اعتماد به اتصال دهنده ها/فرایندهای تولید داده، اعتماد به داده ها، اعتماد به تصمیمات اتخاذ شده.

منبع: www.habr.com

اضافه کردن نظر