Ma'lumotlar muhandisi va ma'lumotlar olimi: farq nima?

Data Scientist va Data Engineer kasblari ko'pincha chalkashib ketadi. Har bir kompaniyaning ma'lumotlar bilan ishlashning o'ziga xos xususiyatlari, ularni tahlil qilishning turli maqsadlari va qaysi mutaxassis ishning qaysi qismi bilan shug'ullanishi kerakligi haqida boshqacha fikrga ega, shuning uchun har birining o'z talablari bor. 

Keling, ushbu mutaxassislar o'rtasidagi farq nima ekanligini, ular qanday biznes muammolarini hal qilishlarini, qanday ko'nikmalarga ega ekanligini va qancha pul topishlarini aniqlaymiz. Material katta bo'lib chiqdi, shuning uchun biz uni ikkita nashrga ajratdik.

Birinchi maqolada Elena Gerasimova, fakultet rahbari "Ma'lumotlar fanlari va tahlillari"Netologiyada ma'lumotlar olimi va ma'lumotlar muhandisi o'rtasidagi farq nima va ular qanday vositalar bilan ishlaydi.

Muhandislar va olimlarning rollari qanday farqlanadi

Ma'lumotlar muhandisi - bu, bir tomondan, ma'lumotlar infratuzilmasini: ma'lumotlar bazalari, saqlash va ommaviy qayta ishlash tizimlarini ishlab chiqadigan, sinovdan o'tkazadigan va qo'llab-quvvatlaydigan mutaxassis. Boshqa tomondan, analitiklar va ma'lumotlar olimlari foydalanish uchun ma'lumotlarni tozalaydigan va "tarash" qiladigan, ya'ni ma'lumotlarni qayta ishlash quvurlarini yaratadigan kishi.

Data Scientist mashinani o'rganish algoritmlari va neyron tarmoqlardan foydalangan holda bashoratli (va boshqa) modellarni yaratadi va o'rgatadi, bu korxonalarga yashirin naqshlarni topishga, o'zgarishlarni bashorat qilishga va asosiy biznes jarayonlarini optimallashtirishga yordam beradi.

Ma'lumotlar olimi va ma'lumotlar muhandisi o'rtasidagi asosiy farq shundaki, ular odatda turli maqsadlarga ega. Ikkalasi ham ma'lumotlarning ochiq va sifatli bo'lishini ta'minlash uchun ishlaydi. Ammo Data Scientist o'z savollariga javob topadi va gipotezalarni ma'lumotlar ekotizimida (masalan, Hadoop asosida) sinovdan o'tkazadi va ma'lumotlar muhandisi Spark klasteridagi ma'lumotlar olimi tomonidan yozilgan mashinani o'rganish algoritmiga xizmat ko'rsatish uchun quvur liniyasini yaratadi. ekotizim. 

Ma'lumotlar muhandisi jamoaning bir qismi sifatida ishlash orqali biznesga qiymat keltiradi. Uning vazifasi turli ishtirokchilar o'rtasida muhim bo'g'in sifatida harakat qilishdir: ishlab chiquvchilardan biznes iste'molchilarigacha hisobot berish va tahlilchilarning samaradorligini oshirish, marketing va mahsulotdan BIgacha. 

Ma'lumotlar bo'yicha mutaxassis, aksincha, kompaniya strategiyasida faol ishtirok etadi va tushunchalarni olish, qarorlar qabul qilish, avtomatlashtirish algoritmlarini amalga oshirish, modellashtirish va ma'lumotlardan qiymat yaratish.
Ma'lumotlar muhandisi va ma'lumotlar olimi: farq nima?

Ma'lumotlar bilan ishlash GIGO (garbage in - garbage out) tamoyiliga bo'ysunadi: agar tahlilchilar va ma'lumotlar olimlari tayyor bo'lmagan va potentsial noto'g'ri ma'lumotlar bilan shug'ullansa, hatto eng murakkab tahlil algoritmlaridan foydalangan holda natijalar noto'g'ri bo'ladi. 

Ma'lumotlar muhandislari ushbu muammoni ma'lumotlarni qayta ishlash, tozalash va o'zgartirish uchun quvurlarni qurish va ma'lumotlar olimlariga yuqori sifatli ma'lumotlar bilan ishlashga imkon berish orqali hal qilishadi. 

Bozorda har bir bosqichni qamrab oluvchi ma'lumotlar bilan ishlash uchun ko'plab vositalar mavjud: ma'lumotlarning paydo bo'lishidan tortib, direktorlar kengashi uchun asboblar paneligacha. Va ulardan foydalanish to'g'risidagi qarorni muhandis qabul qilishi muhim - bu moda bo'lgani uchun emas, balki u jarayonning boshqa ishtirokchilarining ishiga haqiqatan ham yordam beradi. 

An'anaviy tarzda: agar kompaniya BI va ETL o'rtasida aloqa o'rnatishi kerak bo'lsa - ma'lumotlarni yuklash va hisobotlarni yangilash, bu erda ma'lumotlar muhandisi shug'ullanishi kerak bo'lgan odatdagi eski asos (jamoada me'mor ham bo'lsa yaxshi).

Ma'lumotlar muhandisining majburiyatlari

  • Ma'lumotlarni qayta ishlash infratuzilmasini rivojlantirish, qurish va ta'mirlash.
  • Xatolarni qayta ishlash va ishonchli ma'lumotlarni qayta ishlash quvurlarini yaratish.
  • Turli dinamik manbalardan tuzilmagan ma'lumotlarni tahlilchilarning ishi uchun zarur bo'lgan shaklga keltirish.
  • Ma'lumotlarning izchilligi va sifatini yaxshilash bo'yicha tavsiyalar berish.
  • Ma'lumotlar olimlari va ma'lumotlar tahlilchilari tomonidan qo'llaniladigan ma'lumotlar arxitekturasini ta'minlash va saqlash.
  • O'nlab yoki yuzlab serverlarning taqsimlangan klasterida ma'lumotlarni izchil va samarali tarzda qayta ishlash va saqlash.
  • Buzilishdan omon qoladigan oddiy, ammo mustahkam arxitekturalarni yaratish uchun asboblarning texnik almashinuvini baholang.
  • Ma'lumotlar oqimlari va tegishli tizimlarni nazorat qilish va qo'llab-quvvatlash (monitoring va ogohlantirishlarni sozlash).

Data Engineer traektoriyasida yana bir mutaxassislik mavjud - ML muhandisi. Muxtasar qilib aytganda, ushbu muhandislar mashinani o'rganish modellarini sanoatda joriy etish va ishlatishga ixtisoslashgan. Ko'pincha, ma'lumot olimidan olingan model tadqiqotning bir qismidir va jangovar sharoitlarda ishlamasligi mumkin.

Ma'lumotlar bo'yicha mutaxassisning mas'uliyati

  • Mashinani o'rganish algoritmlarini qo'llash uchun ma'lumotlardan xususiyatlarni ajratib olish.
  • Ma'lumotlardagi naqshlarni bashorat qilish va tasniflash uchun turli xil mashina o'rganish vositalaridan foydalanish.
  • Algoritmlarni nozik sozlash va optimallashtirish orqali mashinani o'rganish algoritmlarining ishlashi va aniqligini oshirish.
  • Sinovdan o'tishi kerak bo'lgan kompaniya strategiyasiga muvofiq "kuchli" farazlarni shakllantirish.

Ma'lumotlar muhandisi ham, ma'lumot olimi ham ma'lumotlar madaniyatini rivojlantirishga sezilarli hissa qo'shadi, bu orqali kompaniya qo'shimcha foyda keltirishi yoki xarajatlarni kamaytirishi mumkin.

Muhandislar va olimlar qanday tillar va vositalar bilan ishlaydi?

Bugungi kunda ma'lumotlar olimlarining taxminlari o'zgardi. Ilgari muhandislar katta SQL so'rovlarini to'plashdi, MapReduce-ni qo'lda yozdilar va Informatica ETL, Pentaho ETL, Talend kabi vositalar yordamida ma'lumotlarni qayta ishladilar. 

2020 yilda mutaxassis Python va zamonaviy hisoblash vositalarini (masalan, Airflow) bilmasdan, bulutli platformalar bilan ishlash tamoyillarini tushunmasdan (xavfsizlik tamoyillariga rioya qilgan holda texnik vositalarni tejash uchun ulardan foydalanish) qila olmaydi.

SAP, Oracle, MySQL, Redis yirik kompaniyalarda ma'lumotlar muhandislari uchun an'anaviy vositalardir. Ular yaxshi, lekin litsenziyalarning narxi shunchalik yuqoriki, ular bilan ishlashni o'rganish faqat sanoat loyihalarida mantiqiy bo'ladi. Shu bilan birga, Postgres ko'rinishida bepul alternativa mavjud - bu bepul va nafaqat mashg'ulotlarga mos keladi. 

Ma'lumotlar muhandisi va ma'lumotlar olimi: farq nima?
Tarixan Java va Scala so'rovlari tez-tez uchraydi, garchi texnologiyalar va yondashuvlar rivojlanishi bilan bu tillar fonga o'tib ketadi.

Biroq, qattiq BigData: Hadoop, Spark va hayvonot bog'ining qolgan qismi endi ma'lumotlar muhandisi uchun zaruriy shart emas, balki an'anaviy ETL tomonidan hal qilib bo'lmaydigan muammolarni hal qilishning bir turi. 

Ushbu tendentsiya - ular yozilgan tilni bilmasdan asboblardan foydalanish xizmatlari (masalan, Java tilini bilmasdan Hadoop), shuningdek oqim ma'lumotlarini qayta ishlash uchun tayyor xizmatlarni taqdim etish (videoda ovozni aniqlash yoki tasvirni aniqlash) ).

SAS va SPSS’ning sanoat yechimlari mashhur bo‘lib, Tableau, Rapidminer, Stata va Julia ham mahalliy vazifalar uchun ma’lumotlar olimlari tomonidan keng qo‘llaniladi.

Ma'lumotlar muhandisi va ma'lumotlar olimi: farq nima?
Quvurlarni o'zlari qurish qobiliyati tahlilchilar va ma'lumotlar olimlariga bir necha yil oldin paydo bo'lgan: masalan, nisbatan oddiy skriptlar yordamida PostgreSQL-ga asoslangan xotiraga ma'lumotlarni yuborish allaqachon mumkin. 

Odatda, quvurlar va integratsiyalashgan ma'lumotlar tuzilmalaridan foydalanish ma'lumotlar muhandislarining mas'uliyati bo'lib qoladi. Ammo bugungi kunda tegishli sohalarda keng vakolatlarga ega bo'lgan T shaklidagi mutaxassislar tendentsiyasi har qachongidan ham kuchliroq, chunki asboblar doimo soddalashtirilmoqda.

Nima uchun ma'lumotlar muhandisi va ma'lumot olimi birga ishlaydi

Muhandislar bilan yaqindan hamkorlik qilib, Data Scientists tadqiqot tomoniga e'tibor qaratishi, ishlab chiqarishga tayyor mashinani o'rganish algoritmlarini yaratishi mumkin.
Muhandislar esa har bir alohida loyihadagi maʼlumotlarni kiritish va chiqarish quvurlari global arxitekturaga mos kelishini taʼminlash, masshtablilikka, maʼlumotlarni qayta ishlatishga eʼtibor qaratishlari kerak.

Mas'uliyatning bunday bo'linishi turli xil mashinalarni o'rganish loyihalarida ishlaydigan jamoalar o'rtasida izchillikni ta'minlaydi. 

Hamkorlik yangi mahsulotlarni samarali yaratishga yordam beradi. Tezlik va sifatga hamma uchun xizmat yaratish (global saqlash yoki asboblar paneli integratsiyasi) va har bir aniq ehtiyoj yoki loyihani amalga oshirish (yuqori ixtisoslashgan quvur liniyasi, tashqi manbalarni ulash) o'rtasidagi muvozanat orqali erishiladi. 

Ma'lumotlar bo'yicha olimlar va tahlilchilar bilan yaqindan ishlash muhandislarga yaxshiroq kod yozish uchun tahliliy va tadqiqot ko'nikmalarini rivojlantirishga yordam beradi. Ombor va maʼlumotlar koʻli foydalanuvchilari oʻrtasida bilim almashish yaxshilanadi, bu loyihalarni yanada tezkor qiladi va uzoq muddatli barqaror natijalarni beradi.

Ma'lumotlar bilan ishlash madaniyatini rivojlantirish va ular asosida biznes jarayonlarini qurishni maqsad qilgan kompaniyalarda Data Scientist va Data Engineer bir-birini to'ldiradi va to'liq ma'lumotlarni tahlil qilish tizimini yaratadi. 

Keyingi maqolada biz Data Engineer va Data Scients qanday ma'lumotga ega bo'lishi kerakligi, ular qanday ko'nikmalarni rivojlantirishlari kerakligi va bozor qanday ishlashi haqida gapiramiz.

Netology muharrirlaridan

Agar siz ma'lumotlar muhandisi yoki ma'lumotlar olimi kasbini ko'rayotgan bo'lsangiz, biz sizni kurs dasturlarimizni o'rganishga taklif qilamiz:

Manba: www.habr.com

a Izoh qo'shish