Өгөгдлийн инженер ба өгөгдөл судлаач: ялгаа нь юу вэ?

Өгөгдөл судлаач, мэдээллийн инженерийн мэргэжлүүд ихэвчлэн андуурдаг. Компани бүр өгөгдөлтэй ажиллах өөрийн гэсэн онцлогтой, дүн шинжилгээ хийх өөр өөр зорилготой, аль мэргэжилтэн нь ажлын аль хэсгийг шийдвэрлэх ёстой гэсэн өөр өөр санаатай байдаг тул тус бүр өөрийн гэсэн шаардлага тавьдаг. 

Эдгээр мэргэжилтнүүдийн хооронд ямар ялгаа байгааг, тэд ямар бизнесийн асуудлыг шийдэж, ямар ур чадвартай, хэр их орлого олдог болохыг олж мэдье. Материал нь том болсон тул бид үүнийг хоёр хэвлэлд хуваасан.

Эхний нийтлэлд Елена Герасимова, факультетийн дарга "Өгөгдлийн шинжлэх ухаан ба аналитик" Netology-д өгөгдөл судлаач, мэдээллийн инженер хоёрын ялгаа юу болохыг, мөн тэд ямар хэрэгслээр ажилладаг талаар өгүүлдэг.

Инженер, эрдэмтдийн үүрэг хариуцлага хэрхэн ялгаатай байдаг

Өгөгдлийн инженер нь нэг талаас мэдээллийн дэд бүтцийг хөгжүүлэх, турших, засвар үйлчилгээ хийх мэргэжилтэн юм: мэдээллийн сан, хадгалалт, масс боловсруулах систем. Нөгөөтэйгүүр, энэ бол шинжээчид болон өгөгдөл судлаачдад ашиглахын тулд өгөгдлийг цэвэрлэж, "самнадаг" хүн юм, өөрөөр хэлбэл мэдээлэл боловсруулах дамжуулах шугамыг бий болгодог.

Data Scientist нь машин сургалтын алгоритм болон мэдрэлийн сүлжээг ашиглан урьдчилан таамаглах (болон бусад) загваруудыг бий болгож, сургаж, бизнесүүдэд далд хэв маягийг олох, хөгжлийг урьдчилан таамаглах, бизнесийн гол үйл явцыг оновчтой болгоход тусалдаг.

Өгөгдөл судлаач ба мэдээллийн инженерийн гол ялгаа нь тэд ихэвчлэн өөр өөр зорилготой байдаг. Аль аль нь өгөгдлийг хүртээмжтэй, өндөр чанартай байлгахын төлөө ажилладаг. Гэхдээ өгөгдөл судлаач асуултынхаа хариултыг олж, өгөгдлийн экосистемд (жишээ нь Hadoop дээр суурилсан) таамаглалуудыг шалгадаг бөгөөд өгөгдлийн инженер нь Spark кластерт өгөгдөл судлаачийн бичсэн машин сургалтын алгоритмд үйлчлэх шугамыг бий болгодог. экосистем. 

Дата инженер нь багийн нэг хэсэг болж ажилласнаар бизнест үнэ цэнийг авчирдаг. Үүний зорилго нь янз бүрийн оролцогчдын хооронд чухал холбоос болж ажиллах явдал юм: хөгжүүлэгчидээс бизнесийн хэрэглэгчид хүртэл тайлан гаргах, маркетинг, бүтээгдэхүүнээс эхлээд BI хүртэл шинжээчдийн бүтээмжийг нэмэгдүүлэх. 

Дата судлаач нь эсрэгээрээ компанийн стратегид идэвхтэй оролцож, ойлголтыг олж авах, шийдвэр гаргах, автоматжуулалтын алгоритмыг хэрэгжүүлэх, загварчлах, өгөгдлөөс үнэ цэнийг бий болгоход идэвхтэй оролцдог.
Өгөгдлийн инженер ба өгөгдөл судлаач: ялгаа нь юу вэ?

Өгөгдөлтэй ажиллах нь GIGO (garbage in - garbage out) зарчмыг баримтална: хэрвээ шинжээчид болон өгөгдөл судлаачид бэлтгэлгүй, буруу мэдээлэлтэй харьцвал хамгийн нарийн шинжилгээний алгоритмыг ашигласан ч үр дүн нь буруу байх болно. 

Өгөгдлийн инженерүүд өгөгдлийг боловсруулах, цэвэрлэх, хувиргах шугам хоолой барих замаар энэ асуудлыг шийдэж, өгөгдөл судлаачдад өндөр чанартай өгөгдөлтэй ажиллах боломжийг олгодог. 

Зах зээл дээр өгөгдлийн харагдах байдлаас эхлээд удирдах зөвлөлийн хяналтын самбар хүртэлх бүх үе шатыг хамарсан өгөгдөлтэй ажиллах олон хэрэгсэл байдаг. Мөн тэдгээрийг ашиглах шийдвэрийг инженер гаргах нь чухал юм - энэ нь загварлаг учраас биш, харин тэр үйл явцад бусад оролцогчдын ажилд үнэхээр туслах болно. 

Уламжлал ёсоор: хэрэв компани BI болон ETL хооронд холболт хийх шаардлагатай бол өгөгдөл ачаалах, тайланг шинэчлэх шаардлагатай бол өгөгдлийн инженерийн шийдвэрлэх ёстой ердийн хуучин суурь (баг дээр архитектор байвал сайн).

Мэдээллийн инженерийн үүрэг хариуцлага

  • Мэдээлэл боловсруулах дэд бүтцийг хөгжүүлэх, барих, засвар үйлчилгээ хийх.
  • Алдаатай ажиллах, өгөгдөл боловсруулах найдвартай шугамыг бий болгох.
  • Төрөл бүрийн динамик эх сурвалжаас бүтэцгүй өгөгдлийг шинжээчдийн ажилд шаардлагатай хэлбэрт оруулах.
  • Өгөгдлийн тогтвортой байдал, чанарыг сайжруулах зөвлөмжийг өгөх.
  • Мэдээллийн судлаачид болон өгөгдлийн шинжээчдийн ашигладаг өгөгдлийн архитектурыг хангах, хадгалах.
  • Арав, хэдэн зуун серверээс бүрдсэн хуваарилагдсан кластерт өгөгдлийг тогтвортой, үр дүнтэй боловсруулж, хадгалах.
  • Эвдрэлийг даван туулах энгийн боловч бат бөх архитектурыг бий болгохын тулд багаж хэрэгслийн техникийн солилцоог үнэл.
  • Мэдээллийн урсгал болон холбогдох системийг хянах, дэмжих (хяналт, сэрэмжлүүлэг тохируулах).

Өгөгдлийн инженерийн чиглэлийн өөр нэг мэргэжил байдаг - ML инженер. Товчхондоо эдгээр инженерүүд машин сургалтын загваруудыг үйлдвэрлэлийн хэрэгжилт, хэрэглээнд нэвтрүүлэх чиглэлээр мэргэшсэн. Ихэнхдээ өгөгдөл судлаачаас авсан загвар нь судалгааны нэг хэсэг бөгөөд байлдааны нөхцөлд ажиллахгүй байж болно.

Мэдээлэл судлаачийн үүрэг хариуцлага

  • Машин сургалтын алгоритмуудыг ашиглахын тулд өгөгдлөөс онцлогуудыг гаргаж авч байна.
  • Өгөгдөл дэх хэв маягийг урьдчилан таамаглах, ангилахад янз бүрийн машин сургалтын хэрэгслийг ашиглах.
  • Алгоритмуудыг нарийн тохируулах, оновчтой болгох замаар машин сургалтын алгоритмын гүйцэтгэл, нарийвчлалыг сайжруулах.
  • Турших шаардлагатай компанийн стратегийн дагуу "хүчтэй" таамаглалыг бий болгох.

Өгөгдлийн инженер, мэдээлэл судлаач хоёулаа өгөгдлийн соёлыг хөгжүүлэхэд бодит хувь нэмэр оруулдаг бөгөөд үүгээрээ компани нэмэлт ашиг олох эсвэл зардлыг бууруулах боломжтой.

Инженер, эрдэмтэд ямар хэл, багаж хэрэгслээр ажилладаг вэ?

Өнөөдөр өгөгдөл судлаачдын хүлээлт өөрчлөгдсөн. Өмнө нь инженерүүд том хэмжээний SQL асуулга цуглуулж, MapReduce-г гараар бичиж, Informatica ETL, Pentaho ETL, Talend зэрэг хэрэгслүүдийг ашиглан өгөгдлийг боловсруулдаг байв. 

2020 онд мэргэжилтэн Python болон орчин үеийн тооцооллын хэрэгслүүд (жишээлбэл, Airflow), үүлэн платформтой ажиллах зарчмуудыг ойлгохгүйгээр (тэдгээрийг техник хангамжийг хэмнэхийн тулд аюулгүй байдлын зарчмуудыг дагаж мөрдөх) мэдлэггүйгээр хийж чадахгүй.

SAP, Oracle, MySQL, Redis нь томоохон компаниудын өгөгдлийн инженерүүдэд зориулсан уламжлалт хэрэгсэл юм. Тэдгээр нь сайн, гэхдээ лицензийн үнэ маш өндөр тул тэдэнтэй ажиллахад суралцах нь зөвхөн үйлдвэрлэлийн төслүүдэд утга учиртай юм. Үүний зэрэгцээ Postgres хэлбэрээр үнэгүй хувилбар байдаг - энэ нь үнэ төлбөргүй бөгөөд зөвхөн сургалтанд тохиромжтой биш юм. 

Өгөгдлийн инженер ба өгөгдөл судлаач: ялгаа нь юу вэ?
Түүхээс харахад Java болон Scala-ийн хүсэлтүүд ихэвчлэн олддог боловч технологи, арга барил хөгжихийн хэрээр эдгээр хэлүүд ар тал руугаа ордог.

Гэсэн хэдий ч BigData: Hadoop, Spark болон бусад амьтны хүрээлэнгүүд нь дата инженерийн урьдчилсан нөхцөл байхаа больсон, харин уламжлалт ETL-ээр шийдэж чадахгүй байгаа асуудлыг шийдвэрлэх нэг төрлийн хэрэгсэл юм. 

Энэ чиг хандлага нь бичигдсэн хэлээ мэдэхгүй хэрэгслүүдийг ашиглах үйлчилгээ (жишээлбэл, Java-ийн мэдлэггүй Hadoop), түүнчлэн дамжуулалтын өгөгдлийг боловсруулах бэлэн үйлчилгээ (видео бичлэг дээр дуу хоолой таних эсвэл дүрс таних) юм. ).

SAS болон SPSS-ийн үйлдвэрлэлийн шийдлүүд түгээмэл байдаг бол Tableau, Rapidminer, Stata, Julia нар орон нутгийн ажилд өгөгдөл судлаачид өргөнөөр ашигладаг.

Өгөгдлийн инженер ба өгөгдөл судлаач: ялгаа нь юу вэ?
Дамжуулах хоолой өөрөө бүтээх чадвар нь шинжээчид болон өгөгдөл судлаачдад хэдхэн жилийн өмнө гарч ирсэн: жишээлбэл, харьцангуй энгийн скрипт ашиглан PostgreSQL-д суурилсан хадгалах сан руу өгөгдөл илгээх боломжтой болсон. 

Ерөнхийдөө дамжуулах хоолой, мэдээллийн нэгдсэн бүтцийг ашиглах нь мэдээллийн инженерүүдийн үүрэг хэвээр байна. Гэвч өнөөдөр багаж хэрэгслийг байнга хялбарчилж байдаг тул холбогдох чиглэлээр өргөн мэдлэгтэй T хэлбэрийн мэргэжилтнүүдийн чиг хандлага урьд өмнө байгаагүй хүчтэй болж байна.

Мэдээллийн инженер ба өгөгдөл судлаач яагаад хамтран ажилладаг вэ?

Инженерүүдтэй нягт хамтран ажилласнаар Data Scientists судалгааны тал дээр анхаарлаа төвлөрүүлж, үйлдвэрлэлд бэлэн машин сургалтын алгоритмуудыг бий болгож чадна.
Мөн инженерүүд өргөтгөх чадвар, өгөгдлийг дахин ашиглах, төсөл бүрийн өгөгдөл оруулах, гаралтын шугам сүлжээг дэлхийн архитектуртай нийцүүлэхэд анхаарах хэрэгтэй.

Энэхүү үүрэг хариуцлагыг хуваах нь янз бүрийн машин сургалтын төслүүд дээр ажиллаж буй багуудын уялдаа холбоог баталгаажуулдаг. 

Хамтын ажиллагаа нь шинэ бүтээгдэхүүнийг үр дүнтэй бүтээхэд тусалдаг. Хүн бүрт зориулсан үйлчилгээг бий болгох (дэлхийн хадгалалт эсвэл хяналтын самбарыг нэгтгэх) болон тодорхой хэрэгцээ, төсөл бүрийг хэрэгжүүлэх (өндөр мэргэшсэн дамжуулах хоолой, гадаад эх үүсвэрийг холбох) хоорондын тэнцвэрт байдал нь хурд, чанарт хүрдэг. 

Өгөгдлийн эрдэмтэн, шинжээчидтэй нягт хамтран ажиллах нь инженерүүдэд илүү сайн код бичихийн тулд аналитик болон судалгааны ур чадварыг хөгжүүлэхэд тусалдаг. Агуулах болон дата нуурын хэрэглэгчдийн дунд мэдлэг хуваалцах нь сайжирч, төслүүдийг илүү уян хатан болгож, урт хугацааны тогтвортой үр дүнг өгдөг.

Өгөгдөлтэй ажиллах соёлыг хөгжүүлэх, түүнд суурилсан бизнесийн үйл явцыг бий болгох зорилготой компаниудад Data Scientist болон Data Engineer нь бие биенээ нөхөж, мэдээллийн бүрэн шинжилгээний системийг бий болгодог. 

Дараагийн өгүүллээр бид Мэдээллийн инженер, мэдээлэл судлаачид ямар боловсролтой байх ёстой, ямар ур чадварыг хөгжүүлэх ёстой, зах зээл хэрхэн ажилладаг талаар ярих болно.

Netology-ийн редакторуудаас

Хэрэв та өгөгдлийн инженер эсвэл өгөгдөл судлаачийн мэргэжлийг хайж байгаа бол бид таныг манай сургалтын хөтөлбөрүүдийг судлахыг урьж байна.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх