Маалымат инженери жана маалымат таануучу: кандай айырма бар?

Data Scientist жана Data Engineer кесиптери көбүнчө чаташтырышат. Ар бир компаниянын маалыматтар менен иштөөнүн өзүнүн өзгөчөлүктөрү, аларды талдоо үчүн ар кандай максаттар жана адистердин кайсынысы иштин кайсы бөлүгүнө тартылышы керектиги жөнүндө ар кандай түшүнүк бар, ошондуктан ар биринин өзүнүн талаптары бар. 

Биз бул адистердин ортосунда кандай айырма бар, алар кандай бизнес милдеттерин чечет, кандай жөндөмгө ээ жана канча киреше табаарын аныктайбыз. Материал чоң болуп чыкты, ошондуктан эки басылмага бөлүндү.

Биринчи макалада, Елена Герасимова, факультеттин башчысы "Маалымат илими жана аналитика” Netology тармагында маалымат таануучу менен маалымат инженеринин ортосунда кандай айырма бар жана алар кандай куралдар менен иштешет.

Инженерлердин жана илимпоздордун ролу кандайча айырмаланат?

Маалымат инженери - бул, бир жагынан, маалыматтар менен иштөө үчүн инфраструктураны иштеп чыгуучу, сынаган жана тейлөөчү адис: маалымат базалары, сактагычтар жана массалык иштетүү системалары. Башка жагынан алганда, бул аналитиктер жана маалымат таануучулар тарабынан пайдалануу үчүн маалыматтарды тазалап, "тарагы", башкача айтканда, маалыматтарды иштетүү түтүктөрүн түзөт.

Data Scientist машина үйрөнүү алгоритмдерин жана нейрон тармактарын колдонуу менен болжолдоочу (жана башка) моделдерди түзүп, үйрөтөт, бул бизнеске жашыруун калыптарды табууга, өнүгүүлөрдү болжолдоого жана негизги бизнес процесстерин оптималдаштырууга жардам берет.

Маалымат таануучу менен Маалымат инженеринин негизги айырмасы, алардын адатта ар кандай максаттары бар. Экөө тең маалыматтын жеткиликтүү жана сапаттуу болушу үчүн иштешет. Бирок Data Scientist өзүнүн суроолоруна жооп табат жана маалымат экосистемасындагы гипотезаларды сынайт (мисалы, Hadoop негизинде) жана Data Engineer ошол эле ичиндеги Spark кластеринде маалымат илимпоз тарабынан жазылган машинаны үйрөнүү алгоритми үчүн кызмат түтүгүн түзөт. экосистема. 

Маалымат инженери команда болуп иштөө менен бизнеске баалуулук алып келет. Анын миссиясы - иштеп чыгуучулардан бизнес-пайдалануучуларга чейин - ар кандай катышуучулардын ортосунда маанилүү байланыш болуп саналат жана аналитиктердин өндүрүмдүүлүгүн жогорулатуу - маркетинг жана продуктулардан BIга чейин. 

Ал эми Data Scientist компаниянын стратегиясына активдүү катышат жана түшүнүктөрдү алууда, чечимдерди кабыл алууда, автоматташтыруу алгоритмдерин ишке ашырууда, моделдөөдө жана маалыматтардан баалуулуктарды жаратууда.
Маалымат инженери жана маалымат таануучу: кандай айырма бар?

Берилиштер менен иштөө GIGO (garbage in - garbage out) принцибине баш ийет: эгер аналитиктер жана маалымат таануучулар даярдыгы жок жана потенциалдуу туура эмес маалыматтар менен иштешсе, анда эң татаал анализ алгоритмдеринин жыйынтыгы да туура эмес болуп калат. 

Маалымат инженерлери бул көйгөйдү маалыматтарды иштеп чыгуу, тазалоо жана өзгөртүү үчүн түтүктөр куруу жана маалымат илимпозуна жогорку сапаттагы маалыматтар менен иштөөгө мүмкүндүк берүү менен чечишет. 

Рынокто ар бир этапты камтыган көптөгөн маалымат куралдары бар: маалыматтардын пайда болушунан баштап директорлор кеңешинин башкаруу тактасына чейин. Жана аларды пайдалануу боюнча чечимди инженер кабыл алышы маанилүү, анткени бул модалуу эмес, бирок ал процесстин башка катышуучуларына алардын ишинде чындап жардам берет. 

Шарттуу түрдө: эгерде компания BI жана ETL менен достошушу керек болсо - маалыматтарды жүктөө жана отчетторду жаңыртуу, бул жерде Data Engineer чечиши керек болгон типтүү мурас пайдубалы (командада андан башка архитектор болсо жакшы болот) .

Маалымат инженеринин милдеттери

  • Маалыматтар менен иштөө үчүн инфраструктураны өнүктүрүү, куруу жана тейлөө.
  • Ката иштетүү жана бекем маалымат иштетүү түтүктөрүн куруу.
  • Ар кандай динамикалык булактардан түзүлбөгөн маалыматтарды талдоочулардын иши үчүн керектүү формага алып келүү.
  • Маалыматтардын ырааттуулугун жана сапатын жакшыртуу боюнча сунуштарды берүү.
  • Маалымат илимпоздору жана аналитиктер колдонгон маалыматтар архитектурасын камсыз кылуу жана колдоо.
  • Ондогон же жүздөгөн серверлердин бөлүштүрүлгөн кластеринде маалыматтарды ырааттуу жана натыйжалуу иштетүү жана сактоо.
  • Жөнөкөй, бирок катачылыктарга туруштук бере ала турган күчтүү архитектураларды түзүү үчүн инструменттердин техникалык алмашуусун баалаңыз.
  • Маалымат агымдарын жана ага байланыштуу системаларды көзөмөлдөө жана колдоо (мониторинг жана эскертүүлөрдү орнотуу).

Data Engineer траекториясында дагы бир адистик бар - ML инженери. Кыскача айтканда, бул инженерлер өнөр жай кабыл алуу жана колдонуу үчүн машина үйрөнүү моделдерин алып адистешкен. Көбүнчө маалымат таануучу модели изилдөөнүн бир бөлүгү болуп саналат жана согушта иштебеши мүмкүн.

Маалымат таануучунун милдеттери

  • Машина үйрөнүү алгоритмдерин колдонуу үчүн маалыматтардан функцияларды алуу.
  • Маалыматтардагы үлгүлөрдү болжолдоо жана классификациялоо үчүн ар кандай машина окуу куралдарын колдонуу.
  • Алгоритмдерди тактоо жана оптималдаштыруу аркылуу машина үйрөнүү алгоритмдеринин иштешин жана тактыгын жакшыртыңыз.
  • Компаниянын стратегиясына ылайык «күчтүү» гипотезаларды калыптандыруу, алар текшерүүдөн өтүшү керек.

Маалымат инженери да, маалымат таануучу да маалыматтар менен иштөө маданиятын өнүктүрүүгө олуттуу салымын бириктирет, анын жардамы менен компания кирешени көбөйтүп же чыгымдарды азайтат.

Инженерлер жана окумуштуулар кандай тилдер жана аспаптар менен иштешет?

Бүгүнкү күндө маалымат илимпоздорунун күтүүлөрү өзгөрдү. Буга чейин инженерлер чоң SQL сурамдарын куруп, MapReduce кол менен жазып, Informatica ETL, Pentaho ETL, Talend сыяктуу куралдарды колдонуу менен маалыматтарды иштетишкен. 

2020-жылы адис Python жана заманбап эсептөө куралдарын (мисалы, Airflow) билбестен, булут платформалары менен иштөө принциптерин түшүнбөстөн (аппараттык каражаттарды үнөмдөө үчүн аларды колдонуу менен коопсуздук принциптерин сактоо менен) кыла албайт.

SAP, Oracle, MySQL, Redis ири компанияларда салттуу маалымат инженерлери болуп саналат. Алар жакшы, бирок лицензиялардын баасы ушунчалык жогору болгондуктан, алар менен өнөр жай долбоорлорунда иштөөнү үйрөнүү гана мааниси бар. Ошол эле учурда, Postgres түрүндө акысыз альтернатива бар - бул акысыз жана окуу үчүн гана эмес. 

Маалымат инженери жана маалымат таануучу: кандай айырма бар?
Тарыхый жактан Java жана Scala үчүн суроо-талап көп кездешкен, бирок технологиялар жана ыкмалар өнүккөн сайын бул тилдер арткы планга өтүп кетет.

Бирок, хардкор BigData: Hadoop, Spark жана зоопарктын калган бөлүгү мындан ары маалымат инженери үчүн милдеттүү шарт эмес, бирок салттуу ETL чече албаган көйгөйлөрдү чечүүнүн бир түрү. 

Тренд бул куралдарды алар жазылган тилди билбестен колдонуу кызматтары (мисалы, Java тилин билбестен Hadoop), ошондой эле агымдык маалыматтарды иштеп чыгуу боюнча даяр кызматтарды көрсөтүү (видеодогу үндү же сүрөттөрдү таануу).

SAS жана SPSSтин өнөр жай чечимдери популярдуу, ал эми Tableau, Rapidminer, Stata жана Julia да маалымат таануучулар тарабынан жергиликтүү тапшырмалар үчүн кеңири колдонулат.

Маалымат инженери жана маалымат таануучу: кандай айырма бар?
Аналитиктер жана маалымат таануучулар бир-эки жыл мурун өздөрү куурларды куруу мүмкүнчүлүгүнө ээ болушкан: мисалы, PostgreSQL негизиндеги сактагычка салыштырмалуу жөнөкөй скрипттер менен маалыматтарды жөнөтүү мүмкүн. 

Эреже катары, түтүктөрдү жана интеграцияланган маалымат структураларын колдонуу маалымат инженерлерине жүктөлөт. Бирок, бүгүнкү күндө T-түрүндөгү адистер үчүн тенденция болуп көрбөгөндөй күчтүү - тиешелүү тармактарда кеңири компетенцияларга ээ, анткени инструменттер дайыма жөнөкөйлөштүрүлүп жатат.

Эмне үчүн маалымат инженери менен маалымат таануучу бирге иштешет

Инженерлер менен тыгыз иштешип, Data Scientist изилдөө жагына көңүл буруп, иштөөгө даяр болгон машина үйрөнүү алгоритмдерин түзө алат.
Жана инженерлер масштабдуулукка, маалыматтарды кайра колдонууга көңүл бурушу керек жана ар бир жеке долбоордогу маалыматтарды киргизүү жана чыгаруу түтүктөрүнүн глобалдык архитектурага ылайык келишин камсыз кылышы керек.

Милдеттердин мындай бөлүнүшү ар кандай машина үйрөнүү долбоорлорунда иштеген командалардын ырааттуулугун камсыз кылат. 

Кызматташуу натыйжалуу жаңы өнүмдөрдү түзүүгө жардам берет. Ылдамдык жана сапат ар бир адам үчүн кызматты түзүү (глобалдык сактоо же башкаруу панелинин интеграциясы) жана ар бир конкреттүү муктаждыкты же долбоорду ишке ашыруу (тышкы булактарды туташтыруучу жогорку адистештирилген түтүк) ортосундагы баланс аркылуу жетишилет. 

Маалымат таануучулар жана аналитиктер менен тыгыз иштешүү инженерлерге жакшыраак код жазуу үчүн аналитикалык жана изилдөө көндүмдөрүн өнүктүрүүгө жардам берет. Маалымат кампаларын жана маалымат көлдөрүн колдонуучулардын ортосунда билимди бөлүшүү жакшыртылып, долбоорлорду ийкемдүү кылып, туруктуу узак мөөнөттүү натыйжаларды берет.

Маалыматтар менен иштөө маданиятын өнүктүрүүнү жана анын негизинде бизнес процесстерин курууну максат кылган компанияларда Data Scientist жана Data Engineer бири-бирин толуктап, толук маалыматтарды талдоо системасын түзүшөт. 

Кийинки макалада биз Data Engineer жана Data Scients кандай билимге ээ болушу керек, алар кандай көндүмдөрдү өнүктүрүү керек жана рынок кандай иштейт.

Netology редакциясынан

Эгер сиз маалымат инженери же маалымат таануучу кесибин карап жатсаңыз, биз сизди биздин курстардын программаларын изилдөөгө чакырабыз:

Source: www.habr.com

Комментарий кошуу