ፓቬል ክሌመንኮቭ፣ ኒቪዲ፡ አንድ የውሂብ ሳይንቲስት ሊያደርግ በሚችለው እና ምን ማድረግ መቻል እንዳለበት መካከል ያለውን ክፍተት ለመቀነስ እየሞከርን ነው።

በዳታ ሳይንስ እና በቢዝነስ ኢንተለጀንስ ኦዞን ማስተርስ ሁለተኛ ደረጃ የማስተርስ ፕሮግራም ተማሪዎች ቅበላ ተጀመረ - እና ማመልከቻውን ለቀው ለመወሰን እና የመስመር ላይ ፈተና ለመውሰድ ቀላል ለማድረግ ፣ በማጥናት እና በመስራት ምን እንደሚጠበቅ የፕሮግራሙ መምህራንን ጠየቅን ። ከመረጃ ጋር።

ፓቬል ክሌመንኮቭ፣ ኒቪዲ፡ አንድ የውሂብ ሳይንቲስት ሊያደርግ በሚችለው እና ምን ማድረግ መቻል እንዳለበት መካከል ያለውን ክፍተት ለመቀነስ እየሞከርን ነው። ዋና የውሂብ ሳይንቲስት NVIDIA እና አስተማሪ በ Big Data እና Data Engineering ላይ ኮርሶች ፓቬል ክሌመንኮቭ የሒሳብ ሊቃውንት ለምን ኮድ መጻፍ እና በኦዞን ማስተርስ ለሁለት ዓመታት ማጥናት እንደሚያስፈልጋቸው ተናግሯል.

- የውሂብ ሳይንስ ስልተ ቀመሮችን የሚጠቀሙ ብዙ ኩባንያዎች አሉ?

- በእውነቱ በጣም ብዙ። በጣም ብዙ ትልቅ መረጃ ያላቸው ትላልቅ ኩባንያዎች ከሱ ጋር ውጤታማ በሆነ መንገድ መስራት ጀምረዋል ወይም ለረጅም ጊዜ ሲሰሩ ቆይተዋል. ከገበያው ውስጥ ግማሽ ያህሉ በኤክሴል የተመን ሉህ ውስጥ ሊገባ የሚችል ወይም በትልቁ ሰርቨር ላይ ሊሰላ የሚችል ዳታ እንደሚጠቀም ግልጽ ነው ነገር ግን በመረጃ የሚሰሩ ጥቂት ቢዝነሶች ብቻ ናቸው ማለት አይቻልም።

— የውሂብ ሳይንስ ጥቅም ላይ ስለሚውልባቸው ፕሮጀክቶች ትንሽ ይንገሩን።

- ለምሳሌ, Rambler ውስጥ በምንሰራበት ጊዜ, በ RTB (በሪል ታይም ጨረታ) መርሆዎች ላይ የሚሰራ የማስታወቂያ ስርዓት እየሰራን ነበር - የማስታወቂያ ግዢን የሚያመቻቹ ወይም ለምሳሌ የመሆን እድልን ሊተነብዩ የሚችሉ ብዙ ሞዴሎችን መገንባት ነበረብን. የጠቅታ፣ የመቀየር እና የመሳሰሉት። በተመሳሳይ ጊዜ የማስታወቂያ ጨረታ ብዙ መረጃዎችን ያመነጫል፡ የድረ-ገጽ ጥያቄዎች ለማስታወቂያ ገዥዎች፣ የማስታወቂያ ግንዛቤዎች፣ የጠቅታ መዝገቦች - ይህ በቀን በአስር ቴራባይት ውሂብ ነው።

ከዚህም በላይ ለእነዚህ ተግባራት አንድ አስደሳች ክስተት አስተውለናል: ሞዴሉን ለማሰልጠን ብዙ መረጃ በሰጠህ መጠን, ጥራቱ ከፍ ያለ ነው. ብዙውን ጊዜ, ከተወሰነ የውሂብ መጠን በኋላ, የትንበያው ጥራት መሻሻል ያቆማል, እና ትክክለኝነትን የበለጠ ለማሻሻል, በመሠረቱ የተለየ ሞዴል, መረጃን ለማዘጋጀት የተለየ አቀራረብን, ባህሪያትን እና የመሳሰሉትን መጠቀም ያስፈልግዎታል. እዚህ ተጨማሪ ውሂብ ሰቅለናል እና ጥራቱ ጨምሯል።

ይህ ተንታኞች ቢያንስ ሙከራ ለማድረግ በመጀመሪያ ከትልቅ የውሂብ ስብስቦች ጋር መስራት የነበረባቸው እና ምቹ በሆነ MacBook ውስጥ በሚመጥን ትንሽ ናሙና ማግኘት የማይቻልበት የተለመደ ጉዳይ ነው። በተመሳሳይ ጊዜ, የተከፋፈሉ ሞዴሎች ያስፈልጉናል, ምክንያቱም አለበለዚያ ግን ሊሰለጥኑ አይችሉም. የኮምፒዩተር እይታን ወደ ምርት በማስተዋወቅ እንደነዚህ ያሉት ምሳሌዎች በጣም የተለመዱ እየሆኑ መጥተዋል, ስዕሎች ከፍተኛ መጠን ያለው መረጃ በመሆናቸው እና ትልቅ ሞዴል ለማሰልጠን በሚሊዮኖች የሚቆጠሩ ስዕሎች ያስፈልጋሉ.

ጥያቄው ወዲያውኑ የሚነሳው-እነዚህን ሁሉ መረጃዎች እንዴት ማከማቸት, እንዴት ውጤታማ በሆነ መንገድ ማቀናበር እንደሚቻል, የተከፋፈሉ የመማሪያ ስልተ ቀመሮችን እንዴት መጠቀም እንደሚቻል - ትኩረቱ ከንጹህ ሂሳብ ወደ ምህንድስና እየተሸጋገረ ነው. በምርት ውስጥ ኮድ ባይጽፉም, ሙከራን ለማካሄድ ከምህንድስና መሳሪያዎች ጋር መስራት መቻል አለብዎት.

- ከቅርብ ዓመታት ወዲህ የመረጃ ሳይንስ ክፍት የሥራ ቦታዎች አቀራረብ እንዴት ተለውጧል?

- ትላልቅ መረጃዎች ማሞገስ አቁመዋል እና እውን ሆነዋል። ሃርድ ድራይቭ በጣም ርካሽ ነው, ይህም ማለት ለወደፊቱ ማንኛውንም መላምት ለመፈተሽ በቂ እንዲሆን ሁሉንም መረጃዎች መሰብሰብ ይቻላል. በውጤቱም, ከትልቅ ዳታ ጋር ለመስራት መሳሪያዎች እውቀት በጣም ተወዳጅ እየሆነ መጥቷል, በዚህም ምክንያት, ለዳታ መሐንዲሶች ብዙ እና ተጨማሪ ክፍት ቦታዎች እየታዩ ነው.

በእኔ ግንዛቤ, የውሂብ ሳይንቲስት ስራ ውጤት ሙከራ አይደለም, ነገር ግን ምርት ላይ የደረሰ ምርት ነው. እና ልክ ከዚህ እይታ አንፃር ፣ በትልቅ መረጃ ዙሪያ የጅምላ ወሬ ከመምጣቱ በፊት ፣ ሂደቱ ቀላል ነበር-መሐንዲሶች ልዩ ችግሮችን ለመፍታት በማሽን መማር ላይ ተሰማርተው ነበር ፣ እና አልጎሪዝምን ወደ ምርት ለማምጣት ምንም ችግሮች አልነበሩም።

- ተፈላጊ ስፔሻሊስት ሆኖ ለመቆየት ምን ያስፈልጋል?

- አሁን ብዙ ሰዎች የሂሳብ ትምህርትን ፣ የማሽን መማርን ንድፈ ሀሳብ ያጠኑ እና በመረጃ ትንተና ውድድር ውስጥ የተሳተፉ ወደ ዳታ ሳይንስ መጥተዋል ፣ ዝግጁ የሆነ መሠረተ ልማት ይዘጋጃል-መረጃው ይጸዳል ፣ መለኪያዎች ይገለጻሉ እና ምንም የሉም። መፍትሄው ሊባዛ እና ፈጣን እንዲሆን የሚያስፈልጉ መስፈርቶች.

በውጤቱም, ወንዶች ለንግድ እውነታዎች ሳይዘጋጁ ወደ ሥራ ይመጣሉ, እና በአዲስ ጀማሪዎች እና ልምድ ባላቸው ገንቢዎች መካከል ክፍተት ተፈጥሯል.

የእራስዎን ሞዴል ከተዘጋጁ ሞጁሎች - እና ማይክሮሶፍት ፣ ጉግል እና ሌሎች ብዙ ቀድሞውኑ እንደዚህ ያሉ መፍትሄዎች አሏቸው - እና የማሽን መማሪያን በራስ-ሰር እንዲሰሩ የሚያስችልዎ መሳሪያዎችን በማዘጋጀት ይህ ክፍተት የበለጠ ግልፅ ይሆናል። ወደፊት ሙያው አዳዲስ ስልተ ቀመሮችን የሚያመነጩ ከባድ ተመራማሪዎች እና የዳበረ የምህንድስና ክህሎት ያላቸው ሰራተኞች ሞዴሎችን የሚተገብሩ እና ሂደቶችን በራስ ሰር የሚሹ ይሆናል። በመረጃ ምህንድስና ውስጥ ያለው የኦዞን ማስተርስ ኮርስ የምህንድስና ክህሎቶችን ለማዳበር እና የተከፋፈለ የማሽን መማሪያ ስልተ ቀመሮችን በትልቁ መረጃ ላይ የመጠቀም ችሎታን ለማዳበር የተነደፈ ነው። የውሂብ ሳይንቲስት ማድረግ በሚችለው እና በተግባር ምን ማድረግ መቻል እንዳለበት መካከል ያለውን ክፍተት ለመቀነስ እየሞከርን ነው።

- ዲፕሎማ ያለው የሂሳብ ሊቅ ለምን ወደ ንግድ ሥራ መሄድ አለበት?

- የሩስያ ዳታ ሳይንስ ማህበረሰብ ክህሎት እና ልምድ በፍጥነት ወደ ገንዘብ እንደሚቀየር ተረድቷል, ስለዚህ, ልዩ ባለሙያተኛ የተግባር ልምድ እንዳገኘ, ዋጋው በፍጥነት ማደግ ይጀምራል, በጣም የተካኑ ሰዎች በጣም ውድ ናቸው - እና ይሄ አሁን ባለው የእድገት ገበያ እውነት ነው።

የውሂብ ሳይንቲስት ትልቅ ክፍል ወደ መረጃው ውስጥ መግባት፣ እዚያ ያለውን ነገር መረዳት፣ ለንግድ ስራ ሂደቶች ተጠያቂ ከሆኑ ሰዎች ጋር መማከር እና ይህን ውሂብ ማመንጨት ነው - እና ከዚያ በኋላ ሞዴሎችን ለመገንባት ብቻ ይጠቀሙ። በትልቁ መረጃ መስራት ለመጀመር የምህንድስና ክህሎቶች መኖር እጅግ በጣም አስፈላጊ ነው - ይህ በዳታ ሳይንስ ውስጥ ብዙ ያሉ ሹል ማዕዘኖችን ለማስወገድ በጣም ቀላል ያደርገዋል።

የተለመደ ታሪክ፡ በትልቅ ዳታ ላይ የሚሰራውን የቀፎ ማዕቀፍ በመጠቀም የሚፈፀም ጥያቄን በSQL ጽፈሃል። ጥያቄው በአስር ደቂቃዎች ውስጥ, በከፋ ሁኔታ ውስጥ - በአንድ ወይም በሁለት ሰአት ውስጥ, እና ብዙውን ጊዜ, የዚህን ውሂብ ውርዶች ሲቀበሉ, አንዳንድ ምክንያቶችን ወይም ተጨማሪ መረጃዎችን ግምት ውስጥ ማስገባት እንደረሱ ይገነዘባሉ. ጥያቄውን እንደገና መላክ እና እነዚህን ደቂቃዎች እና ሰዓቶች መጠበቅ አለብዎት. የቅልጥፍና ሊቅ ከሆንክ ሌላ ስራ ትወስዳለህ ነገር ግን እንደ ልምምድ እንደሚያሳየው እኛ ጥቂት የውጤታማነት ባለሙያዎች አሉን እና ሰዎች እየጠበቁ ናቸው። ስለዚህ, በኮርሶቹ ውስጥ ለሁለት ሰዓታት ሳይሆን ለብዙ ደቂቃዎች የሚሰሩ ጥያቄዎችን በመጀመሪያ ለመጻፍ ለሥራ ቅልጥፍና ብዙ ጊዜ እናጠፋለን. ይህ ክህሎት ምርታማነትን ያበዛል, እና ከእሱ ጋር ልዩ ባለሙያተኛ እሴት.

- የኦዞን ማስተርስ ከሌሎች ኮርሶች የሚለየው እንዴት ነው?

- የኦዞን ማስተርስ በኦዞን ሰራተኞች ያስተምራል, እና ተግባሮቹ በኩባንያዎች ውስጥ በተፈቱ እውነተኛ የንግድ ጉዳዮች ላይ የተመሰረቱ ናቸው. እንደውም ከኢንጂነሪንግ ክህሎት ማነስ በተጨማሪ በዩንቨርስቲ በዳታ ሳይንስ የተማረ ሰው ሌላ ችግር አለበት፡የቢዝነስ ስራ የሚቀረፀው በንግድ ቋንቋ ሲሆን አላማውም በጣም ቀላል ነው ተጨማሪ ገንዘብ ለማግኘት። እና የሂሳብ ሊቅ እንዴት የሂሳብ መለኪያዎችን ማመቻቸት እንዳለበት ጠንቅቆ ያውቃል - ነገር ግን ከንግድ ልኬት ጋር የሚዛመድ አመልካች ማግኘት ከባድ ነው። እና የንግድ ችግር እየፈታህ እንደሆነ መረዳት አለብህ፣ እና ከንግዱ ጋር በሒሳብ ሊሳቡ የሚችሉ መለኪያዎችን ቅረጽ። ይህ ክህሎት የሚገኘው በእውነተኛ ጉዳዮች ነው, እና በኦዞን የተሰጡ ናቸው.
እና ጉዳዮችን ችላ ብንል እንኳን, ትምህርት ቤቱ በእውነተኛ ኩባንያዎች ውስጥ የንግድ ችግሮችን በሚፈቱ ብዙ ባለሙያዎች ያስተምራል. በውጤቱም, እራሱን የማስተማር አቀራረብ አሁንም የበለጠ ልምምድ-ተኮር ነው. ቢያንስ በእኔ ኮርስ ትኩረቴን ወደ መሳሪያዎቹ እንዴት መጠቀም እንዳለብኝ፣ ምን አይነት አካሄዶች እንዳሉ እና የመሳሰሉትን ለመቀየር እሞክራለሁ። ከተማሪዎቹ ጋር ፣እያንዳንዱ ተግባር የራሱ መሳሪያ እንዳለው እና እያንዳንዱ መሳሪያ የራሱ የሆነ ተፈጻሚነት እንዳለው እንረዳለን።

- በጣም ታዋቂው የመረጃ ትንተና የሥልጠና ፕሮግራም ፣ በእርግጥ ፣ SHAD ነው - በትክክል ከእሱ የሚለየው ምንድነው?

- ሻድ እና ኦዞን ማስተርስ ከትምህርት ተግባር በተጨማሪ የሰራተኞች ማሰልጠኛ አካባቢያዊ ችግርን እንደሚፈቱ ግልጽ ነው. ከፍተኛ የSHAAD ተመራቂዎች በዋናነት ወደ Yandex ይመለመላሉ ነገር ግን የተያዘው Yandex, በዝርዝሩ ምክንያት - እና ትልቅ ነው እና በትልልቅ ዳታ ለመስራት ጥቂት ጥሩ መሳሪያዎች በነበሩበት ጊዜ የተፈጠረ - የራሱ የሆነ መሠረተ ልማት እና ከውሂብ ጋር ለመስራት መሳሪያዎች አሉት. , ይህም ማለት እነሱን መቆጣጠር አለብዎት. የኦዞን ማስተርስ ሌላ መልእክት አለው - ፕሮግራሙን በተሳካ ሁኔታ ከጨረሱ እና ኦዞን ወይም ከሌሎች 99% ኩባንያዎች ውስጥ አንዱ ወደ ሥራ ቢጋብዝዎት ንግዱን መጠቀም መጀመር በጣም ቀላል ይሆናል ፣ የኦዞን ማስተርስ አካል ሆኖ የተገኘው የክህሎት ስብስብ ሥራ ለመጀመር ብቻ በቂ ይሆናል.

- ኮርሱ ለሁለት ዓመታት ይቆያል. በዚህ ላይ ብዙ ጊዜ ማሳለፍ ለምን አስፈለገ?

- ጥሩ ጥያቄ. ረጅም ጊዜ ይወስዳል, ምክንያቱም በይዘት እና በአስተማሪዎች ደረጃ, ይህ የቤት ስራን ጨምሮ, ለመቆጣጠር ብዙ ጊዜ የሚጠይቅ የተዋሃደ ማስተር ፕሮግራም ነው.

በእኔ ኮርስ እይታ፣ ተማሪ በሳምንት ከ2-3 ሰአታት በምደባ እንዲያሳልፍ መጠበቅ የተለመደ ነው። በመጀመሪያ፣ ተግባራት የሚከናወኑት በስልጠና ክላስተር ላይ ነው፣ እና ማንኛውም የጋራ ስብስብ ብዙ ሰዎች በአንድ ጊዜ እንደሚጠቀሙበት ያመለክታል። ይህም ማለት ስራው መፈጸም እስኪጀምር ድረስ መጠበቅ አለብህ፤ አንዳንድ ሃብቶች ተመርጠው ወደ ከፍተኛ ቅድሚያ ወረፋ ሊተላለፉ ይችላሉ። በሌላ በኩል, ትልቅ ውሂብ ያለው ማንኛውም ስራ ብዙ ጊዜ ይወስዳል.

በትልቅ ዳታ ወይም የምህንድስና ክህሎት በመስራት ስለ ፕሮግራሙ ተጨማሪ ጥያቄዎች ካሎት፣ ኦዞን ማስተርስ ቅዳሜ ኤፕሪል 25 ቀን 12፡00 ላይ በመስመር ላይ ክፍት ቀን አለው። ከመምህራን እና ተማሪዎች ጋር እንገናኛለን። አጉላ እና በርቷል YouTube.

ምንጭ: hab.com

አስተያየት ያክሉ