Π‘ΠΎΠ³Π»Π°ΡΠ½ΠΎ
Π― ΠΏΡΠΎΠ°Π½Π°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°Π» Π²Π°ΠΊΠ°Π½ΡΠΈΠΈ Π½Π° ΠΏΠΎΠ·ΠΈΡΠΈΡ data engineer Π² ΡΠΎΠΌ Π²ΠΈΠ΄Π΅, Π² ΠΊΠΎΡΠΎΡΠΎΠΌ ΠΎΠ½ΠΈ ΠΏΡΠ΅Π±ΡΠ²Π°ΡΡ Π² ΡΠ½Π²Π°ΡΠ΅ 2020 Π³ΠΎΠ΄Π°, ΡΡΠΎΠ±Ρ ΠΏΠΎΠ½ΡΡΡ, ΠΊΠ°ΠΊΠΈΠ΅ ΡΠΌΠ΅Π½ΠΈΡ Π² ΠΎΠ±Π»Π°ΡΡΠΈ ΡΠ΅Ρ Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ ΠΏΠΎΠ»ΡΠ·ΡΡΡΡΡ Π½Π°ΠΈΠ±ΠΎΠ»ΡΡΠ΅ΠΉ ΠΏΠΎΠΏΡΠ»ΡΡΠ½ΠΎΡΡΡΡ. ΠΠ°ΡΠ΅ΠΌ Ρ ΡΡΠ°Π²Π½ΠΈΠ» ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ ΡΠΎ ΡΡΠ°ΡΠΈΡΡΠΈΠΊΠΎΠΉ ΠΏΠΎ Π²Π°ΠΊΠ°Π½ΡΠΈΡΠΌ Π½Π° ΠΏΠΎΠ·ΠΈΡΠΈΠΈ data scientist β ΠΏΡΠΈ ΡΡΠΎΠΌ Π²ΡΠΊΡΡΠ»ΠΈΡΡ Π½Π΅ΠΊΠΎΡΠΎΡΡΠ΅ Π·Π°Π½ΡΡΠ½ΡΠ΅ ΡΠ°Π·Π»ΠΈΡΠΈΡ.
ΠΠ±ΠΎΠΉΠ΄Π΅ΠΌΡΡ Π±Π΅Π· Π΄ΠΎΠ»Π³ΠΈΡ ΠΏΡΠ΅Π΄ΠΈΡΠ»ΠΎΠ²ΠΈΠΉ β Π²ΠΎΡ ΡΠΎΠΏ-Π΄Π΅ΡΡΡΡ ΡΠ΅Ρ Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ, ΠΊΠΎΡΠΎΡΡΠ΅ ΡΠΏΠΎΠΌΠΈΠ½Π°ΡΡΡΡ Π² ΡΠ΅ΠΊΡΡΠ°Ρ Π²Π°ΠΊΠ°Π½ΡΠΈΠΉ ΡΠ°ΡΠ΅ Π²ΡΠ΅Π³ΠΎ:
Π£ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΡ ΡΠ΅Ρ Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ Π² Π²Π°ΠΊΠ°Π½ΡΠΈΡΡ Π½Π° ΠΏΠΎΠ·ΠΈΡΠΈΡ data engineer Π² 2020 Π³ΠΎΠ΄Ρ
ΠΠ°Π²Π°ΠΉΡΠ΅ ΡΠ°Π·Π±ΠΈΡΠ°ΡΡΡΡ.
ΠΠ±ΡΠ·Π°Π½Π½ΠΎΡΡΠΈ data engineer
ΠΠ° ΡΠ΅Π³ΠΎΠ΄Π½ΡΡΠ½ΠΈΠΉ Π΄Π΅Π½Ρ ΡΠ°Π±ΠΎΡΠ°, ΠΊΠΎΡΠΎΡΡΡ Π²ΡΠΏΠΎΠ»Π½ΡΡΡ data engineers, ΠΈΠΌΠ΅Π΅Ρ ΠΎΠ³ΡΠΎΠΌΠ½ΠΎΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ Π΄Π»Ρ ΠΎΡΠ³Π°Π½ΠΈΠ·Π°ΡΠΈΠΉ β ΠΈΠΌΠ΅Π½Π½ΠΎ ΡΡΠΈ Π»ΡΠ΄ΠΈ ΠΎΡΠ²Π΅ΡΠ°ΡΡ Π·Π° Ρ ΡΠ°Π½Π΅Π½ΠΈΠ΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ ΠΈ ΠΏΡΠΈΠ²ΠΎΠ΄ΡΡ Π΅Π΅ Π² ΡΠ°ΠΊΠΎΠΉ Π²ΠΈΠ΄, ΡΡΠΎΠ±Ρ Ρ Π΄ΡΡΠ³ΠΈΠ΅ ΡΠΎΡΡΡΠ΄Π½ΠΈΠΊΠΈ ΠΌΠΎΠ³Π»ΠΈ Ρ Π½Π΅ΠΉ ΡΠ°Π±ΠΎΡΠ°ΡΡ. Data engineers Π²ΡΡΡΡΠ°ΠΈΠ²Π°ΡΡ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Ρ, ΡΡΠΎΠ±Ρ Π½Π°Π»Π°Π΄ΠΈΡΡ ΠΏΠΎΠ»ΡΡΠ΅Π½ΠΈΠ΅ Π΄Π°Π½Π½ΡΡ , ΠΏΠΎΡΠΎΠΊΠΎΠΌ ΠΈΠ»ΠΈ ΠΏΠ°ΠΊΠ΅ΡΠ°ΠΌΠΈ, ΠΈΠ· ΠΌΠ½ΠΎΠΆΠ΅ΡΡΠ²Π° ΠΈΡΡΠΎΡΠ½ΠΈΠΊΠΎΠ². ΠΠ°Π»Π΅Π΅ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Ρ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΡΡ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠΈ ΠΏΠΎ ΠΈΠ·Π²Π»Π΅ΡΠ΅Π½ΠΈΡ, ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ°ΡΠΈΠΈ ΠΈ Π·Π°Π³ΡΡΠ·ΠΊΠ΅ (ΠΈΠ½ΡΠΌΠΈ ΡΠ»ΠΎΠ²Π°ΠΌΠΈ, ETL-ΠΏΡΠΎΡΠ΅ΡΡΡ), Π΄Π΅Π»Π°Ρ Π΄Π°Π½Π½ΡΠ΅ Π±ΠΎΠ»Π΅Π΅ ΠΏΡΠΈΠ³ΠΎΠ΄Π½ΡΠΌΠΈ Π΄Π»Ρ Π΄Π°Π»ΡΠ½Π΅ΠΉΡΠ΅Π³ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ. ΠΠΎΡΠ»Π΅ ΡΡΠΎΠ³ΠΎ Π΄Π°Π½Π½ΡΠ΅ ΠΏΡΠ΅Π΄Π°ΡΡΡΡ Π°Π½Π°Π»ΠΈΡΠΈΠΊΠ°ΠΌ ΠΈ data scientists Π΄Π»Ρ Π±ΠΎΠ»Π΅Π΅ Π³Π»ΡΠ±ΠΎΠΊΠΎΠΉ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ. ΠΠ°ΠΊΠΎΠ½Π΅Ρ, Π΄Π°Π½Π½ΡΠ΅ Π·Π°ΠΊΠ°Π½ΡΠΈΠ²Π°ΡΡ ΡΠ²ΠΎΠ΅ ΠΏΡΡΠ΅ΡΠ΅ΡΡΠ²ΠΈΠ΅ Π½Π° ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΎΠ½Π½ΡΡ ΠΏΠ°Π½Π΅Π»ΡΡ , Π² ΠΎΡΡΠ΅ΡΠ°Ρ ΠΈ ΠΌΠΎΠ΄Π΅Π»ΡΡ Π΄Π»Ρ ΠΌΠ°ΡΠΈΠ½Π½ΠΎΠ³ΠΎ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ.
Π― ΠΈΡΠΊΠ°Π» ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ, ΠΊΠΎΡΠΎΡΠ°Ρ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠ»Π° Π±Ρ ΡΠ΄Π΅Π»Π°ΡΡ Π²ΡΠ²ΠΎΠ΄ ΠΎ ΡΠΎΠΌ, ΠΊΠ°ΠΊΠΈΠ΅ ΡΠ΅Ρ Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π²ΠΎΡΡΡΠ΅Π±ΠΎΠ²Π°Π½Ρ Π² ΡΠ°Π±ΠΎΡΠ΅ data engineer Π½Π° ΡΠ΅ΠΊΡΡΠΈΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ.
ΠΠ΅ΡΠΎΠ΄Ρ
Π― ΡΠΎΠ±ΠΈΡΠ°Π» ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ Ρ ΡΡΠ΅Ρ
ΡΠ°ΠΉΡΠΎΠ² Π΄Π»Ρ ΠΏΠΎΠΈΡΠΊΠ° ΡΠ°Π±ΠΎΡΡ β
ΠΠ»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΊΠ»ΡΡΠ΅Π²ΠΎΠ³ΠΎ ΡΠ»ΠΎΠ²Π° Ρ ΠΏΠΎΠ΄ΡΡΠΈΡΠ°Π» ΠΏΡΠΎΡΠ΅Π½Ρ ΠΏΠΎΠΏΠ°Π΄Π°Π½ΠΈΠΉ ΠΎΡ ΠΎΠ±ΡΠ΅Π³ΠΎ ΡΠΈΡΠ»Π° ΡΠ΅ΠΊΡΡΠΎΠ² Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΠΈΠ· ΡΠ°ΠΉΡΠΎΠ² Π² ΠΎΡΠ΄Π΅Π»ΡΠ½ΠΎΡΡΠΈ, Π° ΠΏΠΎΡΠΎΠΌ Π²ΡΡΠΈΡΠ»ΠΈΠ» ΡΡΠ΅Π΄Π½Π΅Π΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ ΠΏΠΎ ΡΡΠ΅ΠΌ ΠΈΡΡΠΎΡΠ½ΠΈΠΊΠ°ΠΌ.
Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ
ΠΠΈΠΆΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½Ρ ΡΡΠΈΠ΄ΡΠ°ΡΡ ΡΠ΅Ρ Π½ΠΈΡΠ΅ΡΠΊΠΈΡ ΡΠ΅ΡΠΌΠΈΠ½ΠΎΠ² ΠΈΠ· ΡΡΠ΅ΡΡ data engineering Ρ ΡΠ°ΠΌΡΠΌΠΈ Π²ΡΡΠΎΠΊΠΈΠΌΠΈ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»ΡΠΌΠΈ ΠΏΠΎ Π²ΡΠ΅ΠΌ ΡΡΠ΅ΠΌ ΡΠ°ΠΉΡΠ°ΠΌ Π²Π°ΠΊΠ°Π½ΡΠΈΠΉ.
Π Π²ΠΎΡ ΡΠ΅ ΠΆΠ΅ ΡΠ°ΠΌΡΠ΅ ΡΠΈΡΡΡ, Π½ΠΎ ΠΎΡΠΎΡΠΌΠ»Π΅Π½Π½ΡΠ΅ Π² Π²ΠΈΠ΄Π΅ ΡΠ°Π±Π»ΠΈΡΡ:
ΠΠΎΠΉΠ΄Π΅ΠΌ ΠΏΠΎ ΠΏΠΎΡΡΠ΄ΠΊΡ.
ΠΠ±Π·ΠΎΡ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ²
Π SQL, ΠΈ Python ΡΠΈΠ³ΡΡΠΈΡΡΡΡ Π² Π±ΠΎΠ»Π΅Π΅ ΡΠ΅ΠΌ Π΄Π²ΡΡ
ΡΡΠ΅ΡΡΡ
ΡΠ°ΡΡΠΌΠΎΡΡΠ΅Π½Π½ΡΡ
Π²Π°ΠΊΠ°Π½ΡΠΈΠΉ. ΠΠΌΠ΅Π½Π½ΠΎ ΡΡΠΈ Π΄Π²Π΅ ΡΠ΅Ρ
Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ ΠΈΠΌΠ΅Π΅Ρ ΡΠΌΡΡΠ» ΠΈΠ·ΡΡΠ°ΡΡ Π² ΠΏΠ΅ΡΠ²ΡΡ ΠΎΡΠ΅ΡΠ΅Π΄Ρ.
Π Spark Π³ΠΎΠ²ΠΎΡΠΈΡΡΡ ΠΏΡΠΈΠΌΠ΅ΡΠ½ΠΎ Π² ΠΏΠΎΠ»ΠΎΠ²ΠΈΠ½Π΅ Π²Π°ΠΊΠ°Π½ΡΠΈΠΉ.
AWS ΠΏΠΎΠΏΠ°Π΄Π°Π΅Ρ ΠΏΡΠΈΠΌΠ΅ΡΠ½ΠΎ Π² 45% ΡΠ΅ΠΊΡΡΠΎΠ² Π²Π°ΠΊΠ°Π½ΡΠΈΠΉ. ΠΡΠΎ ΠΎΠ±Π»Π°ΡΠ½Π°Ρ Π²ΡΡΠΈΡΠ»ΠΈΡΠ΅Π»ΡΠ½Π°Ρ ΠΏΠ»Π°ΡΡΠΎΡΠΌΠ° ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΡΡΠ²Π° Amazon; Π΅ΠΉ ΠΏΡΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ Π½Π°ΠΈΠ±ΠΎΠ»ΡΡΠ°Ρ Π΄ΠΎΠ»Ρ ΡΡΠ½ΠΊΠ° ΡΡΠ΅Π΄ΠΈ Π²ΡΠ΅Ρ
ΠΎΠ±Π»Π°ΡΠ½ΡΡ
ΠΏΠ»Π°ΡΡΠΎΡΠΌ.
Π‘Π»Π΅Π΄ΠΎΠΌ ΠΈΠ΄ΡΡ Java ΠΈ Hadoop β ΡΡΡΡ Π±ΠΎΠ»ΡΡΠ΅ 40% Π½Π° Π±ΡΠ°ΡΠ°.
ΠΡΠ΄ΡΠΎ Π½Π° ΠΌΠ°ΡΠΈΠ½Π΅ Π²ΡΠ΅ΠΌΠ΅Π½ΠΈ ΠΏΡΠΎΠΊΠ°ΡΠΈΠ»ΡΡ
ΠΠ°Π»ΡΡΠ΅ ΠΌΡ Π²ΠΈΠ΄ΠΈΠΌ Hive, Scala, Kafka ΠΈ NoSQL β ΠΊΠ°ΠΆΠ΄Π°Ρ ΠΈΠ· ΡΡΠΈΡ
ΡΠ΅Ρ
Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ ΡΠΏΠΎΠΌΠΈΠ½Π°Π΅ΡΡΡ Π² ΡΠ΅ΡΠ²Π΅ΡΡΠΈ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½Π½ΡΡ
Π²Π°ΠΊΠ°Π½ΡΠΈΠΉ. Apache Hive β ΡΡΠΎ ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΠ°-Ρ
ΡΠ°Π½ΠΈΠ»ΠΈΡΠ΅ Π΄Π°Π½Π½ΡΡ
, ΠΊΠΎΡΠΎΡΠ°Ρ Β«ΡΠΏΡΠΎΡΠ°Π΅Ρ ΡΡΠ΅Π½ΠΈΠ΅, Π½Π°ΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΠΈ ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ ΠΊΡΡΠΏΠ½ΡΠΌΠΈ Π½Π°Π±ΠΎΡΠ°ΠΌΠΈ Π΄Π°Π½Π½ΡΡ
, ΡΠ°ΡΠΏΠΎΠ»Π°Π³Π°ΡΡΠΈΠΌΠΈΡΡ Π² ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»Π΅Π½Π½ΡΡ
Ρ
ΡΠ°Π½ΠΈΠ»ΠΈΡΠ°Ρ
, ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ SQLΒ».
Π‘ΡΠ°Π²Π½Π΅Π½ΠΈΠ΅ Ρ ΡΠ΅ΡΠΌΠΈΠ½Π°ΠΌΠΈ Π² Π²Π°ΠΊΠ°Π½ΡΠΈΡΡ data scientist
ΠΠΎΡ ΡΡΠΈΠ΄ΡΠ°ΡΡ ΡΠ΅Ρ Π½ΠΎΠ»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΡ ΡΠ΅ΡΠΌΠΈΠ½ΠΎΠ², Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΡΠ°ΡΠΏΡΠΎΡΡΡΠ°Π½Π΅Π½Π½ΡΡ Ρ ΡΠ°Π±ΠΎΡΠΎΠ΄Π°ΡΠ΅Π»Π΅ΠΉ Π² ΡΡΠ΅ΡΠ΅ data science. ΠΡΠΎΡ ΡΠΏΠΈΡΠΎΠΊ Ρ ΠΏΠΎΠ»ΡΡΠΈΠ» ΡΠ΅ΠΌ ΠΆΠ΅ ΠΏΡΡΠ΅ΠΌ, ΠΊΠΎΡΠΎΡΡΠΉ ΠΎΠΏΠΈΡΡΠ²Π°Π» Π²ΡΡΠ΅ Π΄Π»Ρ data engineering.
Π£ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΡ ΡΠ΅Ρ Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ Π² Π²Π°ΠΊΠ°Π½ΡΠΈΡΡ Π½Π° ΠΏΠΎΠ·ΠΈΡΠΈΡ data scientist Π² 2020 Π³ΠΎΠ΄Ρ
ΠΡΠ»ΠΈ Π³ΠΎΠ²ΠΎΡΠΈΡΡ ΠΎΠ± ΠΎΠ±ΡΠ΅ΠΌ ΡΠΈΡΠ»Π΅, ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ ΡΠ°ΡΡΠΌΠΎΡΡΠ΅Π½Π½ΡΠΌ ΡΠ°Π½Π½Π΅Π΅ Π½Π°Π±ΠΎΡΠΎΠΌ, Π²Π°ΠΊΠ°Π½ΡΠΈΠΉ ΠΎΠΊΠ°Π·Π°Π»ΠΎΡΡ Π±ΠΎΠ»ΡΡΠ΅ Π½Π° 28% (12 013 ΠΏΡΠΎΡΠΈΠ² 9396). ΠΠ°Π²Π°ΠΉΡΠ΅ ΠΏΠΎΡΠΌΠΎΡΡΠΈΠΌ, ΠΊΠ°ΠΊΠΈΠ΅ ΡΠ΅Ρ Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ Π²ΡΡΡΠ΅ΡΠ°ΡΡΡΡ Π² Π²Π°ΠΊΠ°Π½ΡΠΈΡΡ Π΄Π»Ρ data scientists ΡΠ΅ΠΆΠ΅, ΡΠ΅ΠΌ Π΄Π»Ρ data engineers.
ΠΠΎΠ»Π΅Π΅ ΠΏΠΎΠΏΡΠ»ΡΡΠ½ΡΠ΅ Π² data engineering
ΠΠ° Π³ΡΠ°ΡΠΈΠΊΠ΅ Π½ΠΈΠΆΠ΅ ΠΏΠΎΠΊΠ°Π·Π°Π½Ρ ΠΊΠ»ΡΡΠ΅Π²ΡΠ΅ ΡΠ»ΠΎΠ²Π° ΡΠΎ ΡΡΠ΅Π΄Π½ΠΈΠΌ ΡΠ°Π·Π»ΠΈΡΠΈΠ΅ΠΌ Π² Π·Π½Π°ΡΠ΅Π½ΠΈΡΡ Π±ΠΎΠ»ΡΡΠ΅ 10% ΠΈΠ»ΠΈ ΠΆΠ΅ ΠΌΠ΅Π½ΡΡΠ΅ -10%.
ΠΠ°ΠΈΠ±ΠΎΠ»ΡΡΠΈΠ΅ ΡΠ°Π·Π»ΠΈΡΠΈΡ Π² ΡΠ°ΡΡΠΎΡΠ½ΠΎΡΡΠΈ ΠΊΠ»ΡΡΠ΅Π²ΡΡ ΡΠ»ΠΎΠ² Ρ data engineer ΠΈ data scientist
Π‘Π°ΠΌΡΠΉ ΡΡΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΠΉ ΠΏΡΠΈΡΠΎΡΡ ΠΎΠ±Π½Π°ΡΡΠΆΠΈΠ²Π°Π΅Ρ AWS: Π² data engineering ΠΎΠ½ ΠΏΠΎΡΠ²Π»ΡΠ΅ΡΡΡ Π½Π° 25% ΡΠ΅Π³ΡΠ»ΡΡΠ½Π΅Π΅, ΡΠ΅ΠΌ Π² data science (ΠΏΡΠΈΠ±Π»ΠΈΠ·ΠΈΡΠ΅Π»ΡΠ½ΠΎ 45% ΠΈ 20% ΠΎΡ ΠΎΠ±ΡΠ΅Π³ΠΎ ΡΠΈΡΠ»Π° Π²Π°ΠΊΠ°Π½ΡΠΈΠΉ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²Π΅Π½Π½ΠΎ). Π Π°Π·Π½ΠΈΡΠ° ΠΎΡΡΡΠΈΠΌΠ°Ρ!
ΠΠΎΡ ΡΠ΅ ΠΆΠ΅ Π΄Π°Π½Π½ΡΠ΅ Π² Π½Π΅ΠΌΠ½ΠΎΠ³ΠΎ ΠΈΠ½ΠΎΠΌ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΠΈ β Π½Π° Π³ΡΠ°ΡΠΈΠΊΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ Π΄Π»Ρ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΈ ΡΠΎΠ³ΠΎ ΠΆΠ΅ ΠΊΠ»ΡΡΠ΅Π²ΠΎΠ³ΠΎ ΡΠ»ΠΎΠ²Π° Π² Π²Π°ΠΊΠ°Π½ΡΠΈΡΡ Π½Π° ΠΏΠΎΠ·ΠΈΡΠΈΡ data engineer ΠΈ data scientist ΡΠ°ΡΠΏΠΎΠ»ΠΎΠΆΠ΅Π½Ρ Π±ΠΎΠΊ ΠΎ Π±ΠΎΠΊ.
ΠΠ°ΠΈΠ±ΠΎΠ»ΡΡΠΈΠ΅ ΡΠ°Π·Π»ΠΈΡΠΈΡ Π² ΡΠ°ΡΡΠΎΡΠ½ΠΎΡΡΠΈ ΠΊΠ»ΡΡΠ΅Π²ΡΡ ΡΠ»ΠΎΠ² Ρ data engineer ΠΈ data scientist
Π‘Π»Π΅Π΄ΡΡΡΠΈΠΉ ΠΏΠΎ Π²Π΅Π»ΠΈΡΠΈΠ½Π΅ ΡΠΊΠ°ΡΠΎΠΊ Ρ ΠΎΡΠΌΠ΅ΡΠΈΠ» Ρ Spark β data engineer ΡΠ°ΡΡΠΎ ΠΏΡΠΈΡ
ΠΎΠ΄ΠΈΡΡΡ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ Π±ΠΎΠ»ΡΡΠΈΠΌΠΈ Π΄Π°Π½Π½ΡΠΌΠΈ.
ΠΠ΅Π½Π΅Π΅ ΠΏΠΎΠΏΡΠ»ΡΡΠ½ΡΠ΅ Π² data engineering
Π’Π΅ΠΏΠ΅ΡΡ Π΄Π°Π²Π°ΠΉΡΠ΅ ΠΏΠΎΡΠΌΠΎΡΡΠΈΠΌ, ΠΊΠ°ΠΊΠΈΠ΅ ΡΠ΅Ρ
Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ ΠΌΠ΅Π½Π΅Π΅ ΠΏΠΎΠΏΡΠ»ΡΡΠ½Ρ Π² Π²Π°ΠΊΠ°Π½ΡΠΈΡΡ
Π΄Π»Ρ data engineer.
Π‘Π°ΠΌΡΠΉ ΡΠ΅Π·ΠΊΠΈΠΉ ΡΠΏΠ°Π΄ ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ ΡΠΎ ΡΡΠ΅ΡΠΎΠΉ data science ΡΠ»ΡΡΠΈΠ»ΡΡ Ρ
ΠΠΎΡΡΡΠ΅Π±ΠΎΠ²Π°Π½Π½ΡΠ΅ ΠΈ Π² data engineering, ΠΈ Π² data science
ΠΡΠΆΠ½ΠΎ Π·Π°ΠΌΠ΅ΡΠΈΡΡ, ΡΡΠΎ Π²ΠΎΡΠ΅ΠΌΡ ΠΈΠ· Π΄Π΅ΡΡΡΠΈ ΠΏΠ΅ΡΠ²ΡΡ ΠΏΠΎΠ·ΠΈΡΠΈΠΉ Π² ΠΎΠ±ΠΎΠΈΡ Π½Π°Π±ΠΎΡΠ°Ρ ΡΠΎΠ²ΠΏΠ°Π΄Π°ΡΡ. SQL, Python, Spark, AWS, Java, Hadoop, Hive ΠΈ Scala Π²ΠΎΡΠ»ΠΈ Π² Π΄Π΅ΡΡΡΠΊΡ ΠΊΠ°ΠΊ Π΄Π»Ρ ΠΎΡΡΠ°ΡΠ»ΠΈ data engineering, ΡΠ°ΠΊ ΠΈ Π΄Π»Ρ data science. ΠΠ° Π³ΡΠ°ΡΠΈΠΊΠ΅ Π½ΠΈΠΆΠ΅ Π²Ρ ΠΌΠΎΠΆΠ΅ΡΠ΅ ΡΠ²ΠΈΠ΄Π΅ΡΡ ΠΏΡΡΠ½Π°Π΄ΡΠ°ΡΡ ΡΠ°ΠΌΡΡ ΠΏΠΎΠΏΡΠ»ΡΡΠ½ΡΡ ΡΠ΅Ρ Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ Ρ ΡΠ°Π±ΠΎΡΠΎΠ΄Π°ΡΠ΅Π»Π΅ΠΉ data engineers, Π° ΡΡΠ΄ΠΎΠΌ β ΠΈΡ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»Ρ ΠΏΠΎ Π²Π°ΠΊΠ°Π½ΡΠΈΡΠΌ Π΄Π»Ρ data scienctists.
Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°ΡΠΈΠΈ
ΠΡΠ»ΠΈ Π²Ρ Ρ ΠΎΡΠΈΡΠ΅ Π·Π°Π½ΠΈΠΌΠ°ΡΡΡΡ data engineering, Ρ Π±Ρ ΠΏΠΎΡΠΎΠ²Π΅ΡΠΎΠ²Π°Π» ΠΎΡΠ²ΠΎΠΈΡΡ ΡΠ»Π΅Π΄ΡΡΡΠΈΠ΅ ΡΠ΅Ρ Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ β ΠΏΠ΅ΡΠ΅ΡΠΈΡΠ»ΡΡ ΠΈΡ Π² ΠΏΠΎΡΡΠ΄ΠΊΠ΅ ΠΏΡΠΈΠ±Π»ΠΈΠ·ΠΈΡΠ΅Π»ΡΠ½ΠΎΠΉ ΠΏΡΠΈΠΎΡΠΈΡΠ΅ΡΠ½ΠΎΡΡΠΈ.
ΠΠ·ΡΡΠΈΡΠ΅ SQL. Π― ΡΠΊΠ»ΠΎΠ½ΡΡ Π²Π°Ρ ΠΈΠΌΠ΅Π½Π½ΠΎ ΠΊ PostgreSQL, ΠΏΠΎΡΠΎΠΌΡ ΡΡΠΎ Ρ Π½Π΅Π³ΠΎ ΠΎΡΠΊΡΡΡΡΠΉ ΠΊΠΎΠ΄, Π±ΠΎΠ»ΡΡΠ°Ρ ΠΏΠΎΠΏΡΠ»ΡΡΠ½ΠΎΡΡΡ Π² ΡΠΎΠΎΠ±ΡΠ΅ΡΡΠ²Π΅ ΠΈ ΠΎΠ½ Π½Π°Ρ
ΠΎΠ΄ΠΈΡΡΡ Π² ΡΠ°Π·Π΅ ΡΠΎΡΡΠ°. ΠΠ°ΠΊ ΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡΡΡ ΡΠ·ΡΠΊΠΎΠΌ, ΠΌΠΎΠΆΠ½ΠΎ ΡΠ·Π½Π°ΡΡ ΠΈΠ· ΠΊΠ½ΠΈΠ³ΠΈ My Memorable SQL β Π΅Π΅ ΠΏΠΈΠ»ΠΎΡΠ½Π°Ρ Π²Π΅ΡΡΠΈΡ Π΄ΠΎΡΡΡΠΏΠ½Π°
ΠΡΠ²ΠΎΠΉΡΠ΅ Python, ΠΏΡΡΡΡ Π½Π΅ Π½Π° ΡΠ°ΠΌΠΎΠΌ Ρ
Π°ΡΠ΄ΠΊΠΎΡΠ½ΠΎΠΌ ΡΡΠΎΠ²Π½Π΅. ΠΠ½ΠΈΠ³Π° My Memorable Python ΡΠ°ΡΡΡΠΈΡΠ°Π½Π° ΠΊΠ°ΠΊ ΡΠ°Π· Π½Π° Π½ΠΎΠ²ΠΈΡΠΊΠΎΠ². ΠΠ΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΊΡΠΏΠΈΡΡ Π½Π°
ΠΠ°ΠΊ ΡΠΎΠ»ΡΠΊΠΎ ΠΏΠΎΠ·Π½Π°ΠΊΠΎΠΌΠΈΡΠ΅ΡΡ Ρ Python, ΠΏΠ΅ΡΠ΅Ρ
ΠΎΠ΄ΠΈΡΠ΅ ΠΊ pandas β Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ΅ Python, ΠΊΠΎΡΠΎΡΠ°Ρ ΠΏΡΠΈΠΌΠ΅Π½ΡΠ΅ΡΡΡ ΠΏΡΠΈ ΠΎΡΠΈΡΡΠΊΠ΅ ΠΈ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ΅ Π΄Π°Π½Π½ΡΡ
. ΠΡΠ»ΠΈ Π²Ρ Π½Π°ΡΠ΅Π»Π΅Π½Ρ Π½Π° ΡΠ°Π±ΠΎΡΡ Π² ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ, Π³Π΄Π΅ ΡΡΠ΅Π±ΡΠ΅ΡΡΡ ΡΠΌΠ΅Π½ΠΈΠ΅ ΠΏΠΈΡΠ°ΡΡ Π½Π° Python (Π° ΡΠ°ΠΊΠΈΡ
Π±ΠΎΠ»ΡΡΠΈΠ½ΡΡΠ²ΠΎ), ΠΌΠΎΠΆΠ΅ΡΠ΅ Π±ΡΡΡ ΡΠ²Π΅ΡΠ΅Π½Ρ, ΡΡΠΎ Π·Π½Π°Π½ΠΈΠ΅ pandas Π±ΡΠ΄Π΅Ρ ΠΏΡΠ΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡΡΡΡ ΠΏΠΎ ΡΠΌΠΎΠ»ΡΠ°Π½ΠΈΡ. Π― ΡΠ΅ΠΉΡΠ°Ρ Π·Π°ΠΊΠ°Π½ΡΠΈΠ²Π°Ρ Π²Π²ΠΎΠ΄Π½ΠΎΠ΅ ΡΡΠΊΠΎΠ²ΠΎΠ΄ΡΡΠ²ΠΎ Π΄Π»Ρ ΡΠ°Π±ΠΎΡΡ Ρ pandas β ΠΌΠΎΠΆΠ΅ΡΠ΅
ΠΡΠ²ΠΎΠΉΡΠ΅ AWS. ΠΡΠ»ΠΈ Ρ
ΠΎΡΠΈΡΠ΅ ΡΡΠ°ΡΡ data engineer, Π±Π΅Π· ΠΎΠ±Π»Π°ΡΠ½ΠΎΠΉ ΠΏΠ»Π°ΡΡΠΎΡΠΌΡ Π² Π·Π°Π³Π°ΡΠ½ΠΈΠΊΠ΅ Π²Π°ΠΌ Π½Π΅ ΠΎΠ±ΠΎΠΉΡΠΈΡΡ, Π° AWS β ΡΠ°ΠΌΠ°Ρ ΠΏΠΎΠΏΡΠ»ΡΡΠ½Π°Ρ ΠΈΠ· Π½ΠΈΡ
. ΠΠ½Π΅ ΠΎΡΠ΅Π½Ρ ΠΏΠΎΠΌΠΎΠ³Π»ΠΈ ΠΊΡΡΡΡ
ΠΡΠ»ΠΈ Π²Ρ ΡΠΆΠ΅ ΠΎΡΠΈΠ»ΠΈΠ»ΠΈ Π²Π΅ΡΡ ΡΡΠΎΡ ΡΠΏΠΈΡΠΎΠΊ ΠΈ Ρ ΠΎΡΠΈΡΠ΅ Π΅ΡΠ΅ Π²ΡΡΠ°ΡΡΠΈ Π² Π³Π»Π°Π·Π°Ρ ΡΠ°Π±ΠΎΡΠΎΠ΄Π°ΡΠ΅Π»Π΅ΠΉ ΠΊΠ°ΠΊ data engineer, ΠΏΡΠ΅Π΄Π»Π°Π³Π°Ρ Π΄ΠΎΠ±Π°Π²ΠΈΡΡ Apache Spark Π΄Π»Ρ ΡΠ°Π±ΠΎΡΡ Ρ Π±ΠΎΠ»ΡΡΠΈΠΌΠΈ Π΄Π°Π½Π½ΡΠΌΠΈ. Π₯ΠΎΡΡ ΠΌΠΎΠ΅ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΏΠΎ Π²Π°ΠΊΠ°Π½ΡΠΈΡΠΌ data science ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΎ ΡΠΏΠ°Π΄ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ°, Ρ data engineer-ΠΎΠ² ΠΎΠ½ Π²ΡΠ΅-ΡΠ°ΠΊΠΈ ΠΌΠ΅Π»ΡΠΊΠ°Π΅Ρ ΠΏΠΎΡΡΠΈ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π²ΡΠΎΡΠΎΠΉ Π²Π°ΠΊΠ°Π½ΡΠΈΠΈ.
ΠΠ°ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠΊ
ΠΠ°Π΄Π΅ΡΡΡ, ΡΡΠΎΡ ΠΎΠ±Π·ΠΎΡ ΡΠ°ΠΌΡΡ
Π²ΠΎΡΡΡΠ΅Π±ΠΎΠ²Π°Π½Π½ΡΡ
ΡΠ΅Ρ
Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ Π΄Π»Ρ data engineer ΠΏΠΎΠΊΠ°Π·Π°Π»ΡΡ Π²Π°ΠΌ ΠΏΠΎΠ»Π΅Π·Π½ΡΠΌ. ΠΡΠ»ΠΈ Π²Π°ΠΌ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΠΎ, ΠΊΠ°ΠΊ ΠΎΠ±ΡΡΠΎΡΡ Π΄Π΅Π»Π° Π² Π²Π°ΠΊΠ°Π½ΡΠΈΡΡ
Ρ Π°Π½Π°Π»ΠΈΡΠΈΠΊΠΎΠ², ΠΏΡΠΎΡΠΈΡΠ°ΠΉΡΠ΅
ΠΡΡΠΎΡΠ½ΠΈΠΊ: habr.com