Dmitry KazakovKolesa Group á០áá±áá¬ááœá²ááŒááºážá áááºááŒá¬áá±ážá¡ááœá²á·áá±á«ááºážáá±á¬ááºá áá±áá¬ááá¬ááŸááºáá»á¬ážá ááááá¯á¶áž áá¬áááºá áááºá á áºáááºážá០ááá¯ážááœááºážááááŒááºááŸá¯áá»á¬ážááᯠáá»áŸáá±áá«áááºá
áá¬ááºáá¯á¶áá²ááŸá¬ Dmitry Kazakov
Big Data ááẠáááºáá»á±á¬áºáááºááááºááŸáá·áº á¡ááœááºáá°ááá·áº áá±áááºážá á¬ážáá±á¬ á áá¬ážá á¯ááᯠáááááá« - áá°ááá¯ááºážá áááºážá¡ááŒá±á¬ááºážááᯠááŒá±á¬ááá¯áá±ááŒáá±á¬áºáááºáž áááºážááŸá¬ á¡ááŸááºááááºááŸááááŸáááᯠáááºáá°áá»áŸ áááááá¯ááºáá«á áá±áá¬á¡áá°ážáá»áœááºážáá»ááºáá°áá»á¬áž (áá¬áááºá áááºááœááº) á á»á±ážááœááºá¡ááŒá±á¬ááºážáááºáž á¡áá¬ážáá°ááŒá±á¬ááá¯ááºááẠ- áá±á¬ááºážááœáá±áááºá ááá¯á·áá±á¬áº áá±á¬ááºááœááºááœáẠáááºáá°ááŸááááºáááºáž (ááá¯áá±áá¬ááœáẠáááºáá°áá áºáŠážáá áºáá±á¬ááºáá»áŸ ááŸááááŸá) áá¯á¶ážááááŸááºážáááºážáá« - HR á¡ááœááºáá±á¬á áááºáá±áá»á¬áá»á¬ážáá±á¬ á á¡áá»ááºá¡ááẠáááá¹áá¶ááá¬ááŸááºáá»á¬áž ááá¯ááºááá¯ááºá
áá«ááá¯á· ááœááºáááºá
Spoiler- áá¯ááºáááºá áá°ááá¯á·á áá±áá»á¬áá±á«ááºááŸááááºá áá«áá±ááá·áº á¡áá¬á¡á¬ážáá¯á¶ážá áá®áá±á¬ááºáááá¯ážááŸááºážáá«áá°ážá
á¥á¬ááºáá±á¬ááºážáááºá ááááŠážá
áœá¬á áá»áœááºá¯ááºááá¯á· áá»áŸá±á¬áºááá·áºáá¬ážáááºááẠáá±áá¬áááá¹áá¶ááá¬ááŸááºáá»á¬áž ááá¯áá»á¬ážáááºá á¡áá°ážáááŒáá·áº áá»á±áááºá
áá¬áá±á¬ááºážáá±á¬ áá¯ááºáá
á¹á
ááºážá á
á»á±ážááœááºááŸá¬ááœá±áá±ážááŸáá·áº BI ááœá²ááŒááºážá
áááºááŒá¬áá°áá»á¬ážáá¬áá ML ááŸáá·áº DWH á¡ááºáá»ááºáá®áá¬áá»á¬ážáá« áá° 300 ááᯠáá»áœááºá¯ááºááá¯á· á¡ááºáá¬áá»á°ážááá¯ááºáá²á·áá«áááºá á¡ááŒá®ážáá¯á¶ážá¡á¯ááºá
á¯ááœáẠáá°ááá¯á·ááá¯ááºáá°ááá¯á· áá±áá¬áááá¹áá¶ááá¬ááŸááºáá»á¬ážáᯠáá±á«áºááŒáá°áá»á¬áž á¡áá«á¡ááẠááŒá±ááá¯áá°áá»á¬ážá áá% ááŸááááºá á
á»á±ážááœááºááá¯ááºááá¯ááºá ááœá²á·á
ááºážáááºáá±á¬ááºáá±áá¬ááŒá±á¬áá·áº áá«á á
á»á±ážááœááºáá²á· áááºááá¯á¡á¬ážááᯠá¡áá»á¯á¶ážááááºáá°ážááá¯áᬠááŒá±á¬ááá¯á·áááºáá«áááºá
á¡áá¯ááºá¡ááá·áºáá»á¬áž ááœá²áá±ááŒááºážááẠááŸá¯ááºááœá±ážááẠ- á¡ááœá²á·áá±á«ááºážáá±á¬ááºáá»á¬ážááŸáá·áº áááºáá±áá»á¬áá»á¬ážááẠá¡áááºáááºážáá»á¬ážáá²á·ááá¯á· á¡áá»á¬ážá¡ááŒá¬ážáá®ážáá«áž ááŸááá±áááºá á€á¡ááœáẠá¡ááŒá±á¬ááºážáááºážáá»á¬ážá
áœá¬ ááŸáááá¯ááºáá«áááºá á¥ááá¬á¡á¬ážááŒáá·áºá áá±á«ááºážáá±á¬ááºááẠá¡áááºá¡ááẠááá¯á·ááá¯áẠá¡ááŒá®ážáááºážá¡ááá·áº á¡áá°ážáá»áœááºážáá»ááºáá°ááŒá
áºááá¯ááºááá·áº áá° 2-3 áŠážááŸááá±á¬ á¡ááœá²á·áááºáá»á¬ážá
áœá¬ááŸááááºá
áá±á¬ááºááá»ááºááá±á¬á· á¡áááºážááá¹ááá»á¬ážááŸáá·áº áá¯ááºáá±á¬ááºááá¯ááºá
áœááºážáá»á¬áž ááŒáá·áºááŒá°ážááŒááºážááá¯ááºáᬠá
á¶áá»áááºá
á¶ááœáŸááºážáá»á¬ážááŸáá·áº áááºáááºá á
á»á±ážááœááºá¡ááœááºáž áááºááŸá ááááºážááᬠááŒá
áºáá±ááŒááºáž ááŒá
áºááá¯ááºáááºá áá»áœááºážáá»ááºááŸá¯ááŸáá·áº á¡ááááá¬á¡ááá·áºááᯠáááºááœáŸááºážááŒááºážáááŸááá² á¡ááŒá¬ážáá°áá»á¬ážááẠáá
áºááŸá
Ạááá¯á·ááá¯áẠááŸá
áºááŸá
áºááŒá¬á¡á±á¬áẠáá¯ááºáá±á¬ááºáá°áá»á¬ážááᯠáá
áºáá«áá
áºáá¶ááœáẠá¡ááœá²á·áá±á«ááºážáá±á¬ááºáá»á¬ážááᯠáá¬áááºáá±ážá¡ááºáááºá áá¬áá°ážá¡ááá¯áẠáá¯ááºáááºážáá±á¬ááºáá¬áá»á¬áž ááœá²áá±ááŸá¯ááœáẠá€á¡áá¬ááᯠáá»áœááºá¯ááºááá¯á·ááŒááºáááẠ- áááºáá±áá»á¬áá»á¬ážááŸáá·áº á¡ááœá²á·áá±á«ááºážáá±á¬ááºáá»á¬ážá 38% ááẠááŒáá¯áááºáá¯ááºáá±á¬ááºááŒááºážááœáẠáá«áááºáá±ááŒá®áž á¡ááŒá¬áž 33% ááẠá¡ááŒá±áá¶á
á¬áááºážá¡ááºážááœá²ááŒááºážá
áááºááŒá¬ááŸá¯ááœáẠáá«áááºáá±áá«áááºá
á€ááœáẠáá»áœááºá¯ááºááá¯á·ááẠááŒá±ááŒá¬ážáá°áá»á¬ážááᯠáááºážááá¯á·ááá¯áá¹ááá®áá»á¬ážááŸá ááœá²ááŒááºážá
áááºááŒá¬ááŸá¯á¡ááá·áºááᯠáá¯áá¹ááá¯ááºáá±ážá¡á á¡áá²ááŒááºááẠáá±á¬ááºážááá¯áá²á·áááºá á¡áá®ážáááºááŒáá·áºáá»áŸáẠáá° 10-2 áŠážá ááœá²ááŒááºážá
áááºááŒá¬ááŸá¯áá¬ááá»á¬ážááœáẠá¡áá¯ááºáá¯ááºáá±á¬ ááŒá±ááá¯áá° 3% ááẠáááºážááá¯á·ááœáẠ"á¡ááá·áºááŒáá·áºáá±á¬á¡ááá·áº" ááŸááááºáᯠáááºááŒááºááá¯ááºáááºá
"á¡ááá·áºááŒáá·áºáá±á¬á¡ááá·áº" ááá¯áááºááŸá¬ á¡áááºáááºážá BI á áá áºááẠáá±á¬ááºážááœááºá áœá¬ á¡áá¯ááºáá¯ááºáá«áááºá DWH ááŸáá·áº Big Data ááŸááááºá A/B á ááºážáááºááŸá¯áá»á¬ážááᯠáá¯á¶ááŸááºááŒá¯áá¯ááºáááºá áá¯ááºáá¯ááºááŸá¯ááœáẠá¡áá¯ááºáá¯ááºáá±á¬ ML ááŸáá·áº DS á áá áºáá»á¬ážááŸááááºá áá¯á¶ážááŒááºáá»ááºáá»á¬ážááẠá¡áá»ááºá¡áááºáá±á«áºá¡ááŒá±áá¶ááᬠááŒá¯áá¯ááºáááºá Data processing and data science department ááẠáá¯áá¹ááá®á á¡ááááá»áá±á¬ áá¯ááºáááºážáá áºáá¯ááŒá áºáááºá
áá° á-á áá±á¬ááºááŸááá±á¬ áá¬ááá áºáá¯ááŒáá·áº á¡áááºáá±á¬áºááŒáá«áá»á¬ážá¡á¬ážáá¯á¶ážááᯠá¡á±á¬ááºááŒááºááẠáááŒá áºááá¯ááºááá±á¬ááºáááºá á€á á áºáááºážááááºááẠá¡áááºážááẠáá¬áá»ááºááŸá¯áá±ááᬠááá¯ážáá¬áááºáᯠáá»áœááºá¯ááºáááºááẠ- áá±á¬ááºá»á¬ážáá»á¬ážááẠáááºážááá¯á·á á¡ááá·áºááᯠááá¯á ááá¹ááááá¹áá¬ááºáá»áá» áá¯á¶ážááŒááºááá¯ááºááẠáááºážááá¯á·ááŸáá·áº ááŸáá¯ááºážááŸááºááẠáááºáá°áá»áŸ áááŸáááŒáá±ážáá«á
áá»áŸá±á¬áºááá·áºáá¬ážááá·áºá¡ááá¯ááºážá áá±áá¬áááá¹áá¶ááá¬ááŸááºáá»á¬ážááẠáááºážááá¯á·áá¡áá»áááºá¡áá»á¬ážá
á¯ááᯠá¡ááœááºááŸá¯ááºááœá±ážáá±á¬ áááºá¹áá»á¬ ááá¯á·ááá¯áẠá¡ááºáá»ááºáá®áá¬áá¬áá¬áááºááœááºááá¯ááºáá² ááŒáá¯áááºáá¯ááºáá±á¬ááºááŒááºážá áá±á«ááºážáá¯ááºáá¯ááºááŒááºážááŸáá·áº áá±áá¬ááŸááºážáááºážááŒááºážá¡ááœáẠá¡áá»áááºááŒá¯ááºážááŒáááºá á¡áá°ážááŒá¯ááŸá¯ááá¯ááºážááœáẠááááºáá¯á¶áž 3 áá¯ááœáẠááŒáá¯áááºáá¯ááºáá±á¬ááºááŒááºážááᯠáá»áœááºá¯ááºááá¯á·ááœá±á·ááŒááºááááºá ááá¯á·áá±á¬áº ML ááŸáá·áº DWH á¡ááºáá»ááºáá®áá¬áá»á¬ážááŒá¬ážááœááºáᬠááááºáááºáž 3 áá¯ááœáẠBig Data ááŸáá·áº áá¯ááºáá±á¬ááºááŒááºážáá²á·ááá¯á·áá±á¬ ááŸá¯ááºááœá±ážáá±á¬á¡áá¬áá»á¬ážááᯠáá»áœááºá¯ááºááá¯á· ááœá±á·ááá²áá«áááºá
áááºážáááºážá
áᬠá¡ááá¡ááŒáẠááŸá
áºáá¯áááºáž ááŸááááºá áá»áœááºážáá»ááºáá°áá»á¬ážááẠáááºážááá¯á·á áá¯ááºáááºážáá¬áááºáá»á¬ážá áá áá¬ááá¯ááºááŸá¯ááºážááᯠáááºážááá¯á·ááá¯ááºááá¯áẠáááºááŸááºáá±ážáááºá áá¬áááºá
áááºááœááºá ááá¯á¡áá»áááºá¡áá ááááºáááºáž unicorn áá¯áá¹ááá®áá»á¬ážáᬠáá±áá¬ááŒá®ážááŒá®ážáá¬ážáá¬ážááŒáá·áº áá¯ááºáá±á¬ááºááŒááºážá á¡áá»áá¯ážáá»á±ážáá°ážáá»á¬ážááᯠááŒáá¯ážá
á¬ážááŒá®áž áá»áœááºážáá»ááºá
áœá¬ áá¯ááºáá±á¬ááºááá¯ááºáá¯á¶ááᯠáááºáá°áá²á·áááºá Big Data ááŸáá·áº Machine Learning ááẠá¡á±ážááŒáááºáᯠá
á»á±ážááœááºááá¯á· áá¯ááºááœáŸáá·áºááŒá®áž áá¯ááá echelon ááẠáá±á¬ááºááœáẠááá¯ááºáá±áá±á¬áºáááºáž data ááŸáá·áº á¡áá¯ááºáá¯ááºáá¯á¶á¡á¬áž á¡ááŒá²áááºáž áá¬ážááááºáá«á ááá¯á·ááŒá±á¬áá·áºá áá»áœááºážáá»ááºáá°áá»á¬ážááẠáááºážááá¯á·á¡ááœáẠá¡áá¯ááºáá»á¬ážááᯠáááºááŸááºáá±ážáááºááᯠáá»áœááºá¯ááºááá¯á·ááŒááºáááŒá®áž á
á®ážááœá¬ážáá±ážáá¯ááºáááºážáá»á¬ážááẠáááºážááá¯á·ááá¯áá»ááºáá±á¬á¡áá¬ááᯠá¡ááŒá²áááááá¯ááºáá«á
áá»áœááºážáá»ááºáá°ááœá±áá²á· 20% á áá°ááá¯á·áá²á· áá¯áá¹ááá®ááŸá¬ Data Warehouse ááŸááááŸááá±á¬áẠááááá²á·á¡ááœáẠá¡á¶á·ááŒáááá«áááºá áá¯ááºáááºá áá±áá¬áá±á·á
áºá
á®áá¶ááá·áºááœá²ááŸá¯á
áá
áºááœá±áá²á·ááá¯ááẠá¡áá¬á¡á¬ážáá¯á¶ážá ááááºáá±á¬ááºážááŸá¬ááá¯ááºáá°áž - 41% á MySQL ááá¯áá¯á¶ážááŒá®ážáá±á¬á· 34% á PostgreSQL ááá¯áá¯á¶ážáááºá áá«á áá¬ááá¯ááá¯ááá¯áá¬áá²á áááºážááá¯á·ááẠáá±ážáááºáá±á¬áá±áá¬ááŒáá·áº á¡áá¯ááºáá¯ááºáááºá
ááá¯ááŸá±á¬ááºááŸá¯á
áá
áºáá»á¬ážá¡ááŒá±á¬ááºáž áá±ážááœááºážááœááºá MySQL ááŸáá·áº (!) Excel ááá¯ááẠáá»áœááºá¯ááºááá¯á· áááºáá¶ááœá±á·ááŒááºáááŒááºáááºá ááá¯á·áá±á¬áº á¥ááá¬á¡á¬ážááŒáá·áº áá¯áá¹ááá®á¡áá»á¬ážá
á¯ááẠáá±áá¬ááŒá®ážááŒá®ážáá¬ážáá¬ážááŒáá·áº áá¯ááºáá±á¬ááºááẠáá±á¬ááºážááá¯ááŸá¯áááŸááá±ážááŒá±á¬ááºáž áááºážá ááœáŸááºááŒáá±áááºá
á€ááœáẠá¡áá¬á¡á¬ážáá¯á¶ážááẠááŸá¯ááºááœá±ážáá±ááŒááºáááºá áá±áá°áá»á¡á¬ážááŒáá·áº áá
á¬ááẠáá»áœááºáá±á¬áºáá»áŸá±á¬áºááŸááºážáá¬ážáááºááẠá¡áááºážáááºáááá·áºáá»áááºá
ááá¯ááºááá¯ááºááá¯ááºáá»á 200 tenge ááŒáá·áºá¡áá¯ááºáá¯ááºáááºá¡áááºááá·áºááŒá
áºáá±áá±á¬ ML á¡ááºáá»ááºáá®áá¬áá
áºáŠážááá¯á
áááºáá°ážááŒáá·áºáááºáááºáá²ááẠ- áá°áááºá¡áá¯ááºáááºááŒá
áºááá¯ááºáááºá ááá¯ááá¯á·áá±á¬ á¡áá°ážáá»áœááºážáá»ááºáá°áá»á¬ážá á¡áááºá¡áá»ááºážáá»á¬ážááẠá¡ááœááºá¡á¬ážáááºážáá±áá±á¬áºáááºáž Data Science áá¡áá¯ááºááᯠáá¯á¶áá±á¬ááºá
áœá¬ á¡áá²ááŒááºááẠáá¯áá¹ááá®áá»á¬ážá¡ááœáẠáááºáá²áá±áá±ážáááºá ááá¯á·áá±á¬áº áááºážá áá±ážááœááºááẠáááºážáááá·áºáá»ááºááŸá¯áá¡á
ááœáẠááŸááá±áá²ááŒá
áºááŒá±á¬ááºáž ááœáŸááºááŒáá±áá«áááºá á¡áá»áááºááŒá¬áá¬áááºááŸáá·áºá¡áá»áŸ áá
á¬á¡ááá·áºááᯠááá¯ááá¯áá¯á¶áá±á¬ááºáá±á¬á¡ááá·áºááœáẠáá°áá±á¬ááºááá¯ááºáááºááŒá
áºáááºá
source: www.habr.com