á¡ááºáá¬áááºáá±á«áºááŸá R ááá¯á·ááá¯áẠPython ááá¯ááŸá¬ááœá±ááŒááºážááŒáá·áºá áá±áá¬ááŸáá·áºáá¯ááºáá±á¬ááºáá¬ááœáẠáááºááá·áºá¡áá¬á ááá¯áá±á¬ááºážá ááá¯ááá¯ááŒááºáááºááŒá®áž ááá¯ááá¯á¡áááºááŒá±ááá·áºá¡ááŒá±á¬ááºážá¡áá¬ááŸáá·áºáááºáááºá áááºážáá±á«ááºážáá»á¬ážá áœá¬áá±á¬ áá±á¬ááºážáá«ážáá»á¬ážááŸáá·áº áá®ááá¯áá®áᬠááœá±ážááœá±ážááŸá¯áá»á¬ážááᯠáááºááœá±á·áááá·áºáááºá ááá¯á·áá±á¬áº áá¶ááá±á¬ááºážá áœá¬ááŒáá·áºá á€áá±á¬ááºážáá«ážáá»á¬ážááŸáá·áº á¡ááŒááºážááœá¬ážááŸá¯áá»á¬ážá¡á¬ážáá¯á¶ážááẠá¡áá°ážá¡áá¯á¶ážááááºáá«á
á€áá±á¬ááºážáá«ážááááºááœááºáá»ááºááŸá¬ áá¬áá¬á áá¬ážááŸá áºáá»áá¯ážáá¯á¶ážá áá±áááºážá¡á á¬ážáá¯á¶áž áááºáá±á·áá»áºáá»á¬ážááœáẠá¡ááŒá±áá¶áá±áá¬áá¯ááºáá±á¬ááºááŒááºážáááºážááá¬áá»á¬ážááᯠááŸáá¯ááºážááŸááºáááºááŒá áºáááºá ááŒá®ážáá±á¬á· á á¬áááºáá°ááœá±ááᯠáá°ááá¯á·ááááá±ážáá²á· á¡áá¬ááœá±ááᯠááŒááºááŒááºáááºááẠáá»áœááºážáá»ááºá¡á±á¬áẠáá°áá®áá±ážáá«á Python ááœááºáá±ážáá¬ážáá°áá»á¬ážá¡ááœááºá R ááœááºáá°áá®áá±á¬á¡áá¬ááá¯áááºááá¯á·áá¯ááºáá±á¬ááºááááºááá¯ááŸá¬ááœá±áá«á ááŸáá·áºá¡ááŒááºá¡ááŸááºááŸá¬ááœá±áá«á
áá±á¬ááºážáá«ážá¡ááœááºáž R ááœáẠáá°ááŒáá¯ááºá¡áá»á¬ážáá¯á¶áž áááºáá±á·áá»áºáá»á¬ážá syntax ááᯠááá¯ááºážááŒá¬ážá
áááºááŒá¬áá«áááºá áááºážááá¯á·ááẠá
á¬ááŒáá·áºááá¯ááºááœáẠáá«áááºáá±á¬ áááºáá±á·áá»áºáá»á¬ážááŒá
áºááẠtidyverse
ááŸáá·áºá¡áá¯áẠdata.table
. áá°ááá¯á·áá²á· syntax áá²á· ááŸáá¯ááºážááŸááºáá«á pandas
Python ááœáẠáá±áááºážá¡á
á¬ážáá¯á¶áž áá±áá¬ááœá²ááŒááºážá
áááºááŒá¬ááŸá¯ áááºáá±á·áá»áºá
áááºážááᯠloading á០Python ááŸáá·áº R ááá¯á·ááᯠá¡áá¯á¶ážááŒá¯á ááœá²ááŒááºážá áááºááŒá¬áá±á¬áááºážááá¯ážáá¯ááºáá±á¬ááºáá»ááºáá»á¬áž áá¯ááºáá±á¬ááºááŒááºážá¡áá áá±áá¬ááœá²ááŒááºážá áááºááŒá¬ááŸá¯áááºážááŒá±á¬ááºážáá áºáá¯áá¯á¶ážááᯠáá áºááá·áºááŒá®ážáá áºááá·áº áá¯ááºáá±á¬ááºááœá¬ážáá«áááºá
á¡ááŒá±á¬ááºážá¡áá¬
ááá·áºááœááºážá ááºážá á¬ážáá¬ážááá·áº áááºáá±á·áá»áºáá»á¬ážáá²á០áá áºáá¯ááœáẠáá±áá¬áá¯ááºáá±á¬ááºááŒááºáž áá¯ááºáá±á¬ááºáá»ááºááᯠáá±á·ááœá¬ážáá«á á€áá±á¬ááºážáá«ážááᯠáá±á¬ááºáá»ááºá á¬ááœááºá¡ááŒá Ạá¡áá¯á¶ážááŒá¯ááá¯ááºáá«áááºá
R ááŸáá·áº Python á¡ááŒá¬áž á¡ááá syntax ááœá¬ááŒá¬ážáá»ááºáá»á¬áž
1.1 áPackage Functions áá»á¬ážááᯠáááºáá±á¬ááºááŒáá·áºááŸá¯ááŒááºážá
1.2 ááááº
1.3 áááœáŸááºážááááºáž
1.4 ááááºážáááºážáá»á¬ážááŸáá·áº OOP
1.5 áááá¯ááºááá¯ááºážáá»á¬áž
1.6 ááá±áá¬ááœá²á·á ááºážáá¯á¶áá»á¬áž áá»áœááºá¯ááºááá¯á·á¡áá¯á¶ážááŒá¯ááá·áº áááºáá±á·áá»áºáá»á¬ážááŸáá·áºáááºáááºáá±á¬ á áá¬ážáá¯á¶ážá¡áá»áá¯á·
2.1 ááááºáááºáá±á¬
2.2 ááá±áá¬
2.3 ááááºáá« á¡áá¯ááºáá»á¬ážááᯠááá·áºááœááºážááŒááºážá áá±áá¬ááᯠáááºáá±áááºá áá±áá¬áá±á¬ááºáá»á¬áž áááºáá®ážááŒááºážá áááºááá¯á¡ááºáá±á¬áá±á¬áºáá¶áá»á¬ážááá¯ááœá±ážáá»ááºááŒááºážá áááºážá á®á á áºááŒááºážá á¡á¯ááºá á¯ááœá²á·ááŒááºážááŸáá·áº áá±á«ááºážá ááºážááŒááºážá á á¬ážááœá²áá»á¬ážá áá±á«ááºááá¯ááºáááá¹á (UNION) á¡áá»á¬ážááá¯áẠááá¬ážáá»á¬áž áá«áááºááŒááºáž (JOIN) á¡ááŒá±áá¶áááºážááá¯ážáá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááŸáá·áº ááœááºáá»ááºáá¬ážáá±á¬ áá±á¬áºáá¶áá»á¬áž R ááŸáá·áº Python ááŸá áá±áá¬áá¯ááºáá±á¬ááºááŒááºážáááºážáááºážáá»á¬ážááŒá¬áž á á¬áá±ážá á¬áá°ááá¬áž áá±á¬ááºáá»áẠáááºá¡áá¯á¶ážááŒá¯ááá·áºáááºáá±á·áá»áºááŸáá·áºáááºáááºá á á áºáááºážá¡ááá¯
áá±áá¬ááœá²ááŒááºážá
áááºááŒá¬ááŒááºážááᯠá
áááºáááºá
á¬ážáá«á áá»áœááºá¯ááºá¡á¬áž ááŸá¬ááœá±ááá¯ááºáá«áááºá
R ááŸáá·áº Python á¡ááŒá¬áž á¡ááá syntax ááœá¬ááŒá¬ážáá»ááºáá»á¬áž
Python á០R ááá¯á·ááŒá±á¬ááºážááẠááá¯ááá¯ááœááºáá°á á±áááºá ááá¯á·ááá¯áẠá¡ááŒááºá¡ááŸááºá¡á¬ážááŒáá·áºá áááºá¡á¬áá¯á¶á áá¯ááºáááºááá¯á¡ááºááá·áº á¡áááá¡áá»ááºá¡áá»áá¯á·ááᯠáá»áœááºá¯ááºááŒá±á¬ááŒáá«áááºá
Package Functions áá»á¬ážááᯠáááºáá±á¬ááºááŒáá·áºááŸá¯ááŒááºážá
áááºáá±á·áá»áºáá
áºáá¯ááᯠR ááœááºááá·áºááœááºážááŒá®ážáááºááŸáá·áº áááºážááá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááᯠáááºáá±á¬ááºááŒáá·áºááŸá¯ááẠáááºáá±á·áá»áºá¡áááºááᯠáááºáááºááŸááºááẠáááá¯á¡ááºáá«á ááá
á¹á
á¡áá»á¬ážá
á¯ááœáẠáááºážááẠR ááœááºáá¬áááºááá¯ááºáá±á¬áºáááºáž áááºáá¶ááá¯ááºáááºá ááá·áºáá¯ááºááŸá áááºážááá¯ááºáá±á¬ááºáá»ááºáá»á¬ážáá²á០áá
áºáá¯ááᯠááá¯á¡ááºáá«á áááºáá±á·áá»áºááᯠáááºááœááºážááẠáááá¯á¡ááºáá±á¬áºáááºáž áááºáá±á·áá»áºá¡áááºááŸáá·áº áá¯ááºáá±á¬ááºáá»ááºá¡áááºááᯠáááºááŸááºááŒááºážááŒáá·áº áááºážááᯠáá±á«áºáá«á R ááŸá áááºáá±á·áá»áºááŸáá·áº áá¯ááºáá±á¬ááºáá»ááºá¡áááºáá»á¬ážááŒá¬áž ááŒá¬ážáá¬ážáá»ááºááŸá¬ áá±á¬áºáá¶ááŸá
áºáááºááŒá
áºáááºá package_name::function_name()
.
ááá·áºáá»ááºáááºá¡áá±ááŸáá·áº Python ááœáẠáááºážáá¡áááºááᯠááŒááºáá¬ážá
áœá¬áááºááŸááºááŒááºážááŒáá·áº áááºáá±á·ááºá»áá
áºáá¯á áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááᯠáá±á«áºááẠááá¹ááááºáᯠáá°ááá«áááºá áááºáá±á·áá»áºáá
áºáá¯ááᯠáá±á«ááºážáá¯ááºáá¯ááºáá±á¬á¡áá«á áááºážááᯠá¡áá»á¬ážá¡á¬ážááŒáá·áº á¡ááá¯áá±á¬ááºá¡áááºáá±ážáá±á·ááŸááááºá á¥ááá¬á pandas
á¡áá»á¬ážá¡á¬ážááŒáá·áº ááá±á¬ááºá¡áááºááᯠá¡áá¯á¶ážááŒá¯ááŒáááºá pd
. áááºáá±á·áá»áºáá¯ááºáá±á¬ááºáá»ááºááᯠá¡á
ááºáá
áºáá¯ááŸáá
áºááá·áº áááºáá±á¬ááºáááºá package_name.function_name()
.
áááº
R ááœááºá á¡áá¬ááá¹áá¯áá
áºáá¯á¡á¬áž áááºááá¯ážáá
áºáá¯áááºááŸááºááẠááŒáŸá¬ážááá¯á¡áá¯á¶ážááŒá¯ááŒááºážááẠáá¬áá¬ááºááŒá
áºáááºá obj_name <- value
áá°áá®áá±á¬ áááºá¹áá±ááá
áºáá¯á¡á¬áž ááœáá·áºááŒá¯áá¬ážáá±á¬áºáááºážá áá°áá®áá±á¬áááºá¹áá±á R ááœáẠáá°áá®ááá·áºáááºá¹áá±áááᯠáááºááá¯ážáá»á¬ážááŒááºáááºážááẠá¡áááá¡á¬ážááŒáá·áº á¡áá¯á¶ážááŒá¯áááºá
Python ááœááºá assignment ááᯠáá°áá®ááá·áºááá¹ááá¬áá
áºáá¯ááŒáá·áº áá®ážááá·áºáá¯ááºáá±á¬ááºáááºá obj_name = value
.
ááœáŸááºážááááºáž
á€áá±áá¬ááœááºáááºáž áááá¬áááºááŸá¬ážáá±á¬ ááŒá¬ážáá¬ážáá»ááºáá»á¬ážá áœá¬ááŸááááºá R ááœááºá indexing ááẠáá áºáá¯ááŸá áááºááŒá®áž ááá¬ááºá¡ááá¯ááºážá¡ááŒá¬ážááŸá áááºááŸááºáá¬ážáá±á¬ááŒááºá ááºáá»á¬ážá¡á¬ážáá¯á¶ážáá«áááºáááºá
Python ááœááºá ááœáŸááºážááááºážááẠáá¯áááŸá
áááºááŒá®áž ááœá±ážáá»ááºáá¬ážáá±á¬á¡ááœá¬á¡áá±ážááœáẠá¡ááœáŸááºážááœááºáá±á¬áºááŒáá¬ážáá±á¬áá±á¬ááºáá¯á¶ážááŒááºá
ááºááá«áááºáá«á áá«ááŒá±á¬áá·áº áá®ááá¯ááºážáá¯ááºáá«á x[i:j]
Python ááœáẠj element ááá«áááºáá«á
R á¡ááŸááºá¡áá¬ážááœáẠá¡áá¯ááºááá¹ááá¬ááœáŸááºážááááºáž ááœá²ááŒá¬ážááŸá¯áá»á¬ážáááºážááŸááááºá x[-1]
áá±á¬ááºáá¯á¶ážáá
áºáá¯ááŸááœá²á vector áááŒááºá
ááºá¡á¬ážáá¯á¶ážááá¯ááŒááºáá±ážáááá·áºáááºá Python ááœáẠá¡áá¬ážáá°á¡ááŸááºá¡áá¬ážááẠáá±á¬ááºáá¯á¶ážááŒááºá
ááºááá¯áᬠááŒááºáá±ážáááá·áºáááºá
áááºážáááºážáá»á¬ážááŸáá·áº OOP
R ááẠOOP ááá¯áááºážáááá¯ááºááá¯ááºáááºážáááºážááŒáá·áºá¡áá±á¬ááºá¡áááºáá±á¬áºáááºá á€á¡ááŒá±á¬ááºážááá¯áá±á¬ááºážáá«ážááœááºáá»áœááºáá±á¬áºáá±ážáá²á·áááºá tydiverse
áááºááá¯ááá¯ááœááºáá°áááá·áºáááºá pandas
. áá«âáá±áá²á· áá«á áá»áœááºââáá±á¬á·áºâáá²á· áá¯áá¹ááá¡ááŒááºâááŒá
áºâááá¯ááºâáááºâá
ááá¯ááá¯ááŒá±á¬áááẠR ááŸá¬ááŸááá²á· á¡áá¬ááá¹áá¯ááœá±ááŸá¬ áááºážáááºážááœá± áááŸááá°áž (áá»áœááºá¯ááºááá¯á· S3 á¡áááºážááœá±á¡ááŒá±á¬ááºáž ááŒá±á¬áááºá áá«áá±ááá·áº á¡áá»á¬ážááŒá®ážáááºážáá²á· áááŒá¬áž OOP á¡áá±á¬ááºá¡áááºáá±á¬áºááŸá¯ááœá± ááŸááá«áááº)á Object á class áá±á«áºáá°áááºá áááºážááá¯á·ááᯠááœá²ááŒá¬ážá áœá¬ á á®áá¶áá±á¬ááºááœááºáá±ážáá±á¬ áá±áá¯áá»áá¯ááºáá±á¬ááºááá·áºáá¯ááºáá±á¬ááºáá»ááºáá»á¬ážáᬠááŸááá«áááºá
ááá¯ááºááá¯ááºážáá»á¬áž
áá¬áááºá ááŒá±á¬áá¬ážáᬠpandas
áá¯á¶ážáá¯á¶áž áááŸááºáá±ááá·áº á¡áááá¹áá«ááºááᯠááŸááºážááŒááá¯á· ááŒáá¯ážá
á¬ážáá«á·áááºá
á¡áááºá¡ááẠááœááºáá»ááºááŸá¯áá»á¬ážááᯠááááºážáááºážáááºááŸáá·áº áá¯ááºáááºážááœááºá¡ááœááºáž áááá¯á¡ááºáá±á¬ á¡áá¬áá»á¬áž ááá¯ááºáá¯ááºá á±áááºá ááá¯ááºááá¯ááºážáá áºáá»áá¯ážááᯠááẠá¡áá¯á¶ážááŒá¯ááá¯ááºáááºá á¡á²áá«ááœá±á áá¯ááºáá±á¬ááºáá»ááºáá áºáá¯á០áá±á¬ááºáá áºáá¯ááá¯á· ááœááºáá»ááºááŸá¯áá áºáá¯áááááºááᯠááŒááºááœá¬ážáᬠá¡áááºá¡áááºááááºáá»á¬ážááᯠáááááºážáááºážáá«ááŸáá·áºá
áá®ážááŒá¬ážá¡áá¬ááá¹áá¯áá»á¬ážááœáẠáá»áœááºá¯ááºááá¯á· á¡áááºá¡áááºááœááºáá»ááºááŸá¯áá»á¬ážááᯠááááºážáááºážáá¬ážááá·áº á¡á±á¬ááºáá«áá¯ááºááá°áá¬ááᯠááŒáá·áºááŒáá«á áá¯á·á
temp_object <- func1()
temp_object2 <- func2(temp_object )
obj <- func3(temp_object2 )
áá»áœááºá¯ááºááá¯á·ááẠáá¯ááºáá±á¬ááºáá»áẠ3 áá¯ááᯠáááºááá¯ááºáá¯ááºáá±á¬ááºáá²á·ááŒá®áž áá áºáá¯á á®áááááºááᯠáá®ážááŒá¬ážá¡áá¬ááá¹áá¯áá áºáá¯ááœáẠááááºážáááºážáá²á·áááºá áá«áá±ááá·áº ááááºáá±á¬á·á áá®ááŒá¬ážáá¶á¡áá¬ááá¹áá¯ááœá±ááᯠáá»áœááºáá±á¬áºááá¯á· áááá¯á¡ááºáá«áá°ážá
ááá¯á·ááá¯áẠááá¯ááá¯ážáá±á¬áºáááºáž Excel á¡áá¯á¶ážááŒá¯áá°áá»á¬ážááŸáá·áº ááá¯áááºážááŸá®ážáááºá
obj <- func3(func2(func1()))
á€ááá á¹á ááœááºá áá»áœááºá¯ááºááá¯á·ááẠá¡áááºá¡áááºááœááºáá»ááºááŸá¯ááááºáá»á¬ážááᯠáááááºážáááºážáá¬ážáá±á¬áºáááºáž nested áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááŒáá·áº áá¯ááºáááºááŒááºážááẠá¡ááœááºá¡áááºáááŒá±áá«á
R ááœáẠáá±áá¬áá¯ááºáá±á¬ááºááŒááºážá¡ááœáẠáá»ááºážáááºáááºážáá»á¬ážá áœá¬ááᯠáá»áœááºá¯ááºááá¯á·ááŒáá·áºááŸá¯áááºááŒá áºááŒá®áž áááºážááá¯á·ááẠáá¯á¶á á¶á¡áá»áá¯ážáá»áá¯ážááŒáá·áº á¡áá¬ážáá°áá¯ááºáá±á¬ááºááŸá¯áá»á¬ážááᯠáá¯ááºáá±á¬ááºáá«áááºá
á
á¬ááŒáá·áºááá¯ááºáá»á¬ážááœáẠááá¯ááºááá¯ááºážáá»á¬áž tidyverse
á¡á±á¬áºááá±áá¬ááŸá¡áá±á¬ááºá¡áááºáá±á¬áºáááºá %>%
.
obj <- func1() %>%
func2() %>%
func3()
ááá¯á·ááŒá±á¬áá·áº áá»áœááºá¯ááºááá¯á·ááẠá¡áá¯ááºáááááºááᯠáá°áááºá func1()
áááºážááᯠáááá¡ááŒááºážá¡áá¯á¶á¡ááŒá
Ạáá»á±á¬áºááŒááºáá«á func2()
ááá¯á·áá±á¬áẠáá»áœááºá¯ááºááá¯á·ááẠá€ááœááºáá»ááºááŸá¯áááááºááᯠáááá¡ááŒááºážá¡áá¯á¶á¡ááŒá
Ạáá»á±á¬áºááŒááºáááºá func3()
. á¡áá¯á¶ážááœááºá áá»áœááºá¯ááºááá¯á·ááẠá¡áá¬ááá¹áá¯ááœáẠáá¯ááºáá±á¬ááºáá²á·áá±á¬ ááœááºáá»ááºááŸá¯áá»á¬ážááᯠáá±ážáá»áá«á obj <-
.
á¡áááºáá±á¬áºááŒáá« á¡á¬ážáá¯á¶ážááᯠဠmeme á០á
áá¬ážáá¯á¶ážáá»á¬ážááẠáá¬ááœááºá
áœá¬ ááá¯ááºáá±á¬áºáá¬ážáá«áááºá
Ð data.table
ááŒáá¯ážáá»á¬ážááᯠá¡áá¬ážáá°áááºážááŒáá·áº á¡áá¯á¶ážááŒá¯ááŒáááºá
newDT <- DT[where, select|update|do, by][where, select|update|do, by][where, select|update|do, by]
á áá¯áááºážááœááºážáá áºáá¯á á®ááœáẠááááºáá¯ááºáá±á¬ááºááŸá¯áááááºááᯠáááºá¡áá¯á¶ážááŒá¯ááá¯ááºáááºá
Ð pandas
ááá¯ááá¯á·áá±á¬ áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááᯠá¡á
ááºááŒáá·áº ááœá²ááŒá¬ážáá¬ážáááºá
obj = df.fun1().fun2().fun3()
á¡á²áá«ááœá±á áá«ááá¯á·á
á¬ážááœá²ááá¯áá° df áá°áááááºážáááºážááá¯á¡áá¯á¶ážááŒá¯áá«á fun1()
ááá¯á·áá±á¬áẠáááŸááá¬áá±á¬ ááááºá¡ááœáẠáááºážáááºážááᯠáá»áœááºá¯ááºááá¯á· áá»áá·áºáá¯á¶ážáááºá fun2()
ááŒá®ážáá±á¬áẠfun3()
. ááá¬áá²á·ááááºááᯠá¡áá¬ááá¹áá¯áá
áºáá¯áá²ááŸá¬ ááááºážáááºážáá¬ážáá«áááºá Obj .
áá±áá¬ááœá²á·á ááºážáá¯á¶áá»á¬áž
R ááŸáá·áº Python ááœáẠáá±áá¬áááºáá±á¬ááºáá¯á¶áá»á¬ážááẠáááºáá°áá±á¬áºáááºáž áá¬áááºá¡áá»áá¯ážáá»áá¯ážááŸááááºá
áá±á«áºááŒáá»ááº
R ááœááºá¡áááº
Python/pandas ááœáẠá¡áááº
ááá¬ážááœá²á·á
ááºážáá¯á¶
data.frameá data.tableá tibble
áá±áá¬áá±á¬ááº
áá
áºáááºááŒááºáááºááá¯ážáá»á¬ážá
á¬áááºáž
Vector
áááºáá«áá»á¬ážááœáẠá
á®ážáá®ážáá»á¬áž ááá¯á·ááá¯áẠPython á
á
áºá
á
áºááœáẠá
á¬áááºážááœááºážáá«á
Multi-level non-tabular ááœá²á·á
ááºážáá¯á¶
á
á¬áááºáž
á¡áááá¬áẠ(dict)
á¡á±á¬ááºááœááºáá±á¬áºááŒáá¬ážáá±á¬ syntax áá¡ááŒá¬ážá¡ááºá¹áá«áááºáá»á¬ážááŸáá·áºááœá²ááŒá¬ážáá»ááºáá»á¬ážááá¯ááŒáá·áºááŸá¯áá«áááºá
áá»áœááºá¯ááºááá¯á·á¡áá¯á¶ážááŒá¯ááá·áº áááºáá±á·áá»áºáá»á¬ážááŸáá·áºáááºáááºáá±á¬ á áá¬ážáá¯á¶ážá¡áá»áá¯á·
ááááŠážá áœá¬ á€áá±á¬ááºážáá«ážááœáẠáááºáááºážááŸá®ážáá¬ááá·áº package áá»á¬ážá¡ááŒá±á¬ááºáž á¡áááºážáááºááŒá±á¬ááŒáá«áááºá
áááºáááºáá±á¬
ááá¬ážáááºáááºááºááá¯ááº:
á
á¬ááŒáá·áºááá¯áẠtidyverse
RStudio ááŸá¡ááŒá®ážáááºážáá¯áá±áááááá¹áá¶ááá¬ááŸáẠHedley Wickham ááŸáá±ážáá¬ážáá²á·ááẠtidyverse
áá±áá¬á
á®áá¶áá±á¬ááºááœááºááŸá¯ááᯠááá¯ážááŸááºážááœááºáá°á
á±ááá·áº á¡áááºááŒá®ážáá±á¬ááºáá±á¬ áááºáá±á·áá»áºáá»á¬ážáá«áááºááŒá®áž áááºážááá¯á·áá²á០5 áá¯ááẠCRAN ááá¯ááŸá±á¬ááºááŸá¯á០ááááºáááºážáá±á«ááºážáá¯áẠ10 áá¯ááœáẠáá«áááºáááºá
á
á¬ááŒáá·áºááá¯ááºá á¡áááá¡áá»ááºááŸá¬ á¡á±á¬ááºáá« á¡áá¯ááºáá»á¬áž áá«áááºáááº- ggplot2
, dplyr
, tidyr
, readr
, purrr
, tibble
, stringr
, forcats
. á€áááºáá±á·áá»áºáá
áºáá¯á
á®ááẠáá®ážááŒá¬ážááŒá¿áá¬áá
áºáá¯ááᯠááŒá±ááŸááºážááẠáááºááœááºáááºá á¥ááá¬á¡á¬ážááŒááºá· dplyr
data manipulation á¡ááœáẠáááºáá®ážáá¬ážáá²á·á tidyr
data ááœá±ááᯠáááºáááºáá²á·áá¯á¶á
á¶ááŒá
áºá¡á±á¬ááºá stringr
strings áá»á¬ážááŸáá·áºá¡áá¯ááºáá¯ááºááŒááºážááá¯ááá¯ážááŸááºážá
á±áááºá ggplot2
áá°áá¯á¶ážá¡áá»á¬ážáá¯á¶áž data visualization tools áá»á¬ážáá²á០áá
áºáá¯ááŒá
áºáááºá
á¡á¬ážáá¬áá»áẠtidyverse
SQL query language áá²á· áá¯á¶á
á¶áá»áá¯ážá
á¯á¶áá²á· áááºáá°áá²á· syntax áᬠááá¯ážááŸááºážááŒá®áž áááºáááœááºáá°áá«áááºá
áá±áá¬
á
á¬áá±ážáá° data.table
H2O.ai á០Matt Dole ááŒá
áºáááºá
á á¬ááŒáá·áºááá¯ááºááᯠáááá áá¯ááŸá áºááœáẠá áááºáá¯ááºáá±áá²á·áááºá
áááºáá±á·áá»áº syntax ááẠááœááºáá²á·ááá¯á· á¡áááºáááŒá±áá«á tidyverse
R ááœáẠááá¹ááááºáá±áá¬áá±á¬ááºáá»á¬ážááᯠááá¯ááá¯á¡ááŸááºáá
á±áá±á¬áºáááºáž áá
áºáá»áááºáááºážááœáẠáá¯ááºáá±á¬ááºááá¯ááºá
áœááºážááŸá¬ áááááá¬áᬠáá»á²á·ááœááºáá¬áááºá
á€áááºáá±á·áá»áºááŸá ááá¬ážáá«áá±á¬ ááŒááºááŸááºááŸá¯á¡á¬ážáá¯á¶ážááᯠá
áá¯áááºážááœááºážá
ááœááºáá»á¬ážááŒáá·áº áá±á¬áºááŒáá¬ážááŒá®ážá áááºáá¬áá¬ááŒááºááá¯áá«áá data.table
SQL ááœááºá áááºáááºá€áá²á·ááá¯á·áá±á¬á¡áá¬áá
áºáá¯ááá¯áááŸááááºá data.table[ WHERE, SELECT, GROUP BY ]
á€áááºáá±á·áá»áºá á¡á¬ážáá¬áá»ááºááŸá¬ áá±áá¬á¡áá»á¬ážá¡ááŒá¬ážááᯠá¡ááŸáááºá¡áá¯ááºááŒáá·áº áá¯ááºáá±á¬ááºááŒááºáž ááŒá áºáááºá
áááºáá«
ááá¬ážáááºáááºááºááá¯ááº:
á á¬ááŒáá·áºááá¯ááºáá¡áááºááẠáááºáá±á«ááºážá á¯á¶ááŸááœá²á·á ááºážáá¬ážáá±á¬ á¡áá»ááºá¡áááºá¡á á¯á¶ááá¯ááºáá»á¬ážááᯠáá±á¬áºááŒáááºá¡ááœáẠá¡áá¯á¶ážááŒá¯ááá·áº econometric áá±á«áá¬á "panel data" á០áááºážáááºáá¬áááºá
á
á¬áá±ážáá° pandas
á¡áá±ááááẠWes McKinney áá«á
Python ááœááºáá±áá¬ááœá²ááŒááºážá
áááºááŒá¬ááŒááºážááŸáá·áºáááºáááºáá¬áá±á¬á¡áá«, áá°áá®áááºá pandas
áááŸá áá±áá¬áá»á¬ážááᯠáááºááá·áºá¡áááºážá¡ááŒá
áºá០áá±áá¬áááºááŒááºážá០áááºážááᯠááŒááºáá±á¬ááºááŒááºážá¡áá áá±áá¬ááŒáá·áº áááºááá·áºá¡áá¬ááŸáá·áºáááᯠááá¯ááºááœááºáá¯ááºáá±á¬ááºááẠááœáá·áºááŒá¯ááá·áº á¡ááœááºáááºá
á¯á¶áá¯á¶ážá¡ááá·áºááŒáá·áº áááºáá±á·áá»áºáá
áºáá¯ááŒá
áºáááºá
á¡ááá¯áááºáá±á·ááºá»áá»á¬áž ááá·áºááœááºážááŒááºážá
á€áá±á¬ááºážáá«ážááœáẠááœá±ážááœá±ážáá¬ážáá±á¬ áááºáá±á·áá»áºáá»á¬ážááẠá¡ááŒá±áᶠR ááŸáá·áº Python ááŒáá·áºáá±ááŸá¯áá»á¬ážááœáẠááá«áááºáá«á ááááá±ážáá»ááºáá±ážáá
áºáá¯ááŸááá±á¬áºáááºážá áááºááẠAnaconda ááŒáá·áºááŒá°ážááŸá¯ááᯠááá·áºááœááºážáá«á áááºáá¶ááá·áºááœááºážáá«á pandas
áááá¯á¡ááºáá«á
R ááœáẠáááºáá±á·ááºá»áá»á¬áž ááá·áºááœááºážááŒááºážá
á¡áááºá áááºááẠRStudio ááœá¶á·ááŒáá¯ážááá¯ážáááºááŸá¯áááºáááºážáá»ááºááᯠá¡áááºážáá¯á¶ážáá
áºááŒáááºááœáá·áºáá¬ážáá«á R ááœáẠááá¯á¡ááºáá±á¬áááºáá±á·áá»áºááᯠááá·áºááœááºážáááºážááᯠáááºááááŒá®ážááŒá
áºááá¯ááºáá«áááºá áááºáá±á·áá»áºáá»á¬ážááᯠááá·áºááœááºážáááºá á
á¶á¡áááá·áºááᯠá¡áá¯á¶ážááŒá¯áá«á install.packages()
áááºážááᯠR ááá¯ááºááá¯áẠááá¯ááºááá¯ááºáá¯ááºáá±á¬ááºááŒááºážááŒáá·áº
# ÑÑÑаМПвка пакеÑПв
install.packages("vroom")
install.packages("readr")
install.packages("dplyr")
install.packages("data.table")
áááºáááºááŒá®ážáá±á¬ááºá áááºáá±á·áá»áºáá»á¬ážááᯠáá»áááºáááºáá¬ážááẠááá¯á¡ááºááŒá®áž ááá
á¹á
á¡áá»á¬ážá
á¯ááœáẠcommand ááá¯á¡áá¯á¶ážááŒá¯áááºá library()
.
# пПЎклÑÑеМОе ОлО ОЌпПÑÑ Ð¿Ð°ÐºÐµÑПв в ÑабПÑее ПкÑÑжеМОе
library(vroom)
library(readr)
library(dplyr)
library(data.table)
Python ááœáẠPackages ááᯠááá·áºááœááºážááŒááºážá
áá®áá±á¬á· Python á¡á
á
áºááᯠinstall áá¯ááºáá¬ážáááºá pandas
áááºážááá¯áááºááá¯ááºááá¯ááºááá·áºááœááºážáááºááá¯á¡ááºáááºá ááá·áºáááºáááºááŸá¯á
áá
áºáá±á«áºáá°áááºá ááœááºáááºážááá¯ááºážáá
áºáᯠááá¯á·ááá¯áẠterminal ááá¯ááœáá·áºááŒá®áž á¡á±á¬ááºáá« command ááá¯ááá¯ááºááá·áºáá«á
pip install pandas
ááá¯á·áá±á¬ááºáá»áœááºá¯ááºááá¯á·ááẠPython ááá¯á·ááŒááºáá¬ááŒá®áž command ááŒáá·áºááá·áºááœááºážáá¬ážáá±á¬ package ááá¯áááºááœááºážáá«á import
.
import pandas as pd
áá±áá¬ááᯠáááºáá±áááºá
áá±áá¬áá°ážáá±á¬áºááŒááºážááẠáá±áá¬ááœá²ááŒááºážá áááºááŒá¬ááŸá¯ááœáẠá¡áá±ážááŒá®ážáá¯á¶áž á¡ááá·áºáá áºáá¯ááŒá áºáááºá ááá¹áááŸááá«á Python ááŸáá·áº R ááŸá áºáá»áá¯ážáá¯á¶ážááẠááá·áºá¡á¬áž áááºááá·áºá¡áááºážá¡ááŒá áºáá»á¬ážááŸáááᯠáá±áá¬ááá°ááẠáá»ááºááŒáá·áºáá±á¬á¡ááœáá·áºá¡áá±ážáá»á¬áž áá±ážáá±á¬ááºáááº- ááŒááºááœááºážááá¯ááºáá»á¬ážá á¡ááºáá¬áááºááŸááá¯ááºáá»á¬ážá áááºááá¯ááºáá»á¬ážá áá±áá¬áá±á·á áºá¡áá»áá¯ážá¡á á¬ážá¡á¬ážáá¯á¶ážá
áá±á¬ááºážáá«ážáá áºáá»áŸá±á¬ááºáá¯á¶áž áá»áœááºá¯ááºááá¯á·ááẠáá»á¬ážá áœá¬áá±á¬áá±áá¬á¡ááœá²áá»á¬ážááᯠá¡áá¯á¶ážááŒá¯áá«áááº-
- Google Analytics á០áá±á«ááºážáá¯ááºááŸá áºáá¯á
- ááá¯ááºáááºážáá áºááá®ážáááºáá±áá¬á¡ááœá²á
áá±áá¬á¡á¬ážáá¯á¶ážááẠáá»áœááºá¯ááºááœááºááŸááááºá
áá±áá¬ááᯠR- tidyverseá vroomá readr ááœáẠáááºáá±áááºá
áá±áá¬ááᯠáá
áºáá»á
áºááá¯ááºááá¯á· áááºááẠtidyverse
áááºáá±á·áá»áº ááŸá
áºáᯠááŸáááẠvroom
, readr
. vroom
ááá¯ááá¯áá±ááºáá®áá±á¬áºáááºáž á¡áá¬áááºááœáẠáááºáá±á·ááºá»áá»á¬ážááᯠáá±á«ááºážá
ááºááá¯ááºáááºááŒá
áºáááºá
ááŸááá¯ážáá¬áž vroom
.
vroom vs á á¬áááºáá°
ááœááºááŒá±á¬ááºááŒááºážáá°ááẠá¡áááºáááºážvroom
ááá¯ááá¯áááºáreadr
? ááá¯á¡áá»áááºááœáẠáá»áœááºá¯ááºááá¯á·ááẠáááºáá±á·áá»áºááŸá áºáá¯ááᯠáá®ážááŒá¬ážá á® ááŒá±á¬ááºážáá²ááœáá·áºááŒá¯ááẠá á®á ááºáá±áá±á¬áºáááºáž áá±á¬ááºááœáẠáááºáá±á·áá»áºáá»á¬ážááᯠáá±á«ááºážá ááºážááá¯ááºááœááºááŸááááºá vroom ááá»ááºážáááá±á¬á á¬áááºááŒááºážá¡ááœáẠá¡á¬ážáááºážáá»ááºáá áºáá¯ááŸá¬ áá±áá¬ááŒá¿áá¬á¡áá»áá¯á·ááᯠááŸá±á·ááœááºá¡á á®áááºáá¶ááŒááºážáááŒá¯ááá¯ááºáá±á¬ááŒá±á¬áá·áº áááºážááá¯á·ááᯠáá±á«ááºážá ááºážááẠá¡áá±á¬ááºážáá¯á¶ážáááºážááᯠá ááºážá á¬ážááẠááá¯á¡ááºáá«áááºávroom vs á á¬áááºáá°
ááœááºááŒá±á¬ááºááŒááºážáá°ááẠá¡áááºáááºážávroom
á¡ááœááºreadr
? áá±á¬áá±á¬áááºááœáẠáááºáá±á·áá»áºááŸá áºáá¯áá¯á¶ážááᯠáá®ážááŒá¬ážá á® áá®ááœááºááẠá á®á ááºáá¬ážáá±á¬áºáááºáž áááºážááá¯á·ááᯠá¡áá¬áááºááœáẠáá±á«ááºážá ááºááá¯ááºáááºááŒá áºáááºá á á¬áááºáá»ááºážááŒááºážá á¡á¬ážáááºážáá»ááºáá»á¬ážáá²á០áá áºáá¯vroom
áá±áá¬ááŸáá·áºáááºáááºáá±á¬ á¡áá»áá¯á·áá±á¬ááŒá¿áá¬áá»á¬ážááᯠááŒáá¯áááºá¡á á®áááºáá¶ááŒááºážáááŒá¯ááá¯ááºáá±á¬ááŒá±á¬áá·áº áááºážááá¯á·ááᯠáá±á«ááºážá ááºááẠá¡áá±á¬ááºážáá¯á¶ážááᯠáááºá ááºážá á¬ážááẠááá¯á¡ááºáá«áááºá
á€áá±á¬ááºážáá«ážááœáẠáá»áœááºá¯ááºááá¯á·ááẠdata loading packages ááŸá áºáá¯áá¯á¶ážááᯠááŒáá·áºáá«áááºá
R: vroom áááºáá±á·áá»áºááœáẠáá±áá¬ááᯠáááºáá±áááºá
# install.packages("vroom")
library(vroom)
# ЧÑеМОе ЎаММÑÑ
## vroom
ga_nov <- vroom("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_nowember.csv")
ga_dec <- vroom("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_december.csv")
titanic <- vroom("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/titanic.csv")
áá±áá¬ááᯠR: readr ááœáẠáááºáá±áááºá
# install.packages("readr")
library(readr)
# ЧÑеМОе ЎаММÑÑ
## readr
ga_nov <- read_tsv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_nowember.csv")
ga_dec <- read_tsv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_december.csv")
titanic <- read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/titanic.csv")
á¡áá¯ááºáá²ááŸá¬ vroom
csv / tsv áá±áá¬áá±á¬áºááẠáááºááá¯á·áááºááŸáá
á±áá¬áá° áá°áá®áá±á¬á¡áááºá áá¯ááºáá±á¬ááºááŸá¯ááŒáá·áº áááºááŒááºážááᯠáá¯ááºáá±á¬ááºááẠvroom()
á¡áá¯ááºáá²ááŸá¬ readr
áá±á¬áºáááºáá
áºáá¯á
á®á¡ááœáẠááá°áá®áá±á¬áá¯ááºáá±á¬ááºáá»ááºááᯠáá»áœááºá¯ááºááá¯á·á¡áá¯á¶ážááŒá¯áááºá read_tsv()
О read_csv()
.
áá±áá¬ááᯠR: data.table ááœáẠáááºáá±áááºá
Ð data.table
áá±áá¬áááºááẠfunction áá
áºáá¯ááŸááááºá fread()
.
R: data.table áááºáá±á·áá»áºááœáẠáá±áá¬ááᯠáááºáá±áááºá
# install.packages("data.table")
library(data.table)
## data.table
ga_nov <- fread("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_nowember.csv")
ga_dec <- fread("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_december.csv")
titanic <- fread("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/titanic.csv")
Python- pandas ááœáẠáá±áá¬ááᯠááœáá·áºáá±áááºá
R package áá»á¬ážááŸáá·áº ááŸáá¯ááºážááŸááºáá«áá á€á¡ááŒá±á¡áá±ááœáẠsyntax ááẠá¡áá®ážá
ááºáá¯á¶ážááŒá
áºáááºá pandas
ááœá
á»áááá»á·ááá» readr
, áá¬ááŒá
áºááá¯á·áá²ááá¯áá±á¬á· pandas
áááºááá·áºáá±áá¬ááŸáááᯠáá±áá¬áá±á¬ááºážáá¶ááá¯ááºááŒá®áž á€áááºáá±á·áá»áºááœáẠáá¯ááºáá±á¬ááºáá»ááºáá»á¬áž áááá¬ážá
á¯áá
áºá
á¯áá¯á¶áž áá«ááŸááá«áááºá read_*()
.
read_csv()
read_excel()
read_sql()
read_json()
read_html()
ááŸáá·áº áá±á¬áºáááºá¡áá»áá¯ážáá»áá¯ážá០á¡áá»ááºá¡áááºáá»á¬ážááᯠáááºááẠáá®ááá¯ááºážáá¯ááºáá¬ážáá±á¬ á¡ááŒá¬ážáá¯ááºáá±á¬ááºáá»ááºáá»á¬ážá
áœá¬á áá«áá±ááá·áº áá»áœááºáá±á¬áºááá¯á·áá²á· áááºááœááºáá»ááºááœá±á¡ááœáẠáá¯á¶áá±á¬ááºáá«áááºá read_table()
ááá¯á·ááá¯áẠread_csv()
á¡ááŒááºážá¡áá¯á¶ááᯠá¡áá¯á¶ážááŒá¯ á
ááºáááºáᬠáá±á¬áºáá¶ááŒá¬ážáá¬ážáá»ááºááᯠáááºááŸááºáááºá
Python- pandas ááœáẠáá±áá¬ááᯠááœáá·áºáá±áááºá
import pandas as pd
ga_nov = pd.read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/russian_text_in_r/ga_nowember.csv", sep = "t")
ga_dec = pd.read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/russian_text_in_r/ga_december.csv", sep = "t")
titanic = pd.read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/russian_text_in_r/titanic.csv")
áá±áá¬áá±á¬ááºáá»á¬áž áááºáá®ážááŒááºážá
á á¬ážááœá² ááá¯ááºáááºážáá áºáá»áœááºáá±á¬áºáááºáá¬ážáá²á· á¡ááœááºáá áºáá¯ááŸááááºá ááááºááá®ážáááºá áá»á¬ážáááœá²ááŒá¬ážááŸá¯ááᯠááááºážáááºážáá±ážááá·áºá
ááá¯á·áá±á¬áº ááá®ážááẠáá»á¬ážáá ááá¯ááºáᬠá¡áá»ááºá¡ááẠáá»á¬ážááᯠááá¯ááᯠá¡áááºááŒá±á áœá¬ áááºááŒááá¯ááºá á±áááºá áááºááẠáá»á¬ážá áá¯ááºááẠá¡áááºááᯠá¡áá¯á¶ážááŒá¯ááá·áºáááºá
áá«ááá¯áá¯ááºááá¯á·á áá±á¬áºáᶠ2 áá±á¬áºáᶠ(áá¯ááºááŸáá·áº áá»á¬ážáá¡áááº) ááŸáá·áº á¡áááºáž 2 áá¯áá¬ááŸáááá·áº ááá¬ážáá±ážáá áºáá¯ááᯠáááºáá®ážáá«áááºá
R- tidyverseá dplyr ááœáẠáá±áá¬áá±á¬ááºáá áºáᯠáááºáá®ážááŒááºážá
á¡á±á¬ááºáá±á¬áºááŒáá« áá¯ááºááá°áá¬ááœááºá áá»áœááºá¯ááºááá¯á·ááẠáá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯á ááá¯áá»ááºáá±á¬áá±áá¬áá±á¬ááºááᯠáááºáá®ážáá«áááºá tibble()
.
R: dplyr ááœáẠáá±áá¬áá±á¬ááºáá áºáᯠáááºáá®ážááŒááºážá
## dplyr
### ÑПзЎаÑÐŒ ÑпÑавПÑМОк
gender <- tibble(id = c(1, 2),
gender = c("female", "male"))
R: data.table ááœáẠáá±áá¬áá±á¬ááºáá áºáᯠáááºáá®ážááŒááºážá
R: data.table ááœáẠáá±áá¬áá±á¬ááºáá áºáᯠáááºáá®ážááŒááºážá
## data.table
### ÑПзЎаÑÐŒ ÑпÑавПÑМОк
gender <- data.table(id = c(1, 2),
gender = c("female", "male"))
Python- pandas ááœáẠáá±áá¬áá±á¬ááºáá áºáᯠáááºáá®ážááŒááºážá
Ð pandas
áááááºáá»á¬ážáááºáá®ážááŒááºážááᯠá¡ááá·áºáá»á¬ážá
áœá¬ááŒáá·áº áá¯ááºáá±á¬ááºááŒá®ážá ááááŠážá
áœá¬ áá»áœááºá¯ááºááá¯á·ááẠá¡áááá¬ááºáá
áºáá¯ááᯠáááºáá®ážááŒá®ážáá±á¬áẠá¡áááá¬ááºááᯠáá±áá¬áá±á¬ááºá¡ááŒá
áºááá¯á· ááŒá±á¬ááºážáá²áá«áááºá
Python- pandas ááœáẠáá±áá¬áá±á¬ááºáá áºáᯠáááºáá®ážááŒááºážá
# ÑПзЎаÑÐŒ ЎаÑа ÑÑейЌ
gender_dict = {'id': [1, 2],
'gender': ["female", "male"]}
# пÑеПбÑазÑеЌ ÑлПваÑÑ Ð² ЎаÑаÑÑейЌ
gender = pd.DataFrame.from_dict(gender_dict)
áá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááŒááºážá
áááºááœá²áá¯ááºáá±á¬ ááá¬ážáá»á¬ážááœáẠáá±áá¬áá±á¬áºáᶠáá«ááẠááá¯á·ááá¯áẠáá¬ááŸáá·áºáá»á® áá«áááºááá¯ááºáááºá ááá¯á·áá±á¬áº ááœá²ááŒááºážá áááºááŒá¬ááŸá¯ááᯠáá¯ááºáá±á¬ááºááẠá ááºážáááºážá¡ááá¯ááºážá áááºááẠá¡áááºážá¡ááŒá áºááá¬ážááœáẠáááŸáááá¯ááºáá±á¬ áá±á¬áºáá¶áá»á¬ážá¡á¬ážáá¯á¶ážááᯠáááá¯á¡ááºáá«á
ááá¯á·ááŒá±á¬áá·áºá á¡áááºážá¡ááŒá áºááá¬ážááŒáá·áº áááºáá¯ááºáá±á¬ááºááá·áº ááááá¯á¶ážáá¯ááºáá±á¬ááºááŸá¯áá áºáá¯ááŸá¬ áááá¯á¡ááºáá±á¬ á¡áá»ááºá¡áááºáá»á¬ážááᯠááŸááºážáááºážáááºááŸáá·áº á€á¡áá»ááºá¡áááºááá°áá¬ážááá·áº áááºááá¯áá®ááᯠááŸááºážáá¯ááºáááºááŒá áºáááºá
R- tidyverseá dplyr ááœáẠáá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááŒááºážá
syntax dplyr
SQL query language ááŸáá·áº á¡ááœááºáááºáá°áááºá áááºážááŸáá·áº áááºážááŸá®ážáá«á á€áááºáá±á·ááºá»ááᯠáá»ááºááŒááºá
áœá¬ áá»áœááºážáá»ááºáááá·áºáááºá
áá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááẠáá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯áá«á select()
.
á¡á±á¬ááºáá«áááºážáááºážáá»á¬ážááŒáá·áº áá±á¬áºáá¶áá»á¬ážááᯠáááºááœá±ážáá»ááºááá¯ááºááá·áº áá¯ááºááá°áá¬áá»á¬áž ááŒá áºáá«áááº-
- ááá¯á¡ááºáá±á¬áá±á¬áºáá¶áá»á¬ážáá¡áááºáá»á¬ážááá¯á á¬áááºážááŒá¯á á¯ááŒááºážá
- áá¯á¶ááŸááºá¡áá¯á¶ážá¡ááŸá¯ááºážáá»á¬ážááŒáá·áº áá±á¬áºáá¶á¡áááºáá»á¬ážááᯠááá¯ážáá¬ážáá«á
- áá±á¬áºáá¶ááœááºáá«ááŸááá±á¬ á¡áá»ááºá¡áááºá áá±áá¬á¡áá»áá¯ážá¡á á¬áž ááá¯á·ááá¯áẠá¡ááŒá¬ážááá¯ááºááá¯ááºááŸá¯áá áºáá¯áá¯ááŒáá·áº
R: dplyr ááœáẠáá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááŒááºážá
# ÐÑÐ±ÐŸÑ ÐœÑжМÑÑ
ÑÑПлбÑПв
## dplyr
### вÑбÑаÑÑ Ð¿ÐŸ ÐœÐ°Ð·Ð²Ð°ÐœÐžÑ ÑÑПлбÑПв
select(ga_nov, date, source, sessions)
### ОÑклÑÑÑ Ð¿ÐŸ ÐœÐ°Ð·Ð²Ð°ÐœÐžÑ ÑÑПлбÑПв
select(ga_nov, -medium, -bounces)
### вÑбÑаÑÑ Ð¿ÐŸ ÑегÑлÑÑÐœÐŸÐŒÑ Ð²ÑÑажеМОÑ, ÑÑПбÑÑ ÐžÐŒÐµÐœÐ° кПÑПÑÑÑ
закаМÑОваÑÑÑÑ ÐœÐ° s
select(ga_nov, matches("s$"))
### вÑбÑаÑÑ Ð¿ÐŸ ÑÑлПвОÑ, вÑбОÑаеЌ ÑПлÑкП ÑелПÑОÑлеММÑе ÑÑПлбÑÑ
select_if(ga_nov, is.integer)
R- data.table ááŸá áá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááŒááºážá
á
á
áºáááºáá±ážáá»á¬ážááœááºáááºáž á¡áá¬ážáá°ááẠdata.table
á¡áááºážááẠááœá²ááŒá¬ážá
áœá¬ áá¯ááºáá±á¬ááºááŒáááºá áá±á¬ááºážáá«ážá¡á
ááœáẠáá»áœááºá¯ááºááẠá
áá¯áááºážááœááºážá
ááœááºáá»á¬ážá¡ááœááºáž áááºááá·áº á¡ááŒá±á¬ááºážááŒáá»ááºáá»á¬áž ááŸááá±áááºááᯠáá±á¬áºááŒáá»áẠáá±ážáá¬ážáááºá data.table
.
DT[i,j,by]
áááºááŸá¬:
i - áááºááŸá¬áá²á i.e. á¡áááºážááá¯áẠá
á
áºáá¯ááºááŒááºážá
j - select|update|do, i.e. áá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááŒá®áž áááºážááá¯á·ááᯠááŒá±á¬ááºážáá²ááŒááºážá
by - áá±áá¬á¡á¯ááºá
á¯ááœá²á·ááŒááºážá
R- data.table ááŸá áá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááŒááºážá
## data.table
### вÑбÑаÑÑ Ð¿ÐŸ ÐœÐ°Ð·Ð²Ð°ÐœÐžÑ ÑÑПлбÑПв
ga_nov[ , .(date, source, sessions) ]
### ОÑклÑÑÑ Ð¿ÐŸ ÐœÐ°Ð·Ð²Ð°ÐœÐžÑ ÑÑПлбÑПв
ga_nov[ , .SD, .SDcols = ! names(ga_nov) %like% "medium|bounces" ]
### вÑбÑаÑÑ Ð¿ÐŸ ÑегÑлÑÑÐœÐŸÐŒÑ Ð²ÑÑажеМОÑ
ga_nov[, .SD, .SDcols = patterns("s$")]
Variable .SD
áá±á¬áºáá¶áá»á¬ážá¡á¬ážáá¯á¶ážááᯠáááºáá±á¬ááºááŒáá·áºááŸá¯ááá¯ááºá
á±áá«áááºá .SDcols
áá¯á¶ááŸááºá¡áá¯á¶ážá¡ááŸá¯ááºážáá»á¬ážááá¯á¡áá¯á¶ážááŒá¯á ááá¯á¡ááºáá±á¬áá±á¬áºáá¶áá»á¬ážááᯠá
á
áºáá¯ááºááŒááºáž ááá¯á·ááá¯áẠáááºááá¯á¡ááºáá±á¬áá±á¬áºáá¶áá»á¬ážáá¡áááºáá»á¬ážááᯠá
á
áºáá¯ááºááẠá¡ááŒá¬ážáá¯ááºáá±á¬ááºáá»ááºáá»á¬ážá
Pythoná áááºáá«áá»á¬ážááŸá áá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááŒááºážá
á¡áááºááŒáá·áº áá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááẠpandas
áá°ááá¯á·áá²á· áá¬áááºá
á¬áááºážááᯠáá±ážáá¯á¶áá²á· áá¯á¶áá±á¬ááºáá«áááºá áá¯á¶ááŸááºá¡áá¯á¶ážá¡ááŸá¯ááºážáá»á¬ážááᯠá¡áá¯á¶ážááŒá¯á áá±á¬áºáá¶áá»á¬ážááᯠá¡áááºááŒáá·áº ááœá±ážáá»ááºááŒááºáž ááá¯á·ááá¯áẠáááºáá¯ááºáááºá áááºááẠáá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááᯠá¡áá¯á¶ážááŒá¯ááẠááá¯á¡ááºáááºá drop()
О filter()
, ááŸáá·áºáááºááŒá± áááºááá¯áž=áá¡áááºážáá»á¬ážááẠáá±á¬áºáá¶áá»á¬ážááᯠáá¯ááºáá±á¬ááºááẠááá¯á¡ááºááŒá±á¬ááºáž áááºááœáŸááºááŒáá±á¬á
áá±áá¬á¡áá»áá¯ážá¡á
á¬ážá¡ááá¯áẠá¡ááœááºáá
áºáá¯ááᯠááœá±ážáá»ááºááẠáá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯áá«á select_dtypes()
, ááŸáá·áº ááŒááºážáá¯á¶ááŒááºážááá¯á· áá«ááẠááá¯á·ááá¯áẠáá¯ááºááẠáááºááœá±ážáá»ááºáááºááá¯á¡ááºááá·áº á¡ááœááºáá»á¬ážááŸáá·áº áááºááá¯ááºááá·áº áá±áá¬á¡áá»áá¯ážá¡á
á¬ážáá»á¬ážá
á¬áááºážááᯠáá±ážááá¯á·áá«á
Python- pandas ááŸá áá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááŒááºážá
# ÐÑÐ±ÐŸÑ Ð¿ÐŸÐ»ÐµÐ¹ пП МазваМОÑ
ga_nov[['date', 'source', 'sessions']]
# ÐÑклÑÑОÑÑ Ð¿ÐŸ МазваМОÑ
ga_nov.drop(['medium', 'bounces'], axis=1)
# ÐÑбÑаÑÑ Ð¿ÐŸ ÑегÑлÑÑÐœÐŸÐŒÑ Ð²ÑÑажеМОÑ
ga_nov.filter(regex="s$", axis=1)
# ÐÑбÑаÑÑ ÑОÑлПвÑе пПлÑ
ga_nov.select_dtypes(include=['number'])
# ÐÑбÑаÑÑ ÑекÑÑПвÑе пПлÑ
ga_nov.select_dtypes(include=['object'])
áááºážá á®á á áºááŒááºážá
á¥ááá¬á¡á¬ážááŒáá·áºá á¡áááºážá¡ááŒá áºááá¬ážááœáẠáá±áá¬ááŸá áºáá±á«ááºážáá»á¬ážá áœá¬ áá«áááºááá¯ááºáá±á¬áºáááºáž áááºááẠááŒá®ážáá²á·áá±á¬áááᯠááœá²ááŒááºážá áááºááŒá¬áááºáᬠááá¯á¡ááºáááºá áá áºáááºá á¡ááá¯ááá¯ááºážáá»á¬ážááẠáá±áá¬áá¯ááºáá±á¬ááºááŒááºážáá¯ááºáááºážá ááºááᯠááŸá±ážááœá±ážá á±ááŒá®áž PC áááºááá¯áá®ááᯠááááºááá¯á·á á±áááºá
R- tydyverseá dplyr ááœáẠá¡áááºážáá»á¬ážááᯠá á áºáá¯ááºááŒááºážá
Ð dplyr
á¡áááºážáá»á¬ážááᯠá
á
áºáá¯ááºááẠáá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯áááºá filter()
. áááºážááẠáááá¡ááŒááºážá¡áá¯á¶á¡ááŒá
Ạáá±áá¬áá±á¬ááºáá
áºáá¯áá°áááºá ááá¯á·áá±á¬áẠá
á
áºáá¯ááºááŸá¯á¡ááŒá±á¡áá±áá»á¬ážááᯠá
á¬áááºážááŒá¯á
á¯áá«á
ááá¬ážáá áºáá¯á¡á¬áž á á áºáá¯ááºááẠáá¯áá¹áááá±áá¡áá¯á¶ážá¡ááŸá¯ááºážáá»á¬ážááᯠáá±ážáá¬ážááá·áºá¡áá«á á€ááá á¹á ááœááºá ááá¯ážáá¬ážááŒááºážáááŸááá² áá±á¬áºáá¶á¡áááºáá»á¬ážááŸáá·áº ááá¬ážá¡áááºááᯠáááŒá±ááŒá¬áá² áááºááŸááºáá«á
á á áºáá¯ááºááẠáá¯áá¹áááá±áá¡áá¯á¶ážá¡ááŸá¯ááºážáá»á¬ážá áœá¬ááᯠá¡áá¯á¶ážááŒá¯áá±á¬á¡áá«á á¡á±á¬ááºáá«á¡á±á¬áºááá±áá¬áá»á¬ážááᯠá¡áá¯á¶ážááŒá¯áá«á
- & ááá¯á·ááá¯áẠáá±á¬áºáᬠ- áá¯áá¹áááááºáá±á¬ AND
- | - áá¯áá¹áá OR
R: dplyr ááœáẠá¡áááºážáá»á¬ážááᯠá á áºáá¯ááºááŒááºážá
# ÑОлÑÑÑаÑÐžÑ ÑÑÑПк
## dplyr
### ÑОлÑÑÑаÑÐžÑ ÑÑÑПк пП ÐŸÐŽÐœÐŸÐŒÑ ÑÑлПвОÑ
filter(ga_nov, source == "google")
### ÑОлÑÑÑ Ð¿ÐŸ ЎвÑÐŒ ÑÑлПвОÑÐŒ ÑПеЎОМÑММÑÐŒ лПгОÑеÑкОЌ О
filter(ga_nov, source == "google" & sessions >= 10)
### ÑОлÑÑÑ Ð¿ÐŸ ЎвÑÐŒ ÑÑлПвОÑÐŒ ÑПеЎОМÑММÑÐŒ лПгОÑеÑкОЌ ОлО
filter(ga_nov, source == "google" | sessions >= 10)
R- data.table ááœáẠá¡áááºážáá»á¬ážááᯠá á áºáá¯ááºááŒááºážá
á¡áááºááŸá¬ áá±ážáá²á·áááá¯áá²á data.table
áá±áá¬áá°ážááŒá±á¬ááºážááŒááºážááá¯ááºáᬠá¡áá¬ážá¡ááá¯ááᯠá
áá¯áááºážááœááºážá
ááœááºáá»á¬ážááœáẠááá·áºááœááºážáá¬ážáááºá
DT[i,j,by]
áááºááŸá¬:
i - áááºááŸá¬áá²á i.e. á¡áááºážááá¯áẠá
á
áºáá¯ááºááŒááºážá
j - select|update|do, i.e. áá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááŒá®áž áááºážááá¯á·ááᯠááŒá±á¬ááºážáá²ááŒááºážá
by - áá±áá¬á¡á¯ááºá
á¯ááœá²á·ááŒááºážá
á¡áááºážáá»á¬ážááᯠá á áºáá¯ááºááẠá¡ááŒá±á¬ááºážááŒáá»ááºááᯠá¡áá¯á¶ážááŒá¯áááºá iá áá¯áááºážááœááºážá á¥áºááœáẠááááá±áá¬áá«ááŸááááºá
áá±á¬áºáá¶áá»á¬ážááᯠááá¯ážáá¬ážááŸááºáá»á¬ážááá«áá² ááá¬ážá¡áááºááááºááŸááºáá² áá¯áá¹ááááŸááá±á¬á¡áá¯á¶ážá¡ááŸá¯ááºážáá»á¬ážááœáẠáááºáá±á¬ááºááŒáá·áºááŸá¯áááºá
áá¯áá¹áááá±áá¡áá¯á¶ážá¡ááŸá¯ááºážáá»á¬ážááẠááœááºáá²á·ááá¯á·ááẠáá
áºáá¯ááŸáá·áºáá
áºáᯠáááºá
ááºáá±áááºá dplyr
& ááŸáá·áº | á¡á±á¬áºááá±áá¬áá»á¬ážááŸáááá·áºá
R- data.table ááœáẠá¡áááºážáá»á¬ážááᯠá á áºáá¯ááºááŒááºážá
## data.table
### ÑОлÑÑÑаÑÐžÑ ÑÑÑПк пП ÐŸÐŽÐœÐŸÐŒÑ ÑÑлПвОÑ
ga_nov[source == "google"]
### ÑОлÑÑÑ Ð¿ÐŸ ЎвÑÐŒ ÑÑлПвОÑÐŒ ÑПеЎОМÑММÑÐŒ лПгОÑеÑкОЌ О
ga_nov[source == "google" & sessions >= 10]
### ÑОлÑÑÑ Ð¿ÐŸ ЎвÑÐŒ ÑÑлПвОÑÐŒ ÑПеЎОМÑММÑÐŒ лПгОÑеÑкОЌ ОлО
ga_nov[source == "google" | sessions >= 10]
Python- pandas ááŸá ááŒáá¯ážáá»á¬ážááᯠá á áºáá¯ááºááŒááºážá
á¡áááºážá¡ááá¯áẠá
á
áºáá¯ááºáá«á pandas
filtering áá²á· áááºáá°áá«áááºá data.table
ááŸáá·áº á
áá¯áááºážááœááºážá
á¥áºáá»á¬ážááŒáá·áº ááŒá¯áá¯ááºáááºá
á€ááá
á¹á
ááœááºá áá±áá¬áá±á¬ááºá¡áááºááᯠááœáŸááºááŒááŒááºážááŒáá·áº áá±á¬áºáá¶áá»á¬ážááá¯á·áááºáá±á¬ááºááœáá·áºááᯠáá±á¬áºáá¶á¡áááºááᯠá
áá¯áááºážááœááºážá
ááœááºáá»á¬ážááœáẠááá¯ážáá¬ážá¡ááŸááºá¡áá¬ážá¡ááŒá
ẠááœáŸááºááŒááá¯ááºááẠ(ááá°áᬠdf['col_name']
) ááá¯á·ááá¯áẠ(áá¬áááŒá®ážáá±á¬ááºááá¯ážáá¬ážááŒááºážáááŸááá²áááá°áᬠdf.col_name
).
á¡ááŒá±á¡áá±áá»á¬ážá
áœá¬ááŒáá·áº áá±áá¬áá±á¬ááºáá
áºáá¯ááᯠá
á
áºáá¯ááºááẠááá¯á¡ááºáá«áá á¡ááŒá±á¡áá±áá
áºáá¯á
á®ááᯠááœááºážá
á¥áºááœáẠááá·áºááœááºážááá«áááºá áá¯áá¹ááá¡ááŒá±á¡áá±áá»á¬ážááẠá¡á±á¬áºááá±áá¬áá»á¬ážá០áá
áºáá¯ááŸáá·áºáá
áºáᯠáá»áááºáááºáá¬ážáááºá &
О |
.
Python- pandas ááŸá ááŒáá¯ážáá»á¬ážááᯠá á áºáá¯ááºááŒááºážá
# ЀОлÑÑÑаÑÐžÑ ÑÑÑПк ÑаблОÑÑ
### ÑОлÑÑÑаÑÐžÑ ÑÑÑПк пП ÐŸÐŽÐœÐŸÐŒÑ ÑÑлПвОÑ
ga_nov[ ga_nov['source'] == "google" ]
### ÑОлÑÑÑ Ð¿ÐŸ ЎвÑÐŒ ÑÑлПвОÑÐŒ ÑПеЎОМÑММÑÐŒ лПгОÑеÑкОЌ О
ga_nov[(ga_nov['source'] == "google") & (ga_nov['sessions'] >= 10)]
### ÑОлÑÑÑ Ð¿ÐŸ ЎвÑÐŒ ÑÑлПвОÑÐŒ ÑПеЎОМÑММÑÐŒ лПгОÑеÑкОЌ ОлО
ga_nov[(ga_nov['source'] == "google") | (ga_nov['sessions'] >= 10)]
á¡á¯ááºá á¯ááœá²á·ááŒááºážááŸáá·áº áá±áá¬á á¯áá±á«ááºážááŒááºážá
áá±áá¬ááœá²ááŒááºážá áááºááŒá¬ááŸá¯ááœáẠá¡áá¯á¶ážá¡áá»á¬ážáá¯á¶ážáá¯ááºáá±á¬ááºááŸá¯áá áºáá¯ááŸá¬ á¡á¯ááºá á¯ááœá²á·ááŒááºážááŸáá·áº áá±á«ááºážá ááºážááŒááºáž ááŒá áºáááºá
á€áá¯ááºáááºážáá±á¬ááºáá¬áá»á¬ážááᯠáá¯ááºáá±á¬ááºáááºá¡ááœáẠsyntax ááẠáá»áœááºá¯ááºááá¯á·áá¯á¶ážáááºááá·áº áááºáá±á·ááºá»á¡á¬ážáá¯á¶ážááœáẠááŒáá·áºáá»á²áá±áá«áááºá
á€ááá á¹á ááœááºá áá»áœááºá¯ááºááá¯á·ááẠááá°áá¬á¡ááŒá Ạdataframe ááá¯áá°áá«áááºá ááá¯ááºáááºážáá áºá cabin class áá±á«áºáá°áááºá áááºááŸááºá¡áá±á¡ááœááºááŸáá·áº áá»ááºážáá»áŸáá¯ááºáá»á ááááºááᯠááœááºáá»ááºáá«á
R- tidyverseá dplyr ááœáẠáá±áá¬áá»á¬ážááᯠá¡á¯ááºá á¯ááœá²á·ááŒááºážááŸáá·áº áá±á«ááºážá ááºážááŒááºážá
Ð dplyr
áá¯ááºáá±á¬ááºáá»ááºááᯠá¡á¯ááºá
á¯ááœá²á·áááºá¡ááœáẠá¡áá¯á¶ážááŒá¯áááºá group_by()
ááŸáá·áº á
á¯á
ááºážááŸá¯ summarise()
. ááááºáá±á¬á·, dplyr
áá¯ááºáá±á¬ááºáá»áẠáááá¬ážá
á¯áá
áºá
á¯áá¯á¶ážááŸááá«áááºá summarise_*()
ááá¯á·áá±á¬áº á€áá±á¬ááºážáá«ážá áááºááœááºáá»ááºááŸá¬ á¡ááŒá±áá¶á¡áá¬ážá¡ááá¯ááᯠááŸáá¯ááºážááŸááºáááºááŒá
áºáááºá ááá¯á·ááŒá±á¬áá·áº áá»áœááºá¯ááºááá¯á·ááẠááá¯áá²á·ááá¯á·áá±á¬ áá±á¬áááºáá²ááá¯á· áááœá¬ážáá«á
á¡ááŒá±áá¶á á¯áá±á«ááºážáá¯ááºáá±á¬ááºáá»ááºáá»á¬áž
sum()
- á¡ááŸá áºáá»á¯ááºmin()
/max()
- á¡áááºážáá¯á¶ážááŸáá·áºá¡ááŒáá·áºáá¯á¶ážáááºááá¯ážmean()
- áá»ááºážáá»áŸmedian()
- áá»ááºážáá»áŸlength()
- ááá¬á
R: dplyr ááœáẠá¡á¯ááºá á¯ááœá²á·ááŒááºážááŸáá·áº áá±á«ááºážá ááºážááŒááºážá
## dplyr
### гÑÑппОÑПвка О агÑегаÑÐžÑ ÑÑÑПк
group_by(titanic, Pclass) %>%
summarise(passangers = length(PassengerId),
avg_price = mean(Fare))
áá¯ááºáá±á¬ááºááẠgroup_by()
áááá¡ááŒááºážá¡áá¯á¶á¡ááŒá
Ạááá¬ážááᯠáá»á±á¬áºááŒááºáá²á·áááºá ááá¯ááºáááºážáá
áºááŒá®ážáá±á¬á· á¡ááœááºááá¯ááœáŸááºááŒáááºá Pclassáá»áœááºá¯ááºááá¯á·áá
á¬ážááœá²ááᯠá¡á¯ááºá
á¯ááœá²á·áá«áááºá á¡á±á¬áºááá±áá¬á¡áá¯á¶ážááŒá¯á á€áá¯ááºáá±á¬ááºáá»ááºááááẠ%>%
function ááá¯á· áááá¡ááŒááºážá¡áá¯á¶á¡ááŒá
Ạáá»á±á¬áºááœá¬ážáááºá summarise()
ááŸáá·áº áá±á¬ááºááẠá¡ááœáẠ2 áᯠáááºááá·áºáááº- ááá®ážáááºáá»á¬áž О avg_á
á»á±ážááŸá¯ááºáž. ááááŠážáá¯á¶áž function ááᯠá¡áá¯á¶ážááŒá¯ length()
áááºááŸááºá¡áá±á¡ááœááºááᯠááœááºáá»ááºááŒá®áž áá¯áááááœáẠáá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯áááºá mean()
áá»ááºážáá»áŸáááºááŸááºá
á»á±ážááŸá¯ááºážááá¯áááºáá¶áááŸááá²á·áááºá
R: data.table ááœáẠáá±áá¬áá»á¬ážááᯠá¡á¯ááºá á¯ááœá²á·ááŒááºážááŸáá·áº áá±á«ááºážá ááºážááŒááºážá
Ð data.table
á¡ááŒááºážá¡áá¯á¶ááᯠáá±á«ááºážá
ááºážáááºá¡ááœáẠá¡áá¯á¶ážááŒá¯áááºá j
áááºážááẠá
áá¯áááºážááœááºážááœááºážáá»á¬ážááŸáá·áº á¡á¯ááºá
á¯ááœá²á·ááŸá¯á¡ááœáẠáá¯ááááá±áá¬ááŸááááºá by
ááá¯á·ááá¯áẠkeyby
áááááá¬áá°ážááá¬ážáá²á·á
á€ááá
á¹á
ááœáẠá
á¯á
ááºážááŸá¯áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážá
á¬áááºážááẠááœááºáá±á¬áºááŒáá¬ážááá·áºá¡áá¬ááŸáá·áº áá°áá®áá«áááºá dplyr
, áá¬ááŒá
áºááá¯á·áá²ááá¯áá±á¬á· áááºážááá¯á·ááẠá¡ááŒá±áᶠR syntax á០áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááŒá
áºáááºá
R: data.table ááœáẠá¡á¯ááºá á¯ááœá²á·ááŒááºážááŸáá·áº áá±á«ááºážá ááºážááŒááºážá
## data.table
### ÑОлÑÑÑаÑÐžÑ ÑÑÑПк пП ÐŸÐŽÐœÐŸÐŒÑ ÑÑлПвОÑ
titanic[, .(passangers = length(PassengerId),
avg_price = mean(Fare)),
by = Pclass]
Python- pandas ááœáẠáá±áá¬áá»á¬ážááᯠá¡á¯ááºá á¯ááœá²á·ááŒááºážááŸáá·áº áá±á«ááºážá ááºážááŒááºážá
á¡á¯ááºá
á¯ááœá²á·ááŒááºážá pandas
á¡áá¬ážáá° dplyr
áá«áá±ááá·áº á
á¯á
ááºážááŸá¯áᬠááá°áá«áá°ážá dplyr
áááœáá·áºáá« data.table
.
á¡á¯ááºá
á¯ááœá²á·ááẠáááºážáááºážááᯠá¡áá¯á¶ážááŒá¯áá«á groupby()
áá±áá¬áá±á¬ááºááᯠá¡á¯ááºá
á¯ááœá²á·ááá·áº áá±á¬áºáá¶á
á¬áááºážááᯠáááºááŒááºáááºážááẠááá¯á¡ááºáááºá
áá±á«ááºážá
ááºážáááºá¡ááœáẠáááºáááºážáááºážááᯠá¡áá¯á¶ážááŒá¯ááá¯ááºáááºá agg()
á¡áááá¬ááºááᯠáááºáá¶áááºá á¡áááá¬ááºáá±á¬á·áá»á¬ážááẠá
á¯á
ááºážááŸá¯áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááᯠáááºá¡áá¯á¶ážááŒá¯ááá·áº áá±á¬áºáá¶áá»á¬ážááŒá
áºááŒá®áž áááºááá¯ážáá»á¬ážááẠá
á¯á
ááºážááŸá¯áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážá á¡áááºáá»á¬ážááŒá
áºáááºá
á á¯á ááºážááŸá¯áá¯ááºáá±á¬ááºáá»ááºáá»á¬áž-
sum()
- á¡ááŸá áºáá»á¯ááºmin()
/max()
- á¡áááºážáá¯á¶ážááŸáá·áºá¡ááŒáá·áºáá¯á¶ážáááºááá¯ážmean()
- áá»ááºážáá»áŸmedian()
- áá»ááºážáá»áŸcount()
- ááá¬á
áá¯ááºáá±á¬ááºáá»áẠreset_index()
á¡á±á¬ááºáá±á¬áºááŒáá« á¥ááá¬ááœáẠáááºážááᯠnested á¡ááœáŸááºážáá»á¬ážááᯠááŒááºáááºáááºááŸááºááẠá¡áá¯á¶ážááŒá¯áááºá pandas
áá±áá¬áá±á«ááºážá
ááºážááŒá®ážáá±á¬áẠáá¯á¶áá±ááŒá
áºáááºá
á¡ááááºážá¡ááŸáẠáá±á¬ááºáá
áºááŒá±á¬ááºážááᯠááœáŸá±á·ááá¯ááºááááºá
Python - áááºáá«áá»á¬ážááœáẠá¡á¯ááºá á¯ááœá²á·ááŒááºážááŸáá·áº á á¯á ááºážááŒááºážá
# гÑÑппОÑПвка О агÑегаÑÐžÑ ÐŽÐ°ÐœÐœÑÑ
titanic.groupby(["Pclass"]).
agg({'PassengerId': 'count', 'Fare': 'mean'}).
reset_index()
ááá¬ážáá»á¬ážááá±á«ááºááá¯ááºáá»áááºáááºááŸá¯
áá°áá®áá±á¬ááœá²á·á ááºážáá¯á¶á ááá¬ážááŸá áºáᯠááá¯á·ááá¯áẠááá¯á·áááºááá¯áá±á¬ ááá¬ážáá»á¬ážááœáẠáááºáá«áááºááá·áº áá¯ááºáá±á¬ááºááŸá¯áá áºáá¯á áá»áœááºá¯ááºááá¯á·áááºáá¬ážáá±á¬áá±áá¬ááœáẠááá¬ážáá»á¬ážáá«ááŸááááºá ga_nov О ga_dec. á€ááá¬ážáá»á¬ážááẠááœá²á·á ááºážáá¯á¶ááœáẠáá°áá®ááŒáááºá á¥ááá¬á áá°áá®áá±á¬áá±á¬áºáá¶áá»á¬ážááŸáá·áº á€áá±á¬áºáá¶áá»á¬ážááœáẠáá±áá¬á¡áá»áá¯ážá¡á á¬ážáá»á¬ážááŸááááºá
áááºážááẠááá¯áááºáá¬áááŸáá·áº áá®áááºáá¬ááá»á¬ážá¡ááœáẠGoogle Analytics á០á¡ááºáá¯ááºáááºááŒááºážááŒá áºááŒá®áž á€ááá¹áááœáẠá€áá±áá¬ááᯠááá¬ážáá áºáá¯á¡ááŒá Ạáá±á«ááºážá ááºáá«áááºá
R- tidyverseá dplyr ááœáẠááá¬ážáá»á¬ážááᯠáá±á«ááºááá¯ááºáá»áááºáááºááŒááºážá
Ð dplyr
áá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯á ááá¬áž á áá¯ááᯠáá
áºáá¯áááºážá¡ááŒá
Ạáá±á«ááºážá
ááºááá¯ááºáááºá bind_rows()
á¡ááŒááºážá¡áá¯á¶áá»á¬ážá¡ááŒá
Ạá
á¬ážááœá²áá»á¬ážááŒááºááœá¬ážááŒááºážá
R: dplyr ááœáẠá¡áááºážáá»á¬ážááᯠá á áºáá¯ááºááŒááºážá
# ÐеÑÑОкалÑМПе ПбÑеЎОМеМОе ÑаблОÑ
## dplyr
bind_rows(ga_nov, ga_dec)
R- data.table ááœáẠááá¬ážáá»á¬ážááᯠáá±á«ááºááá¯ááºáá»áááºáááºááŒááºážá
áá¬á០áááŸá¯ááºááœá±ážáá«áá°ážá áá¯á¶ážááŒáá·áºáá¡á±á¬áẠrbind()
.
R- data.table ááœáẠá¡áááºážáá»á¬ážááᯠá á áºáá¯ááºááŒááºážá
## data.table
rbind(ga_nov, ga_dec)
Python- pandas ááœáẠáá±á«ááºááá¯áẠááá¬ážáá»á¬áž áá»áááºáááºááŒááºážá
Ð pandas
ááá¬ážáá»á¬ážááᯠáá»áááºáááºááẠáá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯áááºá concat()
áááºážááá¯á·ááᯠáá±á«ááºážá
ááºááẠáá±á¬ááºáá»á¬ážá
á¬áááºážááᯠáááºááŒááºáááºážááẠááá¯á¡ááºáááºá
Python- pandas ááŸá ááŒáá¯ážáá»á¬ážááᯠá á áºáá¯ááºááŒááºážá
# веÑÑОкалÑМПе ПбÑеЎОМеМОе ÑаблОÑ
pd.concat([ga_nov, ga_dec])
ááá¬ážáá»á¬ážá á¡áá»á¬ážááá¯áẠáá»áááºáááºááŸá¯
áá¯áááááŸáá±á¬áºáá¶áá»á¬ážááᯠáá±á¬á·ááŒáá·áºáááááá¬ážááá¯á·ááá·áºááá·áºáá¯ááºáá±á¬ááºááŸá¯áá áºáá¯á áááºááœáŸááºážáá±áá¬á¡áá»áá¯á· (á¥ááá¬á áá¯ááºáá¯ááºáá áºáá¯á áá¯ááºáá»á ááááº) ááŒáá·áº á¡áá»ááºá¡áááºááá¬áž (á¥ááá¬á á¡áá±á¬ááºážáá±áá¬áá«áá±á¬ ááá¬áž) ááᯠááŒáá·áºáááºážááá·áºá¡áá« áááºážááᯠáááŒá¬áá á¡áá¯á¶ážááŒá¯áá±á·ááŸááááºá
Join á¡áá»áá¯ážá¡á á¬ážáá»á¬ážá áœá¬ááŸááá«áááº-
á¡áááºá áááºáá¬ážáá²á· ááá¬ážáá²ááŸá¬ ááá¯ááºáááºážáá Ạáá»áœááºá¯ááºááá¯á·ááœáẠáá±á¬áºáá¶áá áºáá¯ááŸááááºá ááááºááá®ážáááºá ááááºáá¯ááºááŸáá·áº ááá¯ááºáá®áá±á¬á
1 - á¡áá»áá¯ážááá®áž
2 - áá±á¬ááºá»á¬áž
ááá¯á·á¡ááŒááºá áá»áœááºá¯ááºááá¯á·ááẠááá¬ážáá áºáá¯âááá¯ážáá¬ážáá±á¬á á¬á¡á¯ááºááᯠáááºáá®ážáá¬ážáááºá áá»á¬áž, á. ááá®ážáááºáá»á¬ážá áá»á¬ážáááá¯ááºáᬠá¡áá»ááºá¡áááºáá»á¬ážááᯠááá¯ááá¯á¡áááºááŒá±á áœá¬ áááºááŒááá¯ááºá á±áááºá¡ááœáẠáááºážááœáŸááºá០áá»á¬ážáá á¡áááºááᯠááá·áºááœááºážááẠááá¯á¡ááºáá«áááºá áá»á¬áž, á á á¬ážááœá²áá®ááá¯á· ááá¯ááºáááºážáá áº.
á¡áá»á¬ážááá¯ááºááá¬ážááẠR- tidyverseá dplyr ááœááºáá«áááºáá«áááºá
Ð dplyr
á¡áá»á¬ážááá¯ááºáá»áááºáááºááŒááºážá¡ááœáẠáá¯ááºáá±á¬ááºáá»ááºáá»á¬áž áááá¬ážá
á¯áá
áºá
á¯áá¯á¶áž ááŸááá«áááºá
inner_join()
left_join()
right_join()
full_join()
semi_join()
nest_join()
anti_join()
áá»áœááºá¯ááºáá¡áá±á·á¡áá»áá·áºááœáẠá¡áá¯á¶ážá¡áá»á¬ážáá¯á¶ážááŸá¬ left_join()
.
áááá¡ááŒááºážá¡áá¯á¶ááŸá áºáá¯á¡áá±ááŒáá·áºá á¡áááºáá±á¬áºááŒáá«áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááẠááá¬ážááŸá áºáá¯áá«áááºáááºá ááááá¡ááŒááºážá¡áá¯á¶á¡ááŒá áºá by áá«áááºááẠáá±á¬áºáá¶áá»á¬ážááᯠáááºááŸááºááá«áááºá
á¡áá»á¬ážááá¯ááºááá¬ážááẠR: dplyr ááœáẠáá«áááºáááºá
# ПбÑеЎОМÑеЌ ÑаблОÑÑ
left_join(titanic, gender,
by = c("Sex" = "id"))
R- data.table ááŸá ááá¬ážáá»á¬ážá á¡áá»á¬ážááá¯áẠáá»áááºáááºááŸá¯
Ð data.table
áá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯á á
á¬ážááœá²áá»á¬ážááᯠáá±á¬á·ááŒáá·áº áá»áááºáááºááẠááá¯á¡ááºáááºá merge()
.
data.table ááœáẠmerge() áá¯ááºáá±á¬ááºááẠá¡ááŒá±á¬ááºážááŒáá»ááºáá»á¬áž
- xá y â áá«áááºááẠááá¬ážáá»á¬áž
- by â ááá¬ážááŸá áºáá¯á áá¯á¶ážááœáẠáá¬áááºáá°áá«á áá«áááºáááºáá±á¬á·ááŒá áºááá·áº áá±á¬áºáá¶
- by.xá by.y â ááá¬ážáá»á¬ážááœáẠááá°áá®áá±á¬á¡áááºáá»á¬ážááŸááá«á áá±á«ááºážá ááºáááá·áºáá±á¬áºáá¶á¡áááºáá»á¬áž
- all, all.x, all.y â Join á¡áá»áá¯ážá¡á á¬ážá á¡á¬ážáá¯á¶ážááẠááá¬ážááŸá áºáá¯áá¯á¶ážá០á¡áááºážá¡á¬ážáá¯á¶ážááᯠááŒááºáá±ážáááºá all.x ááẠLEFT JOIN áá¯ááºáá±á¬ááºáá»ááºááŸáá·áº ááá¯ááºáá®ááẠ(áááááá¬ážáá¡áááºážá¡á¬ážáá¯á¶ážááᯠáá»ááºáá¬ážáááº) all.y â ááẠáááºážááŸáá·áº áááºááá¯ááºááẠRIGHT JOIN áá¯ááºáá±á¬ááºáá»áẠ(áá¯áááááá¬ážáá¡áááºážá¡á¬ážáá¯á¶ážááᯠáá»ááºáá¬ážáá²á·áááº)á
R- data.table ááŸá ááá¬ážáá»á¬ážá á¡áá»á¬ážááá¯áẠáá»áááºáááºááŸá¯
# ПбÑеЎОМÑеЌ ÑаблОÑÑ
merge(titanic, gender, by.x = "Sex", by.y = "id", all.x = T)
á¡áá»á¬ážááá¯ááºááá¬ážááœáẠPython-áááºáá«áá»á¬áž áá«áááºáá«á
á¡ááŒááºá data.table
ááœáẠpandas
ááá¬ážáá»á¬ážááᯠáá»áááºáááºááẠáá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯áááºá merge()
.
áááºáá«áá»á¬ážááœáẠmerge() áá¯ááºáá±á¬ááºáá»ááºá á¡ááŒá±á¬ááºážááŒáá»ááºáá»á¬áž
- áááºáá²á·ááá¯á· â áá»áááºáááºááŸá¯á¡áá»áá¯ážá¡á á¬áž- áááºá áá¬á á¡ááŒááºá á¡ááœááºáž
- on â ááá¬ážááŸá áºáá¯á áá¯á¶ážááœáẠáá¬áááºáá°áá«á áá±á¬á·áá áºáá¯ááŒá áºáááºá
- left_oná right_on â ááá¬ážáá»á¬ážááœáẠááá°áá®áá±á¬á¡áááºáá»á¬ážááŸááá«á áá±á¬á·áá±á¬áºáá¶áá»á¬ážáá¡áááºáá»á¬áž
á¡áá»á¬ážááá¯ááºááá¬ážááœáẠPython-áááºáá«áá»á¬áž áá«áááºáá«á
# ПбÑеЎОМÑеЌ пП клÑÑÑ
titanic.merge(gender, how = "left", left_on = "Sex", right_on = "id")
á¡ááŒá±áá¶áááºážááá¯ážáá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááŸáá·áº ááœááºáá»ááºáá¬ážáá±á¬ áá±á¬áºáá¶áá»á¬áž
Window áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááẠá á¯á ááºážááŸá¯áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááŸáá·áº á¡áááá¹áá«ááºáááºáá°ááŒá®áž áá±áá¬ááœá²ááŒááºážá áááºááŒá¬ááŸá¯ááœááºáááºáž áááŒá¬ááá¡áá¯á¶ážááŒá¯ááŒáááºá ááá¯á·áá±á¬áº á á¯á ááºážááŸá¯áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááŸáá·áºááá°áá²á áááºážááá¯ážáá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááẠáá±áá¬áá±á¬ááºá á¡áááºážá¡áá±á¡ááœááºááᯠááŒá±á¬ááºážáá²ááŒááºážáááŸááá«á
á¡ááŒá±áá¶á¡á¬ážááŒáá·áºá áááºážááá¯ážáá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯á áá»áœááºá¯ááºááá¯á·ááẠá á¶áááºááŸááºáá»ááºá¡áá»áá¯á·á¡á áááºáá¬áá±á¬áá±áá¬áá±á¬ááºááᯠá¡ááá¯ááºážáá»á¬ážá¡ááŒá Ạááá¯ááºážááŒá¬ážáá¬ážáááºá á¡ááœááºáá áºáá¯ááááºááá¯áž ááá¯á·ááá¯áẠá¡ááœááºáá»á¬ážá áœá¬ááŒáá·áºá áááºážááá¯ážáá áºáá¯á á®ááœáẠááááºážáááºá¹áá»á¬ááá¯ááºáᬠáá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááᯠáá¯ááºáá±á¬ááºáá«áááºá á€áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážá ááááºááᯠá á¬ááŒá±á¬ááºážáá áºáá¯á á®ááœáẠááŒááºáá±ážáááºá ááá¯ááá¯áááºááŸá¬á ááá¬ážááŸá á¡áááºáž á á¯á á¯áá±á«ááºáž á¡áá±á¡ááœááºááᯠáááŒá±á¬ááºážáá²áá²á
á¥ááᬠá á¬ážááœá²ááᯠááŒáá·áºáá¡á±á¬áẠááá¯ááºáááºážáá áº. áááºážá cabin class á¡ááœááºáž áááºááŸááºáá áºáá¯á á®á áá¯ááºáá»á áááẠáááºáá»áŸ áá¬ááá¯ááºááŸá¯ááºážááᯠáá»áœááºá¯ááºááá¯á· ááœááºáá»ááºááá¯ááºáá«áááºá
áá«ááá¯áá¯ááºááá¯á·á áá®ááá¯ááºážááŸá¬ááŸááá²á· áááºááŸááºááá¯ááºááá¯ááºáá²á· áááºááŸá cabin class á¡ááœáẠáááºááŸááºá á¯á á¯áá±á«ááºážáá¯ááºáá»á ááááºááᯠááá¯ááºážáá áºááŒá±á¬ááºážáá»ááºážá á®ááŸá¬ ááá°áááŸá¬ ááŒá áºááŒá®áž áááºááŸááºáá áºáá¯áá»ááºážá á®áá²á· áá¯ááºáá»á ááááºááᯠáá°áá®áá²á· cabin class áááºááŸááºá¡á¬ážáá¯á¶ážáá²á· á á¯á á¯áá±á«ááºážáá¯ááºáá»á ááááºáá²á· ááœá²ááá¯ááºáá«á .
R- tidyverseá dplyr ááœáẠWindow áá¯ááºáá±á¬ááºáá»ááºáá»á¬áž
á¡áááºážá¡á¯ááºá
á¯ááœá²á·ááŒááºážááᯠááá¯á¶ážáá² áá±á¬áºáá¶á¡áá
áºáá»á¬ážááá·áºáááºá dplyr
function ááá¯áá±á¬ááºááœááºáá±ážáááºá mutate()
.
á¡áááºáá±á¬áºááŒáá« ááŒá¿áá¬ááᯠáááºáááºá¡ááá¯áẠáá±áá¬á¡á¯ááºá á¯ááœá²á·ááŒááºážááŒáá·áº áááºááŒá±ááŸááºážááá¯ááºáá«áááºá Pclass áá±á¬áºáá¶á¡áá áºáá áºáá¯ááœáẠá¡ááœááºááᯠáá±á«ááºážá ááºážáá«á á¡á. ááá¯á·áá±á¬áẠááá¬ážááᯠá¡á¯ááºá á¯ááœá²ááŒá®áž á¡ááœááºáááºááá¯ážáá»á¬ážááᯠááœá²áá«á á¡á ááááºá¡ááá·áºááœáẠááŒá áºáá»ááºáá²á·áááºá
R: dplyr ááœáẠWindow áá¯ááºáá±á¬ááºáá»ááºáá»á¬áž
group_by(titanic, Pclass) %>%
mutate(Pclass_cost = sum(Fare)) %>%
ungroup() %>%
mutate(ticket_fare_rate = Fare / Pclass_cost)
R: data.table ááŸá Window áá¯ááºáá±á¬ááºáá»ááºáá»á¬áž
ááŒá±ááŸááºážáá»áẠalgorithm ááẠááœááºááŸáááá²á·ááá¯á· áá°áá®áá±áá«áááºá dplyr
ááá¬ážááᯠá¡ááœááºá¡ááá¯áẠááŒáááºážáá±á«ááºáá»á¬ážá¡ááŒá
Ạááœá²ááẠááá¯á¡ááºáááºá Pclass. á¡áááºážáá
áºáá¯á
á®ááŸáá·áº áááºááá¯ááºááá·áº á¡ááœá²á·á¡ááœáẠááá¬áááᯠáá±á¬áºáá¶á¡áá
áºáá
áºáá¯ááœáẠáá¯ááºáá±ážááŒá®áž áááºážáá¡ááœá²á·ááŸá áááºááŸááºáá
áºáá¯á
á®á áá¯ááºáá»á
ááááºáá±á
á¯ááᯠááœááºáá»ááºááá·áº áá±á¬áºáá¶áá
áºáá¯ááᯠáá±á«ááºážááá·áºáá«á
áá±á¬áºáá¶á¡áá
áºáá»á¬ážááá·áºááẠdata.table
á¡á±á¬áºááá±áᬠáá
á¹á
á¯áá¹ááẠ:=
. á¡á±á¬ááºááœáẠáááºáá±á·áá»áºááᯠá¡áá¯á¶ážááŒá¯á ááŒá¿áá¬áá
áºáá¯ááᯠááŒá±ááŸááºážááŒááºáž á¥ááá¬áá
áºáá¯ááŒá
áºáááºá data.table
R: data.table ááŸá Window áá¯ááºáá±á¬ááºáá»ááºáá»á¬áž
titanic[,c("Pclass_cost","ticket_fare_rate") := .(sum(Fare), Fare / Pclass_cost),
by = Pclass]
Python- pandas ááŸá Window áá¯ááºáá±á¬ááºáá»ááºáá»á¬áž
áá±á¬áºáá¶á¡áá
áºááá·áºááẠáááºážáááºážáá
áºáᯠpandas
- function ááá¯áá¯á¶ážáá«á assign()
. á¡áááºážáá»á¬ážá¡á¯ááºá
á¯ááœá²á·ááŒááºážáááŸááá² cabin á¡áááºážá¡ááá¯áẠáááºááŸááºáá»á¬ážááá¯ááºáá»á
ááááºááᯠá¡áá»ááºážáá»á¯ááºáááºá áá»áœááºá¯ááºááá¯á·ááẠáá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯áá«áááºá transform()
.
á¡á±á¬ááºááœáẠáá»áœááºá¯ááºááá¯á·ááẠááá¬ážááœáẠááá·áºááœááºážáá¬ážáá±á¬ á¡ááŒá±áá áºáá¯á á¥ááá¬áá áºáá¯ááŒá áºáááºá ááá¯ááºáááºážáá Ạáá°áá®áá±á¬ áá±á¬áºáᶠá áá¯á
Python- pandas ááŸá Window áá¯ááºáá±á¬ááºáá»ááºáá»á¬áž
titanic.assign(Pclass_cost = titanic.groupby('Pclass').Fare.transform(sum),
ticket_fare_rate = lambda x: x['Fare'] / x['Pclass_cost'])
áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááŸáá·áº áááºážáááºážáá»á¬áž á á¬áá±ážá á¬áá°ááá¬áž
á¡á±á¬ááºááœáẠáá»áœááºá¯ááºááá¯á·ááá·áºááœááºážá ááºážá á¬ážáá¬ážáá±á¬ áááºáá±á·áá»áºáá»á¬ážááŸá áá±áá¬ááŒáá·áº á¡áá»áá¯ážáá»áá¯ážáá±á¬ áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááᯠáá¯ááºáá±á¬ááºáááºá¡ááœáẠáááºážáááºážáá»á¬ážá¡ááŒá¬áž á á¬áá±ážá á¬áá°ááá¬ážáá áºáá¯ááŒá áºáááºá
áá±á«áºááŒáá»ááº
áááºáááºáá±á¬
áá±áá¬
áááºáá«
áá±áá¬ááᯠáááºáá±áááºá
vroom()
/ readr::read_csv()
/ readr::read_tsv()
fread()
read_csv()
áá±áá¬áá±á¬ááºáá»á¬áž áááºáá®ážááŒááºážá
tibble()
data.table()
dict()
+ from_dict()
áá±á¬áºáá¶áá»á¬ážááᯠááœá±ážáá»ááºááŒááºážá
select()
áááºááŒá± já
áá¯áááºážááœááºážáá»á¬ážá¡ááœááºáž áá¯ááááá±áá¬
áá»áœááºá¯ááºááá¯á·ááẠá
áá¯áááºážááœááºážá
ááœááºáá»á¬ážááœáẠááá¯á¡ááºáá±á¬áá±á¬áºáá¶áá»á¬ážá
á¬áááºážááᯠááŒááºááœá¬ážááẠ/ drop()
/ filter()
/ select_dtypes()
áááºážá
á®á
á
áºááŒááºážá
filter()
áááºááŒá± iá
áá¯áááºážááœááºážáá»á¬ážá¡ááœááºáž ááááá±áá¬
áá»áœááºá¯ááºááá¯á·ááẠá
áá¯áááºážááœááºážá
ááœááºáá»á¬ážááœáẠá
á
áºáá¯ááºááŒááºážááá¯ááºáᬠá¡ááŒá±á¡áá±áá»á¬ážááᯠá
á¬áááºážááŒá¯á
á¯áááº/ filter()
á¡á¯ááºá
á¯ááœá²á·ááŒááºážááŸáá·áº áá±á«ááºážá
ááºážááŒááºážá
group_by()
+ summarise()
á¡ááŒááºážááœá¬ážááŸá¯áá»á¬áž j + by
groupby()
+ agg()
á
á¬ážááœá²áá»á¬ážá áá±á«ááºááá¯ááºáááá¹á (UNION)
bind_rows()
rbind()
concat()
á¡áá»á¬ážááá¯áẠááá¬ážáá»á¬áž áá«áááºááŒááºáž (JOIN)
left_join()
/ *_join()
merge()
merge()
á¡ááŒá±áá¶áááºážááá¯ážáá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááŸáá·áº ááœááºáá»ááºáá¬ážáá±á¬ áá±á¬áºáá¶áá»á¬ážááá·áºááŒááºážá
group_by()
+ mutate()
áááºááŒá± j operator ááᯠá¡áá¯á¶ážááŒá¯ :=
+ á¡ááŒááºážá¡áá¯á¶ by
transform()
+ assign()
áá±á¬ááºáá»ááº
áá±á¬ááºážáá«ážááœáẠáá»áœááºá¯ááºááẠdata processing á á¡áá±á¬ááºážááœááºáá¯á¶ážáá±á¬ á¡áá±á¬ááºá¡áááºáá±á¬áºááŸá¯áá»á¬ážááᯠááá±á¬áºááŒáá¬ážáá±á ááá¯á·ááŒá±á¬áá·áº ááŸááºáá»ááºáá»á¬ážááœáẠáá»áœááºá¯ááºáá¡ááŸá¬ážáá»á¬ážááᯠáááºááŒááºáá±ážáááºááá¯áá»áŸáẠááá¯á·ááá¯áẠR/ Python ááœáẠdata ááŸáá·áºá¡áá¯ááºáá¯ááºáááºá¡ááœáẠá¡ááŒá¬ážáá±á¬áááºážááá¬áá»á¬ážááŒáá·áº áá±á¬ááºážáá«ážááœááºáá±á¬áºááŒáá¬ážáá±á¬á¡áá»ááºá¡áááºáá»á¬ážááᯠááá¯ážááá¯ážááŸááºážááŸááºážááŒáá·áºá áœááºáá±ážáááºááá¯áá«á áááºážááŒá±á¬ááºáá«áááºá
á¡áááºááŸá¬ áá±ážáá²á·áááá¯áá² áá±á¬ááºážáá«ážáá²á· áááºááœááºáá»ááºá áááºáá¬áá¬á áá¬ážá ááá¯áá±á¬ááºážáá²ááá¯áá²á· á¡ááŒááºááᯠáá»ááŸááºááá¯á· ááá¯ááºáá² áá¬áá¬á áá¬áž ááŸá áºáá¯á áá¯á¶ážááᯠáááºáá°ááœáá·áºáááá¯á· ááœááºáá°á¡á±á¬ááºá áá«ááŸááá¯áẠááá¯á¡ááºááẠáá°ááá¯á·ááŒá¬ážááŸá¬ ááœáŸá±á·ááŒá±á¬ááºážááá¯á·áá«áá²á
áá±á¬ááºážáá«ážááᯠááŒáá¯ááºááŸá
áºáááºáá«á áá»áœááºá¯ááºá á
á¬áááºážááœááºážáá°á¡áá
áºáá»á¬áž ááŸááá¬ááá·áºá¡ááœáẠáááºážááŒá±á¬ááºáááá«áááºá
á¡ááºáá¬áá»á°áž
ááá·áºáá¯ááºáááºážááœáẠá¡á±á¬ááºáá«áááºáá±á·áá»áºáá»á¬ážáá²á០áááºááá·áºá¡áá¬ááᯠáááºá¡áá¯á¶ážááŒá¯ááááºážá
ááŸááºáá»ááºáá»á¬ážááœáẠáááºááẠáááºáááœá±ážáá»ááºááŸá¯á¡ááœáẠá¡ááŒá±á¬ááºážááŒáá»ááºááᯠáá±ážáá¬ážááá¯ááºáááºá
á
á¬áááºážááœááºážá¡áá¯á¶ážááŒá¯áá°áá»á¬ážáᬠá
á
áºáááºážááœáẠáá«áááºááá¯ááºáá«áááºá
áááºááá·áºáá±áᬠá á®áá¶áá±á¬ááºááœááºáá±ážááŒááºáž áááºáá±á·áá»áºááᯠáááºá¡áá¯á¶ážááŒá¯áá«ááá² (ááœá±ážáá»ááºá áá¬áá»á¬ážá áœá¬ááᯠáááºááœá±ážáá»ááºááá¯ááºáááº)
-
45,2%ááá·áºááŸááºážáááºáááºááŸá¯ áá
-
33,3%data.table14
-
54,8%áááºáá« áá
á¡áá¯á¶ážááŒá¯áá° 42 áŠáž áá²áá±ážáá²á·áááºá áá¯á¶ážá
áœá²áá° áá áŠáž ááŸá±á¬ááºáá±áá²á·áá«áááºá
source: www.habr.com