แแแขแแ แแแขแจแ R-แแก แแ Python-แแก แซแแแแแ แแฅแแแ แแแแแแ แแแแแแแแแแ แกแขแแขแแแก แแ แแแแแแแขแ แแแ แแแกแแฃแกแแแก, แแฃ แ แแแแแแ แฃแแแแแกแ, แกแฌแ แแคแ แแ แแแกแแฎแแ แฎแแแแแ แแแแแชแแแแแแ แแฃแจแแแแแกแแแแก. แแแแ แแ แกแแแฌแฃแฎแแ แแ, แงแแแแ แแก แกแขแแขแแ แแ แแแแ แแ แแ แแก แแแแกแแแฃแแ แแแแ แกแแกแแ แแแแแ.
แแ แกแขแแขแแแก แแแแแแแ แแแแแชแแแแ แแแแฃแจแแแแแแก แซแแ แแแแแ แขแแฅแแแแแก แจแแแแ แแแ แแ แแแ แแแแก แงแแแแแแ แแแแฃแแแ แฃแ แแแแแขแแแจแ. แแ แแแแฎแแแ แแ แแแแแฎแแแแก แกแฌแ แแคแแ แแแแฃแคแแแ แแแแก, แ แแช แฏแแ แแ แแชแแแ. แแแแแแแก, แแแแช แแแแแแจแ แฌแแ แก, แแแแ แแแแแ, แ แแแแ แแแแแแแแก แแแแแ R-แจแ แแ แแแ แแฅแแ.
แกแขแแขแแแก แแแแแแแแแแแจแ แแแแแแแแแแแแแ R-แจแ แงแแแแแแ แแแแฃแแแ แฃแแ แแแแแขแแแแก แกแแแขแแฅแกแก. แแก แแ แแก แแแแแแแแแแแจแ แจแแแแแแแ แแแแแขแแแ. tidyverse
แแ แแกแแแ แแแแแขแ data.table
. แแ แจแแแแแ แแ แแแแ แกแแแขแแฅแกแ pandas
, แงแแแแแแ แแแแฃแแแ แฃแแ แแแแแชแแแแ แแแแแแแแก แแแแแขแ Python-แจแ.
แฉแแแ แแขแแแแแ แแแแ แแแแแแแแ แแแแแชแแแแ แแแแแแแแก แแแแ แแแแก แแแกแ แฉแแขแแแ แแแแแแ แแแแแแขแแแฃแ แ แคแแแฏแ แแก แคแฃแแฅแชแแแแแก แจแแกแ แฃแแแแแแแ Python-แแกแ แแ R-แแก แแแแแงแแแแแแ.
แแแคแแ แแแชแแแก
แแก แกแขแแขแแ แจแแแซแแแแ แแแแแงแแแแแฃแ แแฅแแแก แ แแแแ แช แแแขแงแฃแแแแก แคแฃแ แชแแแ, แแฃ แแแแแแแฌแงแแแ แ แแแแ แจแแแกแ แฃแแแ แแแแแชแแแแ แแแแฃแจแแแแแแก แ แแแแแแแแ แแแแ แแชแแ แแแแกแแฎแแแแแ แแแแแขแจแ.
แแแแแแ แ แกแแแขแแฅแกแแก แแแแกแฎแแแแแแแแ R-แกแ แแ Python-แก แจแแ แแก
1.1.แแแแแขแแก แคแฃแแฅแชแแแแแ แฌแแแแแ
1.2.แแแแแแแแ
1.3.แแแแแฅแกแแ แแแ
1.4.แแแแแแแแ แแ OOP
1.5.แแแแกแแแแแแแ
1.6.แแแแแชแแแแ แกแขแ แฃแฅแขแฃแ แแแ แ แแแแแแแแ แกแแขแงแแ แแแแแขแแแแก แจแแกแแฎแแ, แ แแแแแแกแแช แฉแแแ แแแแแแแงแแแแแ
2.1.แแแฌแแกแ แแแแแฃแแ
2.2.แแแแแชแแแแแ. แแแแแแ
2.3.pandas แแแแแขแแแแก แแแกแขแแแแชแแ แแขแแแ แแแแ แแแแแชแแแแแ แแแแแชแแแแ แฉแแ แฉแแแแแก แจแแฅแแแ แแฅแแแแแแแก แกแแญแแ แ แกแแแขแแแแก แจแแ แฉแแแ แกแขแ แแฅแแแแแแก แแแคแแแขแแ แ แแแฏแแฃแคแแแ แแ แแแ แแแแชแแ แชแฎแ แแแแแแก แแแ แขแแแแแฃแ แ แแแแ แแแแแแแ (UNION) แชแฎแ แแแแแแก แฐแแ แแแแแขแแแฃแ แ แจแแแ แแแแ (JOIN) แคแแแฏแ แแก แซแแ แแแแแ แคแฃแแฅแชแแแแ แแ แแแแแแแแแแ แกแแแขแแแ แจแแกแแแแแแกแแแแก แชแฎแ แแแ แแแแแชแแแแ แแแแฃแจแแแแแแก แแแแแแแแก แจแแ แแก R-แกแ แแ Python-แจแ แแแกแแแแ แแแแแ แแแแแแแแฎแแ แแแแก แจแแกแแฎแแ, แแฃ แ แแแแ แแแแแขแก แแงแแแแแ
แแฃ แแฅแแแ แแแแแขแแ แแกแแแฃแแ แฎแแ แ แแแแแชแแแแ แแแแแแแแ, แจแแแแซแแแแ แแแแแแ แฉแแแ
แแแแแแ แ แกแแแขแแฅแกแแก แแแแกแฎแแแแแแแแ R-แกแ แแ Python-แก แจแแ แแก
แแแแกแแแแแก, แ แแ แแแแแแแแแแแ Python-แแแ R-แแ แแแแแกแแแ แแ แแแ แแฅแแ, แแ แแแแชแแแ แ แแแแแแแแ แซแแ แแแแ แแฃแแฅแขแก, แ แแแแแกแแช แงแฃแ แแแฆแแแ แฃแแแ แแแแฅแชแแแ.
แแแแแขแแก แคแฃแแฅแชแแแแแ แฌแแแแแ
แ แแแแ แช แแ แแแแแขแ แฉแแแขแแแ แแแแ R-แจแ, แแฅแแแ แแ แแญแแ แแแแแ แแแแแขแแก แกแแฎแแแแก แแแแแแแแ แแแก แคแฃแแฅแชแแแแแ แฌแแแแแแกแแแแก. แฃแแแขแแก แจแแแแฎแแแแแจแ แแก แแ แแ แแก แแแแ แชแแแแแฃแแ R-แจแ, แแแแ แแ แแแกแแฆแแแแ. แแฅแแแ แกแแแ แแแ แแ แแญแแ แแแแแ แแแแแขแแก แแแแแ แขแ, แแฃ แแญแแ แแแแแ แแแกแ แแ แ-แแ แแ แคแฃแแฅแชแแ แแฅแแแแก แแแแจแ, แฃแแ แแแแ แแแ แแแแ แแแก แแแแแขแแก แแ แคแฃแแฅแชแแแก แกแแฎแแแแก แแแแแแแแแ. R-แจแ แแแแแขแแกแ แแ แคแฃแแฅแชแแแก แกแแฎแแแแแก แจแแ แแก แแแแงแแคแ แแ แแก แแ แแแแ แแ แฌแแ แขแแแ. package_name::function_name()
.
แแแแแแจแ, แแแ แแฅแแ, แแแแกแแแฃแ แแ แแแแแแแ แแแแแขแแก แคแฃแแฅแชแแแแแก แแแแแซแแฎแแแ แแแกแ แกแแฎแแแแก แชแแแกแแฎแแ แแแแแแแแแ. แแแแแขแแก แฉแแแแขแแแ แแแแกแแก แแแก แฉแแแฃแแแแ แแ แแซแแแแ แจแแแแแแแแฃแแ แกแแฎแแแ, แแแ. pandas
แฉแแแฃแแแแ แแ แแแแแแงแแแแแ แคแกแแแแแแแแ pd
. แแแแแขแแก แคแฃแแฅแชแแแแ แฌแแแแแ แฎแแแแ แฌแแ แขแแแแก แกแแจแฃแแแแแแ package_name.function_name()
.
แแแแแแแแ
R-แจแ แฉแแแฃแแแแ แแแแ แแกแ แแก แแแแแงแแแแแ แแแแแฅแขแแกแแแแก แแแแจแแแแแแแแก แแแแแญแแแแกแแแแก. obj_name <- value
, แแแฃแฎแแแแแแ แแแแกแ, แ แแ แแแจแแแแฃแแแ แแ แแ แขแแแแแแก แแแจแแแ, R-แจแ แแ แแ แขแแแแแแก แแแจแแแ แซแแ แแแแแแ แแแแแแงแแแแแ แคแฃแแฅแชแแแแแก แแ แแฃแแแแขแแแแ แแแแจแแแแแแแแแแก แแแแแกแแชแแแแ.
แแแแแแจแ แแแแแญแแแ แฎแแแแ แแฅแกแแแฃแแแฃแ แแ แแ แแ แขแแแแแแก แแแจแแแ obj_name = value
.
แแแแแฅแกแแ แแแ
แแฅ แแกแแแ แกแแแแแแ แแแแจแแแแแแแแแ แแแแกแฎแแแแแแแแแ. R-แจแ แแแแแฅแกแแ แแแ แแฌแงแแแ แแ แแแแแ แแ แแแแชแแแก แงแแแแ แแแแแแแแฃแ แแแแแแแขแก แแแฆแแแฃแ แแแแแแแแแจแ,
แแแแแแจแ แแแแแฅแกแแ แแแ แแฌแงแแแ แแฃแแแแแ แแ แแ แฉแแฃแแ แแแแแแแแแ แแ แจแแแชแแแก แแแแแฅแกแจแ แแแแแแแแฃแ แแแแ แแแแแแแขแก. แแกแ แ แแ แแแแแแแ x[i:j]
แแแแแแจแ แแ แจแแแแก j แแแแแแแขแ.
แแกแแแ แแ แกแแแแแก แแแแกแฎแแแแแแแแ แฃแแ แงแแคแแ แแแแแฅแกแแ แแแแจแ, R แแแขแแชแแแจแ x[-1]
แแแแแ แฃแแแแก แแแฅแขแแ แแก แงแแแแ แแแแแแแขแก, แแแ แแ แฃแแแแแกแแแแแแกแ. แแแแแแจแ, แแกแแแแกแ แแฆแแแจแแแ แแแแแ แฃแแแแก แแฎแแแแ แแแแ แแแแแแแขแก.
แแแแแแแแ แแ OOP
R แแฎแแ แชแแแแแแก OOP-แก แแแแแกแแแฃแ แแ, แแแแก แจแแกแแฎแแ แแแแฌแแ แ แกแขแแขแแแจแ tydiverse
แฃแคแ แ แแแแแแ แแฅแแแแ แแแแ แ pandas
. แแฃแแชแ แแก แจแแแซแแแแ แแงแแก แฉแแแ แกแฃแแแแฅแขแฃแ แ แแแ แ.
แแแแแแ, R-แจแ แแแแแฅแขแแแก แแ แแฅแแ แแแแแแแแ (แแฃ แแกแแฃแแ แแแ S3 แแแแกแแแแ, แแแแ แแ แแ แแก แกแฎแแ OOP-แแก แแแแแแแแแขแแชแแแแ, แ แแแแแแแช แแแชแแแแแแ แแแแแแแแ แแแแ แชแแแแแฃแแแ). แแ แกแแแแแก แแฎแแแแ แแแแแแแแแแแฃแแ แคแฃแแฅแชแแแแ, แ แแแแแแแช แแแ แแแแกแฎแแแแแแฃแแแ แแแฃแจแแแแแแ แแแแแฅแขแแก แแแแกแแก แแแฎแแแแแ.
แแแแกแแแแแแแ
แแแแแ แแก แแ แแก แกแแฎแแแ pandas
แแแแแ แกแฌแแ แ แแ แแฅแแแแ, แแแแ แแ แแแชแแแแ แแแฎแกแแ แแแแจแแแแแแแ.
แแแแกแแแแแก, แ แแ แแ แจแแแแแฎแแ แจแฃแแแแแฃแ แ แแแแแแแแแแ แแ แแ แฌแแ แแแแฅแแแแก แแ แแกแแญแแ แ แแแแแฅแขแแแ แกแแแฃแจแแ แแแ แแแแจแ, แจแแแแซแแแแ แแแแแแงแแแแ แแ แแแแแ แ แแแแกแแแแแ. แแแแ. แแแแแแขแแแแ แแแแแแแ แแจแแแแก แจแแแแแ แแ แแ แคแฃแแฅแชแแแแแ แแแแ แแแ แแ แแ แจแแแแแฎแแ แจแฃแแแแแฃแ แ แจแแแแแแแ.
แแแแฆแแ แจแแแแแแ แแแแแก แแแแแแแแ, แกแแแแช แฉแแแ แแแแแฎแแแ แจแฃแแแแแฃแ แแแแแแแแแแก แชแแแแแฃแ แแแแแฅแขแแแจแ:
temp_object <- func1()
temp_object2 <- func2(temp_object )
obj <- func3(temp_object2 )
แแแแแแแแแแ แฃแแแ แฉแแแแขแแ แแ 3 แแแแ แแชแแ แแ แแแแแแฃแแแก แจแแแแแ แชแแแแ แแแแแฅแขแจแ แจแแแแฎแฃแแ แแงแ. แแแแ แแ แกแแแแแแแแแแจแ, แฉแแแ แแ แแแญแแ แแแแ แแก แจแฃแแแแแฃแ แ แแแแแฅแขแแแ.
แแ แแแแแ แฃแแ แแกแ, แแแแ แแ แฃแคแ แ แแแชแแแแ Excel-แแก แแแแฎแแแ แแแแแแแกแแแแก.
obj <- func3(func2(func1()))
แแ แจแแแแฎแแแแแจแ, แฉแแแ แแ แจแแแแแแฎแแแ แแแแแแแ แแจแแแแก แจแฃแแแแแฃแ แจแแแแแแแก, แแแแ แแ แแแแแก แฌแแแแแฎแแ แฉแแแแแฃแแ แคแฃแแฅแชแแแแแ แฃแแแแฃแ แแกแแ แแแฃแฎแแ แฎแแแแแแ.
แฉแแแ แแแแแแฎแแแแแ แแแแแชแแแแ แแแแฃแจแแแแแแก แ แแแแแแแแ แแแแแแแแก R-แจแ แแ แแกแแแ แแกแ แฃแแแแแ แแกแแแแก แแแแ แแชแแแแก แกแฎแแแแแกแฎแแ แแแแ.
แแแแกแแแแแแแ แแแแแแแแแแแจแ tidyverse
แแแแ แแขแแ แแก แแแแ แแแแฎแแ แชแแแแแแฃแแ %>%
.
obj <- func1() %>%
func2() %>%
func3()
แแแ แแแแ, แฉแแแ แแแฆแแแ แกแแแฃแจแแแก แจแแแแแก func1()
แแ แแแแแกแชแแก แแก, แ แแแแ แช แแแ แแแแ แแ แแฃแแแแขแ func2()
, แแแจแแ แแ แแแแแแแแแก แจแแแแแก แแแแแแชแแแ แแแ แแแ แแ แแฃแแแแขแแ func3()
. แแ แแแแแก, แฉแแแ แแฌแแ แ แแแแแฅแขแจแ แจแแกแ แฃแแแแฃแ แงแแแแ แแแแแแแแแก obj <-
.
แงแแแแแแแ แแแแแแฅแแฃแแ แกแแขแงแแแแแ แฃแแแ แแ แแก แแแฃแกแขแ แแ แแแฃแแ แแ แแแแแ:
ะ data.table
แฏแแญแแแแ แแแแแแงแแแแแ แแแแแแแแฃแ แแ.
newDT <- DT[where, select|update|do, by][where, select|update|do, by][where, select|update|do, by]
แแแแแแฃแ แแแแแ แแขแฃแ แคแ แฉแฎแแแจแ แจแแแแซแแแแ แแแแแแงแแแแ แฌแแแ แแแแ แแชแแแก แจแแแแแ.
ะ pandas
แแกแแแ แแแแ แแชแแแแ แแแแแงแแคแแแแ แฌแแ แขแแแแ.
obj = df.fun1().fun2().fun3()
แแแแ. แฉแแแ แแแฆแแแ แฉแแแแก แแแแแแแก df แแ แแแแแแงแแแ แแแกแ แแแแแแ fun1()
, แจแแแแแ แแแฆแแแฃแ แจแแแแแก แแแแแแ แแแแ แแแแแแก fun2()
แจแแแแแ fun3()
. แจแแแแแแ แแแฆแแแฃแแ แจแแแแแ แแแแฎแแแ แแแแแฅแขแจแ Obj .
แแแแแชแแแแ แกแขแ แฃแฅแขแฃแ แแแ
แแแแแชแแแแ แกแขแ แฃแฅแขแฃแ แแแ R-แกแ แแ Python-แจแ แแกแแแแกแแ, แแแแ แแ แแแแกแฎแแแแแแฃแแ แกแแฎแแแแแ แแฅแแ.
แแฆแฌแแ แ
แกแแฎแแแ แ
แกแแฎแแแ แแแแแแจแ/แแแแแแจแ
แแแแแแแก แกแขแ แฃแฅแขแฃแ แ
data.frame, data.table, tibble
DataFrame
แแแแจแแแแแแแแแแก แแ แแแแแแแแแแแแแแแ แกแแ
Vector
แกแแ แแแแ แแแแแแแแจแ แแ แกแแ แกแฃแคแแ แแแแแแจแ
แแ แแแแแแแแแแแ แแ แแขแแแฃแแฃแ แ แกแขแ แฃแฅแขแฃแ แ
แกแแ
แแแฅแกแแแแแ (แแแฅแขแแขแ)
แฅแแแแแ แแแแแแฎแแแแแ แกแแแขแแฅแกแแก แกแฎแแ แแแฎแแกแแแแแแแแแกแ แแ แแแแกแฎแแแแแแแแก.
แ แแแแแแแแ แกแแขแงแแ แแแแแขแแแแก แจแแกแแฎแแ, แ แแแแแแกแแช แฉแแแ แแแแแแแงแแแแแ
แแแ แแแ แ แแแจแ, แชแแขแแก แแแขแงแแแ แแ แแแแแขแแแแก แจแแกแแฎแแ, แ แแแแแแกแแช แแ แกแขแแขแแแก แแแแแแแแแแแจแ แแแแชแแแแแ.
แแแฌแแกแ แแแแแฃแแ
ะัะธัะธะฐะปัะฝัะน ัะฐะนั:
แแแแแแแแแแ tidyverse
แแแฌแแ แแแ แฐแแแแ แแแแฐแแแแก แแแแ , แฃแคแ แแกแ แแแแแแแแ แ RStudio-แจแ. tidyverse
แจแแแแแแ แแแแแขแแแแก แจแแแแแแญแแแแ แแแแ แแแแกแแแ, แ แแแแแแช แแแแ แขแแแแแก แแแแแชแแแแ แแแแฃแจแแแแแแก, แ แแแแแแแแแ 5 แจแแแแก CRAN แกแแชแแแแแแ แฉแแแแขแแแ แแแแแแก แขแแ 10-แจแ.
แแแแแแแแแแแก แแแ แแแ แจแแแแแแ แจแแแแแแ แแแแแขแแแแกแแแ: ggplot2
, dplyr
, tidyr
, readr
, purrr
, tibble
, stringr
, forcats
. แแแแแแฃแแ แแก แแแแแขแ แแแแแแ แแกแแฎแแแก แแแแแ แแขแฃแแ แแ แแแแแแแก แแแแแญแ แแก. แฒแแแแแแแแ dplyr
แจแแฅแแแแแแ แแแแแชแแแแแแก แแแแแแฃแแแ แแแแกแแแแก, tidyr
แแแแแชแแแแแแก แแแฌแแกแ แแแแแฃแ แคแแ แแแจแ แแแงแแแแ, stringr
แแแแ แขแแแแแก แกแขแ แแแแแแแแ แแฃแจแแแแแก แแ ggplot2
แแแแแชแแแแ แแแแฃแแแแแแชแแแก แแ แ-แแ แแ แงแแแแแแ แแแแฃแแแ แฃแแ แแแกแขแ แฃแแแแขแแ.
แฒฃแแแ แแขแแกแแแ tidyverse
แแ แแก แกแแแแ แขแแแ แแ แแแแแแแ แฌแแกแแแแแฎแ แกแแแขแแฅแกแ, แ แแแแแแช แแ แแแแแ แแแแแกแแแ แแกแแ แฐแแแแก SQL แจแแแแแฎแแแก แแแแก.
แแแแแชแแแแแ. แแแแแแ
แแแขแแ แ data.table
แแ แแก แแแ แแแแ H2O.ai-แแแ.
แแแแแแแแแแแก แแแ แแแแ แแแแแจแแแแ แจแแแแ 2006 แฌแแแก.
แแแแแขแแก แกแแแขแแฅแกแ แแ แแ แแก แแกแแแ แแแกแแฎแแ แฎแแแแแ, แ แแแแ แช แแฅ tidyverse
แแ แฃแคแ แ แแแแแแแแแแแก แแแแกแแแฃแ แแแแแชแแแแ แฉแแ แฉแแแแก R-แจแ, แแแแ แแ แแแแแ แแ แแก แแแแจแแแแแแแแแ แแแคแแ แแแแแ แคแฃแแฅแชแแแแแแฃแ แแแแ.
แแ แแแแแขแแก แชแฎแ แแแแ แงแแแแ แแแแแแฃแแแชแแ แแฆแฌแแ แแแแ แแแแแ แแขแฃแ แคแ แฉแฎแแแแแจแ แแ แแฃ แแแ แแแแแ แกแแแขแแฅแกแก data.table
SQL-แจแ แแแแฆแแแ แแกแแแแก แ แแฆแแชแแก: data.table[ WHERE, SELECT, GROUP BY ]
แแ แแแแแขแแก แกแแซแแแแ แ แแ แแก แแแแ แ แแแแแแแแแ แแแแแชแแแแแแก แแแแฃแจแแแแแแก แกแแฉแฅแแ แ.
pandas
ะัะธัะธะฐะปัะฝัะน ัะฐะนั:
แแแแแแแแแแแก แกแแฎแแแฌแแแแแ แแแแแแแแ แแแแก แแแแแแแแขแ แแฃแแ แขแแ แแแแแแแ โแแแแแแแก แแแแแชแแแแแโ, แ แแแแแแช แแแแแแงแแแแแ แแแคแแ แแแชแแแก แแ แแแแแแแแแแแแแแแแแแ แกแขแ แฃแฅแขแฃแ แแ แแแฃแแ แแแแ แแแแก แแฆแกแแฌแแ แแ.
แแแขแแ แ pandas
แแ แแก แแแแ แแแแแ แฃแแก แแแแแแแ.
แ แแช แจแแแฎแแแ แแแแแแจแ แแแแแชแแแแ แแแแแแแก, แแแแแแแ แ pandas
แแ แ. แซแแแแแ แแ แแแแแคแฃแแฅแชแแฃแ แ, แแแฆแแแ แแแแแก แแแแแขแ, แ แแแแแแช แกแแจแฃแแแแแแก แแแซแแแแ แแแแแฎแแ แชแแแแแ แแแแแกแแแแ แ แแแแแแฃแแแ แแแ แแแแแชแแแแแแ, แแแแแกแแแแ แ แฌแงแแ แแแแ แแแแแชแแแแแแก แฉแแขแแแ แแแแแแ แแแก แแแแฃแแแแแแชแแแแแ.
แแแแแขแแแแแ แแแแแขแแแแก แแแงแแแแแ
แแ แกแขแแขแแแจแ แแแแฎแแแฃแแ แแแแแขแแแ แแ แจแแแแก R แแ Python-แแก แซแแ แแแแ แแแกแขแ แแแฃแชแแแแจแ. แแแฃแฎแแแแแแ แแแแกแ, แ แแ แแ แกแแแแแก แแชแแ แ แกแแคแ แแฎแแแ, แแฃ แแฅแแแ แแแแแแกแขแแแแ แแ Anaconda แแแกแขแ แแแฃแชแแ, แจแแแแแ แแแแแแกแขแแแแ แแ แแแแแขแแแแ pandas
แแ แแ แแก แกแแญแแ แ.
แแแแแขแแแแก แแแงแแแแแ แ
แแฃ แแ แแฎแแ แแแแแช แแแฎแกแแแแ RStudio แแแแแแแแ แแแแก แแแ แแแ, แแแแแ แฃแแแ แแชแแ แ แแแแ แแแแแแกแขแแแแ แแ แกแแญแแ แ แแแแแขแ R-แจแ. แแแแแขแแแแก แแแกแขแแแแชแแแกแแแแก แแแแแแงแแแแ แกแขแแแแแ แขแฃแแ แแ แซแแแแแ install.packages()
แฃแจแฃแแแแ R-แจแ แแแจแแแแแ.
# ัััะฐะฝะพะฒะบะฐ ะฟะฐะบะตัะพะฒ
install.packages("vroom")
install.packages("readr")
install.packages("dplyr")
install.packages("data.table")
แแแกแขแแแแชแแแก แจแแแแแ แกแแญแแ แแ แแแแแขแแแแก แแแแแแจแแ แแแ, แ แแกแแแแกแแช แฃแแแขแแก แจแแแแฎแแแแแจแ แแแแแแงแแแแแ แแ แซแแแแแ library()
.
# ะฟะพะดะบะปััะตะฝะธะต ะธะปะธ ะธะผะฟะพัั ะฟะฐะบะตัะพะฒ ะฒ ัะฐะฑะพัะตะต ะพะบััะถะตะฝะธะต
library(vroom)
library(readr)
library(dplyr)
library(data.table)
แแแแแขแแแแก แแแงแแแแแ แแแแแแจแ
แแกแ แ แแ, แแฃ แแฅแแแ แแแฅแแ แกแฃแคแแ แแแแแแ แแแแแกแขแแแแ แแแฃแแ, แแแจแแ pandas
แแฅแแแ แฃแแแ แแแแแแกแขแแแแ แแ แฎแแแแ. แแแฎแกแแแแ แแ แซแแแแแแก แฎแแแ, แแ แขแแ แแแแแแ, แแฅแแแแ แแแแ แแชแแฃแแ แกแแกแขแแแแก แแแฎแแแแแ แแ แจแแแงแแแแแ แจแแแแแแ แแ แซแแแแแ.
pip install pandas
แจแแแแแ แแฃแแ แฃแแแแแแ Python-แก แแ แแแแแกแขแแแแ แแแฃแแ แแแแแขแแก แแแแแ แขแก แแ แซแแแแแแ import
.
import pandas as pd
แแขแแแ แแแแ แแแแแชแแแแแ
แแแแแชแแแแ แแแแแแแแ แแแแแชแแแแ แแแแแแแแก แแ แ-แแ แแ แงแแแแแแ แแแแจแแแแแแแแแ แแแแแฏแแ. แแ แแแ Python แแ R, แแฃ แกแแกแฃแ แแแแแ, แแแซแแแแ แคแแ แแ แจแแกแแซแแแแแแแแแก, แแแแฆแแ แแแแแชแแแแแ แแแแแกแแแแ แ แฌแงแแ แแแแ: แแแแแแแแ แแแ แคแแแแแแ, แคแแแแแแ แแแขแแ แแแขแแแแ, แแแแกแแแขแแแ, แงแแแแ แกแแฎแแก แแแแแชแแแแ แแแแ.
แกแขแแขแแแก แแแแแแแแแแแจแ แฉแแแ แแแแแแแงแแแแแ แ แแแแแแแแ แแแแแชแแแแ แแแแ แแแก:
- แแ แ แฉแแแแขแแแ แแแ Google Analytics-แแแ.
- แขแแขแแแแแแก แแแแแแ แแ แแแแแชแแแแ แแแแ แแแ.
แงแแแแ แแแแแชแแแ แฉแแแแแ
แแแแแชแแแแ แฉแแขแแแ แแแ R-แจแ: tidyverse, vroom, reader
แแแแแชแแแแ แแแแแแแแแแแจแ แฉแแขแแแ แแแ tidyverse
แแ แแก แแ แ แแแแแขแ: vroom
, readr
. vroom
แฃแคแ แ แแแแแแแแ แแแ, แแแแ แแ แแแแแแแแจแ แแแแแขแแแ แจแแแซแแแแ แแแแ แแแแแแแก.
แชแแขแแขแ แแฎแแ vroom
.
แแ แฃแแ แแแแแฎแแแแแก แฌแแแแแฆแแแแ
แ แแก แแแแแจแแแแvroom
แแแจแแแแก แแแแกแแแแกreadr
? แแ แแ แแแกแแแแก แฉแแแ แแแแแแแแ แแ แ แแแแแขแแก แชแแ-แชแแแแ แแแแแแแแ แแแแก, แแแแ แแ, แกแแแแ แแฃแแแ, แแแแแแแแจแ แแแแแแ แแแแแแแ แแแแแขแแแก. vroom-แแก แแแ แแแชแ แแแแฎแแแก แแ แ-แแ แแ แแแแฃแกแ แแก แแ แแก, แ แแ แแแแแชแแแแ แแแ แแแแฃแแ แแ แแแแแแแแแก แจแแกแแฎแแ แฌแแแแกแฌแแ แแ แแ แแก แแแคแแฅแกแแ แแแฃแแ, แแกแ แ แแ, แแฃ แ แแแแ แแแแแแ แแแแแแ แแกแแแ, แกแแญแแ แแ แแแ แแแแฃแแ แคแแฅแ แ.แแ แฃแแ แแแแแฎแแแแแก แฌแแแแแฆแแแแ
แ แแก แแแจแแแแก แแแแแแแกแฃแคแแแแ?vroom
แแแแกแแแแกreadr
? แแ แแ แแแกแแแแก แแแแแแแแ แแ แแแ แแแแแขแแก แชแแ-แชแแแแ แจแแแฃแจแแแแแแก, แแแแ แแ, แกแแแแ แแฃแแแ, แแแแแแแแจแ แแแแแแ แแแแแแแ. แแแ แแแชแ แแแแฎแแแก แแ แ-แแ แแ แแแแฃแกแvroom
แแ แแก แแก, แ แแ แแแแแชแแแแแแก แแแแแแ แแ แแ แแแแแแแก แจแแกแแฎแแ แฌแแแแกแฌแแ แแ แแ แแก แแแฎแกแแแแแฃแแ, แแกแ แ แแ แแฅแแแ แฃแแแ แแคแแฅแ แแ แแแแแ, แแฃ แ แแแแ แฃแแแแแกแแ แแแแแแแจแแ แแ แแกแแแ.
แแ แกแขแแขแแแจแ แฉแแแ แแแแแแฎแแแแแ แแแแแชแแแแ แฉแแขแแแ แแแแก แแ แแแ แแแแแขแก:
แแแแแชแแแแแแก แฉแแขแแแ แแแ R: vroom แแแแแขแจแ
# install.packages("vroom")
library(vroom)
# ะงัะตะฝะธะต ะดะฐะฝะฝัั
## vroom
ga_nov <- vroom("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_nowember.csv")
ga_dec <- vroom("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_december.csv")
titanic <- vroom("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/titanic.csv")
แแแแแชแแแแแแก แฉแแขแแแ แแแ R: reader-แจแ
# install.packages("readr")
library(readr)
# ะงัะตะฝะธะต ะดะฐะฝะฝัั
## readr
ga_nov <- read_tsv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_nowember.csv")
ga_dec <- read_tsv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_december.csv")
titanic <- read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/titanic.csv")
แแแแแขแจแ vroom
csv / tsv แแแแแชแแแแ แคแแ แแแขแแก แแแฃแฎแแแแแแ, แฉแแขแแแ แแแ แฎแแ แชแแแแแแแ แแแแแ แกแแฎแแแฌแแแแแแก แคแฃแแฅแชแแแ vroom()
, แจแแคแฃแแแแจแ readr
แฉแแแ แแแงแแแแแ แกแฎแแแแแกแฎแแ แคแฃแแฅแชแแแก แแแแแแฃแแ แคแแ แแแขแแกแแแแก read_tsv()
ะธ read_csv()
.
แแแแแชแแแแ แฉแแขแแแ แแแ R: data.table-แจแ
ะ data.table
แแ แกแแแแแก แแแแแชแแแแแแก แฉแแขแแแ แแแแก แคแฃแแฅแชแแ fread()
.
แแแแแชแแแแ แฉแแขแแแ แแแ R: data.table แแแแแขแจแ
# install.packages("data.table")
library(data.table)
## data.table
ga_nov <- fread("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_nowember.csv")
ga_dec <- fread("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_december.csv")
titanic <- fread("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/titanic.csv")
แแขแแแ แแแแ แแแแแชแแแแแ Python-แจแ: pandas
แแฃ แจแแแแแแ แแแ R แแแแแขแแแก, แแแจแแ แแ แจแแแแฎแแแแแจแ แกแแแขแแฅแกแ แงแแแแแแ แแฎแแแกแแ pandas
แแแแ readr
, แแแแขแแ pandas
แจแแฃแซแแแ แแแแแฎแแแแก แแแแแชแแแแแ แแแแแกแแแแ แ แแแแแแแแแ แแ แแ แแแแแขแจแ แแ แแก แคแฃแแฅแชแแแแแก แแแแแ แแฏแแฎแ read_*()
.
read_csv()
read_excel()
read_sql()
read_json()
read_html()
แแ แแ แแแแแ แกแฎแแ แคแฃแแฅแชแแ, แ แแแแแแช แจแแฅแแแแแแ แกแฎแแแแแกแฎแแ แคแแ แแแขแแก แแแแแชแแแแแแก แฌแแกแแแแแฎแแ. แแแแ แแ แฉแแแแ แแแแแแแแกแแแแก แแก แกแแแแแ แแกแแ read_table()
แแ read_csv()
แแ แแฃแแแแขแแก แแแแแงแแแแแแ sep แกแแแขแแก แแแแงแแคแแก แแแกแแแฃแกแขแแแแแ.
แแขแแแ แแแแ แแแแแชแแแแแ Python-แจแ: pandas
import pandas as pd
ga_nov = pd.read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/russian_text_in_r/ga_nowember.csv", sep = "t")
ga_dec = pd.read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/russian_text_in_r/ga_december.csv", sep = "t")
titanic = pd.read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/russian_text_in_r/titanic.csv")
แแแแแชแแแแ แฉแแ แฉแแแแแก แจแแฅแแแ
แแแแแแ Titanic, แ แแแแแแช แฉแแแขแแแ แแแ, แแ แแก แแแแ Sex, แ แแแแแแช แแแแฎแแแก แแแแแแ แแก แกแฅแแกแแก แแแแแขแแคแแแแขแแ แก.
แแแแ แแ แแแแแแ แแแแก แกแฅแแกแแก แแแฎแแแแแ แแแแแชแแแแแแก แฃแคแ แ แแแกแแฎแแ แฎแแแแแ แฌแแ แแแแแแแแกแแแแก, แแฅแแแ แฃแแแ แแแแแแงแแแแ แกแแฎแแแ แแ แแ แ แแแแแแ แฃแแ แแแแ.
แแแแกแแแแแก แฉแแแ แจแแแฅแแแแ แแแขแแ แ แแแ แแฅแขแแ แแแก, แชแฎแ แแแก, แ แแแแแจแแช แแฅแแแแ แแฎแแแแ 2 แกแแแขแ (แแแแ แแ แกแฅแแกแแก แกแแฎแแแ) แแ 2 แกแขแ แแฅแแแ, แจแแกแแแแแแกแแ.
แแแแแชแแแแ แฉแแ แฉแแก แจแแฅแแแ R-แจแ: tidyverse, dplyr
แฅแแแแแ แแแชแแแฃแ แแแแแก แแแแแแแแจแ แฉแแแ แแฅแแแแ แกแแกแฃแ แแแ แแแแแชแแแแ แฉแแ แฉแแก แคแฃแแฅแชแแแก แแแแแงแแแแแแ tibble()
.
แแแแแชแแแแ แฉแแ แฉแแก แจแแฅแแแ R: dplyr-แจแ
## dplyr
### ัะพะทะดะฐัะผ ัะฟัะฐะฒะพัะฝะธะบ
gender <- tibble(id = c(1, 2),
gender = c("female", "male"))
แแแแแชแแแแ แฉแแ แฉแแก แจแแฅแแแ R-แจแ: data.table
แแแแแชแแแแ แฉแแ แฉแแก แจแแฅแแแ R-แจแ: data.table
## data.table
### ัะพะทะดะฐัะผ ัะฟัะฐะฒะพัะฝะธะบ
gender <- data.table(id = c(1, 2),
gender = c("female", "male"))
แแแแแแจแ แแแแแชแแแแ แฉแแ แฉแแก แจแแฅแแแ: แแแแแแแ
ะ pandas
แคแ แแแแแแแก แจแแฅแแแ แ แแแแแแแแ แแขแแแแ แแแแแแแแ แแแแก, แฏแแ แแฅแแแแ แแแฅแกแแแแแก, แจแแแแแ แแ แแแฅแกแแแแแก แแแฅแชแแแ แแแแแชแแแแ แคแ แแแแจแ.
แแแแแแจแ แแแแแชแแแแ แฉแแ แฉแแก แจแแฅแแแ: แแแแแแแ
# ัะพะทะดะฐัะผ ะดะฐัะฐ ััะตะนะผ
gender_dict = {'id': [1, 2],
'gender': ["female", "male"]}
# ะฟัะตะพะฑัะฐะทัะตะผ ัะปะพะฒะฐัั ะฒ ะดะฐัะฐััะตะนะผ
gender = pd.DataFrame.from_dict(gender_dict)
แกแแแขแแแแก แจแแ แฉแแแ
แชแฎแ แแแแแ, แ แแแแแแแแแแช แแฃแจแแแแ, แจแแแซแแแแ แจแแแชแแแแแก แแแแแชแแแแ แแแแฃแแแแแ แแ แแฃแแแแช แแกแแแแ แกแแแขแก. แแแแ แแ แแแแแแแแก แฉแแกแแขแแ แแแแแ, แ แแแแ แช แฌแแกแ, แแ แแญแแ แแแแแ แงแแแแ แกแแแขแ, แ แแแแแแช แฎแแแแแกแแฌแแแแแแ แฌแงแแ แแก แชแฎแ แแแจแ.
แแแแขแแ, แแ แ-แแ แแ แแแ แแแแ แแแแ แแชแแ, แ แแแแแกแแช แแฅแแแ แจแแแกแ แฃแแแแ แฌแงแแ แแก แชแฎแ แแแแ, แแ แแก แแแกแ แแแกแฃแคแแแแแแ แแ แแกแแญแแ แ แแแคแแ แแแชแแแกแแแ แแ แแแฎแกแแแ แแแแก แแแแแแแแกแฃแคแแแแ, แ แแแแแกแแช แแก แแแคแแ แแแชแแ แแแแแแแก.
แกแแแขแแแแก แจแแ แฉแแแ R-แจแ: tidyverse, dplyr
แกแแแขแแฅแกแ dplyr
แซแแแแแ แฐแแแแก SQL แจแแแแแฎแแแก แแแแก, แแฃ แแแ แแแ แแชแแแแ, แกแฌแ แแคแแ แแแแฃแคแแแแแ แแ แแแแแขแก.
แกแแแขแแแแก แแกแแ แฉแแแแ แแแแแแงแแแแ แคแฃแแฅแชแแ select()
.
แฅแแแแแ แแแชแแแฃแแแ แแแแแก แแแแแแแแแแ, แ แแแแแแแช แจแแแแซแแแแ แแแ แฉแแแ แกแแแขแแแ แจแแแแแแ แแแแแแ:
- แกแแญแแ แ แกแแแขแแแแก แกแแฎแแแแแแก แฉแแแแแแแ
- แแแแแ แแแ แกแแแขแแแแก แกแแฎแแแแแก แ แแแฃแแแ แฃแแ แแแแแแแแฅแแแแแแแก แแแแแงแแแแแแ
- แแแแแชแแแแ แขแแแแก แแแฎแแแแแ แแ แกแแแขแจแ แแแชแแแฃแแ แแแแแชแแแแแแก แกแฎแแ แแแแกแแแแ
แกแแแขแแแแก แจแแ แฉแแแ R-แจแ: dplyr
# ะัะฑะพั ะฝัะถะฝัั
ััะพะปะฑัะพะฒ
## dplyr
### ะฒัะฑัะฐัั ะฟะพ ะฝะฐะทะฒะฐะฝะธั ััะพะปะฑัะพะฒ
select(ga_nov, date, source, sessions)
### ะธัะบะปััั ะฟะพ ะฝะฐะทะฒะฐะฝะธั ััะพะปะฑัะพะฒ
select(ga_nov, -medium, -bounces)
### ะฒัะฑัะฐัั ะฟะพ ัะตะณัะปััะฝะพะผั ะฒััะฐะถะตะฝะธั, ััะพะฑัั ะธะผะตะฝะฐ ะบะพัะพััั
ะทะฐะบะฐะฝัะธะฒะฐัััั ะฝะฐ s
select(ga_nov, matches("s$"))
### ะฒัะฑัะฐัั ะฟะพ ััะปะพะฒะธั, ะฒัะฑะธัะฐะตะผ ัะพะปัะบะพ ัะตะปะพัะธัะปะตะฝะฝัะต ััะพะปะฑัั
select_if(ga_nov, is.integer)
แกแแแขแแแแก แจแแ แฉแแแ R-แจแ: data.table
แแแแแ แแแแ แแชแแแแ data.table
แจแแกแ แฃแแแแฃแแแ แแแแแ แแแแกแฎแแแแแแฃแแแ, แกแขแแขแแแก แแแกแแฌแงแแกแจแ แแ แแแแแฆแ แแฆแฌแแ แ, แแฃ แ แ แแ แแฃแแแแขแแแแ แแแแแ แแขแฃแ แคแ แฉแฎแแแแแจแ data.table
.
DT[i,j,by]
แกแแ:
แแ - แกแแ, แ.แ. แคแแแขแ แแชแแ แ แแแแแแก แแแฎแแแแแ
j - แแแ แฉแแแ|แแแแแฎแแแแ|แแแแแแแ, แ.แ. แกแแแขแแแแก แจแแ แฉแแแ แแ แแแแ แแแแแแ แขแแชแแ
แแแแ - แแแแแชแแแแ แแแฏแแฃแคแแแ
แกแแแขแแแแก แจแแ แฉแแแ R-แจแ: data.table
## data.table
### ะฒัะฑัะฐัั ะฟะพ ะฝะฐะทะฒะฐะฝะธั ััะพะปะฑัะพะฒ
ga_nov[ , .(date, source, sessions) ]
### ะธัะบะปััั ะฟะพ ะฝะฐะทะฒะฐะฝะธั ััะพะปะฑัะพะฒ
ga_nov[ , .SD, .SDcols = ! names(ga_nov) %like% "medium|bounces" ]
### ะฒัะฑัะฐัั ะฟะพ ัะตะณัะปััะฝะพะผั ะฒััะฐะถะตะฝะธั
ga_nov[, .SD, .SDcols = patterns("s$")]
แชแแแแแแแแ .SD
แกแแจแฃแแแแแแก แแแซแแแแ แจแแฎแแแแแ แงแแแแ แกแแแขแแ แแ .SDcols
แแแคแแแขแ แแ แกแแญแแ แ แกแแแขแแแ แ แแแฃแแแ แฃแแ แแแแแแแแฅแแแแแแแก แแ แกแฎแแ แคแฃแแฅแชแแแแแก แแแแแงแแแแแแ แแฅแแแแแแแก แกแแญแแ แ แกแแแขแแแแก แกแแฎแแแแแแก แแแกแแคแแแขแ แแ.
แกแแแขแแแแก แจแแ แฉแแแ แแแแแแจแ, แแแแแแแแจแ
แกแแแขแแแแก แกแแฎแแแแก แแแฎแแแแแ แจแแกแแ แฉแแแแ pandas
แกแแแแแ แแกแแ แแแแแแฌแแแแ แแแแ แกแแฎแแแแแแก แกแแ. แแ แแแแกแแแแแก, แ แแ แแแ แฉแแแ แแ แแแแแ แแชแฎแแ แกแแแขแแแ แกแแฎแแแแ แ แแแฃแแแ แฃแแ แแแแแแแแฅแแแแแแแก แแแแแงแแแแแแ, แแฅแแแ แฃแแแ แแแแแแงแแแแ แคแฃแแฅแชแแแแ drop()
ะธ filter()
แแ แแ แแฃแแแแขแ แฆแแ แซแ=1, แ แแแแแแแช แแแฃแแแแแแ, แ แแ แแฃแชแแแแแแแแ แกแแแขแแแแก แแแแฃแจแแแแแ แแ แแ แ แ แแแแแ.
แแแแแชแแแแ แขแแแแก แแแฎแแแแแ แแแแแก แจแแกแแ แฉแแแแ แแแแแแงแแแแ แคแฃแแฅแชแแ select_dtypes()
แแ แแ แแฃแแแแขแแแจแ แแแแชแแแก แแ แแแแแ แแชแฎแแแก แแแแแ แแ แแแแแชแแแแ แขแแแแแแก แกแแ, แ แแแแแแช แจแแแกแแแแแแแ แแแแแแก, แ แแแแแแแช แฃแแแ แแแ แฉแแแ.
แแแแแแจแ แกแแแขแแแแก แจแแ แฉแแแ: แแแแแแแ
# ะัะฑะพั ะฟะพะปะตะน ะฟะพ ะฝะฐะทะฒะฐะฝะธั
ga_nov[['date', 'source', 'sessions']]
# ะัะบะปััะธัั ะฟะพ ะฝะฐะทะฒะฐะฝะธั
ga_nov.drop(['medium', 'bounces'], axis=1)
# ะัะฑัะฐัั ะฟะพ ัะตะณัะปััะฝะพะผั ะฒััะฐะถะตะฝะธั
ga_nov.filter(regex="s$", axis=1)
# ะัะฑัะฐัั ัะธัะปะพะฒัะต ะฟะพะปั
ga_nov.select_dtypes(include=['number'])
# ะัะฑัะฐัั ัะตะบััะพะฒัะต ะฟะพะปั
ga_nov.select_dtypes(include=['object'])
แกแขแ แแฅแแแแแแก แแแคแแแขแแ แ
แแแแแแแแแ, แฌแงแแ แแก แชแฎแ แแแ แจแแแซแแแแ แจแแแชแแแแแก แ แแแแแแแแ แฌแแแก แแแแแชแแแก, แแแแ แแ แกแแญแแ แแ แแฎแแแแ แแแกแฃแแ แแแแก แแแแแแแ. แแแแแ แแ แแฎแแ, แแแแแขแแแแแ แฎแแแแแ แแแแแแแก แแแแแชแแแแ แแแแฃแจแแแแแแก แแ แแชแแกแก แแ แแแแแแแแแก แแแแแแฃแขแแ แแก แแแฎแกแแแ แแแแก.
แ แแแแแแก แแแคแแแขแแ แ R-แจแ: tydyverse, dplyr
ะ dplyr
แคแฃแแฅแชแแ แแแแแแงแแแแแ แ แแแแแแก แแแกแแคแแแขแ แแ filter()
. แแก แแฆแแแก แแแแแชแแแแ แฉแแ แฉแแก, แ แแแแ แช แแแ แแแ แแ แแฃแแแแขแก, แจแแแแแ แฉแแแแแแแแ แคแแแขแ แแชแแแก แแแ แแแแแก.
แชแฎแ แแแแก แแแกแแคแแแขแ แแ แแแแแแฃแ แ แแแแแแแแฅแแแแแแแก แแแฌแแ แแกแแก, แแ แจแแแแฎแแแแแจแ, แแแฃแแแแแ แกแแแขแแแแก แกแแฎแแแแแ แแ แญแงแแแแแแก แแแ แแจแ แแ แชแฎแ แแแแก แกแแฎแแแแก แแแแแชแฎแแแแแแก แแแ แแจแ.
แคแแแขแ แแกแแแแก แแ แแแแแ แแแแแแฃแ แ แแแแแแแแฅแแแแแก แแแแแงแแแแแแกแแก แแแแแแงแแแแ แจแแแแแแ แแแแ แแขแแ แแแ:
- & แแ แแซแแแ - แแแแแแฃแ แ แแ
- | - แแแแแแฃแ แ แแ
แ แแแแแแก แแแคแแแขแแ แ R-แจแ: dplyr
# ัะธะปัััะฐัะธั ัััะพะบ
## dplyr
### ัะธะปัััะฐัะธั ัััะพะบ ะฟะพ ะพะดะฝะพะผั ััะปะพะฒะธั
filter(ga_nov, source == "google")
### ัะธะปััั ะฟะพ ะดะฒัะผ ััะปะพะฒะธัะผ ัะพะตะดะธะฝัะฝะฝัะผ ะปะพะณะธัะตัะบะธะผ ะธ
filter(ga_nov, source == "google" & sessions >= 10)
### ัะธะปััั ะฟะพ ะดะฒัะผ ััะปะพะฒะธัะผ ัะพะตะดะธะฝัะฝะฝัะผ ะปะพะณะธัะตัะบะธะผ ะธะปะธ
filter(ga_nov, source == "google" | sessions >= 10)
แ แแแแแแก แแแคแแแขแแ แ R-แจแ: data.table
แ แแแแ แช แฃแแแ แแแแฌแแ แ แแแแแ, แฅ data.table
แแแแแชแแแแ แแแแแแ แขแแชแแแก แกแแแขแแฅแกแ แฉแแกแแฃแแแ แแแแแ แแขแฃแ แคแ แฉแฎแแแแแจแ.
DT[i,j,by]
แกแแ:
แแ - แกแแ, แ.แ. แคแแแขแ แแชแแ แ แแแแแแก แแแฎแแแแแ
j - แแแ แฉแแแ|แแแแแฎแแแแ|แแแแแแแ, แ.แ. แกแแแขแแแแก แจแแ แฉแแแ แแ แแแแ แแแแแแ แขแแชแแ
แแแแ - แแแแแชแแแแ แแแฏแแฃแคแแแ
แแ แแฃแแแแขแ แแแแแแงแแแแแ แ แแแแแแก แแแกแแคแแแขแ แแ i, แ แแแแแกแแช แแฅแแก แแแ แแแแ แแแแแชแแ แแแแแ แแขแฃแ แคแ แฉแฎแแแแแจแ.
แกแแแขแแแแ แฌแแแแแ แฎแแแแ แแแแแแฃแ แแแแแแแแฅแแแแแแจแ แแ แญแงแแแแแแก แแแ แแจแ แแ แชแฎแ แแแแก แกแแฎแแแแก แแแแแแแแแก แแแ แแจแ.
แแแแแแฃแ แ แแแแแแแแฅแแแแแแ แแ แแแแแแแแแ แแแแแแจแแ แแแฃแแแ แแกแแแ, แ แแแแ แช แจแ dplyr
& แแ | แแแแ แแขแแ แแแแก แแแจแแแแแแ.
แ แแแแแแก แแแคแแแขแแ แ R-แจแ: data.table
## data.table
### ัะธะปัััะฐัะธั ัััะพะบ ะฟะพ ะพะดะฝะพะผั ััะปะพะฒะธั
ga_nov[source == "google"]
### ัะธะปััั ะฟะพ ะดะฒัะผ ััะปะพะฒะธัะผ ัะพะตะดะธะฝัะฝะฝัะผ ะปะพะณะธัะตัะบะธะผ ะธ
ga_nov[source == "google" & sessions >= 10]
### ัะธะปััั ะฟะพ ะดะฒัะผ ััะปะพะฒะธัะผ ัะพะตะดะธะฝัะฝะฝัะผ ะปะพะณะธัะตัะบะธะผ ะธะปะธ
ga_nov[source == "google" | sessions >= 10]
แกแขแ แแฅแแแแแแก แแแคแแแขแแ แ แแแแแแจแ: แแแแแแแ
แแแคแแแขแแ แ แ แแแแแแก แแแฎแแแแแ pandas
แคแแแขแ แแชแแแก แแกแแแแกแ data.table
, แแ แจแแกแ แฃแแแแฃแแแ แแแแแ แแขแฃแ แคแ แฉแฎแแแแแจแ.
แแ แจแแแแฎแแแแแจแ, แกแแแขแแแแ แฌแแแแแ แแฃแชแแแแแแแ แฎแแ แชแแแแแแแ แแแแแชแแแแ แฉแแ แฉแแก แกแแฎแแแแก แแแแแแแแแ; แจแแแแแ แกแแแขแแก แกแแฎแแแ แแกแแแ แจแแแซแแแแ แแแแแแแแก แแ แญแงแแแแแจแ แแแแแ แแขแฃแ แคแ แฉแฎแแแแแจแ (แแแแแแแแแ df['col_name']
), แแ แชแแขแแขแแแแก แแแ แแจแ แแแ แแแแแก แจแแแแแ (แแแแแแแแแ df.col_name
).
แแฃ แแฅแแแ แแญแแ แแแแแ แแแแแชแแแแ แฉแแ แฉแแก แแแคแแแขแแ แ แ แแแแแแแแ แแแ แแแแ, แแแแแแฃแแ แแแ แแแ แฃแแแ แแแแแแแกแแแก แคแ แฉแฎแแแแแจแ. แแแแแแฃแ แ แแแ แแแแแ แแ แแแแแแแแแ แแแแแแจแแ แแแฃแแแ แแแแ แแขแแ แแแแก แแแแ &
ะธ |
.
แกแขแ แแฅแแแแแแก แแแคแแแขแแ แ แแแแแแจแ: แแแแแแแ
# ะคะธะปัััะฐัะธั ัััะพะบ ัะฐะฑะปะธัั
### ัะธะปัััะฐัะธั ัััะพะบ ะฟะพ ะพะดะฝะพะผั ััะปะพะฒะธั
ga_nov[ ga_nov['source'] == "google" ]
### ัะธะปััั ะฟะพ ะดะฒัะผ ััะปะพะฒะธัะผ ัะพะตะดะธะฝัะฝะฝัะผ ะปะพะณะธัะตัะบะธะผ ะธ
ga_nov[(ga_nov['source'] == "google") & (ga_nov['sessions'] >= 10)]
### ัะธะปััั ะฟะพ ะดะฒัะผ ััะปะพะฒะธัะผ ัะพะตะดะธะฝัะฝะฝัะผ ะปะพะณะธัะตัะบะธะผ ะธะปะธ
ga_nov[(ga_nov['source'] == "google") | (ga_nov['sessions'] >= 10)]
แแแแแชแแแแ แแแฏแแฃแคแแแ แแ แแแ แแแแชแแ
แแแแแชแแแแ แแแแแแแแก แแ แ-แแ แแ แงแแแแแแ แฎแจแแ แแ แแแแแงแแแแแฃแแ แแแแ แแชแแ แแ แแก แแแฏแแฃแคแแแ แแ แแแ แแแแชแแ.
แแ แแแแ แแชแแแแแก แจแแกแ แฃแแแแแก แกแแแขแแฅแกแ แแแแแคแแแขแฃแแแ แงแแแแ แแแแแขแจแ, แ แแแแแกแแช แฉแแแ แแแแแแฎแแแแแ.
แแ แจแแแแฎแแแแแจแ, แฉแแแ แแแแฆแแ แแแแแชแแแแ แฉแแ แฉแ, แ แแแแ แช แแแแแแแแ Titanicแแ แแแแแแแแแแ แแแแแแแแแก แ แแแแแแแแ แแ แกแแจแฃแแแ แฆแแ แแแฃแแแแ แกแแแแแแก แแแแกแแก แแแฎแแแแแ.
แแแแแชแแแแ แแแฏแแฃแคแแแ แแ แแแ แแแแชแแ R-แจแ: tidyverse, dplyr
ะ dplyr
แคแฃแแฅแชแแ แแแแแแงแแแแแ แแแฏแแฃแคแแแแกแแแแก group_by()
แแ แแแ แแแแชแแแกแแแแก summarise()
. แฒกแแแแแแแแแแจแ, dplyr
แแ แแก แคแฃแแฅแชแแแแแก แแแแแ แแฏแแฎแ summarise_*()
, แแแแ แแ แแ แกแขแแขแแแก แแแแแแแ แซแแ แแแแแ แกแแแขแแฅแกแแก แจแแแแ แแแ, แแแแขแแ แแกแแ แฏแฃแแแแแแจแ แแ แจแแแแแ.
แซแแ แแแแแ แแแ แแแแชแแแก แคแฃแแฅแชแแแแ:
sum()
- แจแแฏแแแแแmin()
/max()
- แแแแแแแแฃแ แ แแ แแแฅแกแแแแแฃแ แ แแแแจแแแแแแแmean()
- แกแแจแฃแแแmedian()
- แแแแแแแlength()
- แ แแแแแแแแ
แแแฏแแฃแคแแแ แแ แแแ แแแแชแแ R-แจแ: dplyr
## dplyr
### ะณััะฟะฟะธัะพะฒะบะฐ ะธ ะฐะณัะตะณะฐัะธั ัััะพะบ
group_by(titanic, Pclass) %>%
summarise(passangers = length(PassengerId),
avg_price = mean(Fare))
แคแฃแแฅแชแแแแแ แแแก group_by()
แแแ แแแ แแ แแฃแแแแขแแ แชแฎแ แแแ แแแแแแแขแแแแ Titanic, แแ แจแแแแแ แแแฃแแแแ แแแแ แแแแแกแ, แ แแแแแแแช แแแแแฏแแฃแคแแแ แฉแแแแก แชแฎแ แแแก. แแ แแแแ แแชแแแก แจแแแแแ แแแแ แแขแแ แแก แแแแแงแแแแแแ %>%
แแแแแแชแ แคแฃแแฅแชแแแก แแแ แแแ แแ แแฃแแแแขแแ summarise()
แแ แแแแแแขแ แแแแแ 2 แแแแ: แแแแแแ แแแ ะธ แกแแจแฃแแแ_แคแแกแ. แแแ แแแแจแ, แคแฃแแฅแชแแแก แแแแแงแแแแแแ length()
แแแแแแแแแแ แแแแแแแแแก แ แแแแแแแแ แแ แแแแ แแจแ แคแฃแแฅแชแแแก แแแแแงแแแแแแ mean()
แแแแฆแ แแแแแแแก แกแแจแฃแแแ แคแแกแ.
แแแแแชแแแแ แแแฏแแฃแคแแแ แแ แแแ แแแแชแแ R-แจแ: แแแแแชแแแแแ.แชแฎแ แแแ
ะ data.table
แแ แแฃแแแแขแ แแแแแแงแแแแแ แแแ แแแแชแแแกแแแแก j
แ แแแแแกแแช แแฅแแก แแแแ แ แแแแแชแแ แแแแแ แแขแฃแ แคแ แฉแฎแแแแแจแ แแ แแแฏแแฃแคแแแแกแแแแก by
แแ keyby
, แ แแแแแแกแแช แแแกแแแ แแแแแชแแ แแฅแแ.
แแแ แแแแชแแแก แคแฃแแฅแชแแแแแก แกแแ แแ แจแแแแฎแแแแแจแ แแแแแขแฃแ แแ, แ แแช แแฆแฌแแ แแแแ dplyr
, แแแแขแแ แแก แแ แแก แคแฃแแฅแชแแแแ แซแแ แแแแแ R แกแแแขแแฅแกแแแแ.
แแแฏแแฃแคแแแ แแ แแแ แแแแชแแ R-แจแ: แแแแแชแแแแแ.แชแฎแ แแแ
## data.table
### ัะธะปัััะฐัะธั ัััะพะบ ะฟะพ ะพะดะฝะพะผั ััะปะพะฒะธั
titanic[, .(passangers = length(PassengerId),
avg_price = mean(Fare)),
by = Pclass]
แแแแแชแแแแ แแแฏแแฃแคแแแ แแ แแแ แแแแชแแ แแแแแแจแ: แแแแแแแ
แแแฏแแฃแคแแแ pandas
แแกแแแแกแแ dplyr
, แแแแ แแ แแแ แแแแชแแ แแ แแ แแก แแกแแแแกแ dplyr
แแ แ data.table
.
แแแฏแแฃแคแแแแกแแแแก แแแแแแงแแแแ แแแแแแ groupby()
, แ แแแแแจแแช แฃแแแ แแแแแแขแแแแ แกแแแขแแแแก แกแแ, แ แแแแแแแช แแแฏแแฃแคแแแแ แแแแแชแแแแ แฉแแ แฉแ.
แแแ แแแแชแแแกแแแแก แจแแแแซแแแแ แแแแแแงแแแแ แแแแแแ agg()
แ แแแแแแช แแฆแแแก แแแฅแกแแแแแก. แแแฅแกแแแแแแก แแแแแแจแแแ แแ แแก แกแแแขแแแ, แ แแแแแแแแช แแแแแแงแแแแแ แแแ แแแแชแแแก แคแฃแแฅแชแแแแก, แฎแแแ แแแแจแแแแแแแแแ แแ แแก แแแ แแแแชแแแก แคแฃแแฅแชแแแแแก แกแแฎแแแแแ.
แแแ แแแแชแแแก แคแฃแแฅแชแแแแ:
sum()
- แจแแฏแแแแแmin()
/max()
- แแแแแแแแฃแ แ แแ แแแฅแกแแแแแฃแ แ แแแแจแแแแแแแmean()
- แกแแจแฃแแแmedian()
- แแแแแแแcount()
- แ แแแแแแแแ
แคแฃแแฅแชแแ reset_index()
แฅแแแแแ แแแงแแแแแ แแแแแแแแจแ แแก แแแแแแงแแแแแ แฉแแแแแฃแแ แแแแแฅแกแแแแก แแแแแขแแแ แแแแกแแแแก pandas
แแแแฃแแแกแฎแแแแแ แแแแแชแแแแแแก แจแแแ แแแแก แจแแแแแ.
แกแขแ แแขแแแแ แกแแจแฃแแแแแแก แแแซแแแแ แแแแแฎแแแแแ แจแแแแแ แฎแแแแ.
แแแฏแแฃแคแแแ แแ แแแ แแแแชแแ แแแแแแจแ: แแแแแแแ
# ะณััะฟะฟะธัะพะฒะบะฐ ะธ ะฐะณัะตะณะฐัะธั ะดะฐะฝะฝัั
titanic.groupby(["Pclass"]).
agg({'PassengerId': 'count', 'Fare': 'mean'}).
reset_index()
แชแฎแ แแแแแแก แแแ แขแแแแแฃแ แ แจแแแ แแแแ
แแแแ แแชแแ, แ แแแแแจแแช แแฅแแแ แฃแแ แแแแแแ แแ แแ แแ แแแแแ แกแขแ แฃแฅแขแฃแ แแก แแ แแ แแแข แชแฎแ แแแก. แฉแแแ แแแแ แฉแแขแแแ แแฃแแ แแแแแชแแแแแ แจแแแชแแแก แชแฎแ แแแแแก ga_nov ะธ ga_dec. แแก แชแฎแ แแแแแ แกแขแ แฃแฅแขแฃแ แแ แแแแแขแฃแ แแ, แ.แ. แแฅแแก แแแแแ แกแแแขแแแ แแ แแแแแชแแแแ แขแแแแแ แแ แกแแแขแแแจแ.
แแก แแ แแก Google Analytics-แแก แแขแแแ แแแ แแแแแแ แแกแ แแ แแแแแแแ แแก แแแแกแแแแก, แแ แแแแงแแคแแแแแแจแ แฉแแแ แแแแแแ แแแแแแแ แแ แแแแแชแแแแแก แแ แ แชแฎแ แแแจแ.
แชแฎแ แแแแแแก แแแ แขแแแแแฃแ แแ แจแแแ แแแแ R-แจแ: tidyverse, dplyr
ะ dplyr
แคแฃแแฅแชแแแก แแแแแงแแแแแแ แจแแแแซแแแแ แแแแแแแจแแ แแ 2 แชแฎแ แแแ แแ แแจแ bind_rows()
, แชแฎแ แแแแแแก แแแแแชแแแ แแแก แแ แแฃแแแแขแแแแ.
แ แแแแแแก แแแคแแแขแแ แ R-แจแ: dplyr
# ะะตััะธะบะฐะปัะฝะพะต ะพะฑัะตะดะธะฝะตะฝะธะต ัะฐะฑะปะธั
## dplyr
bind_rows(ga_nov, ga_dec)
แชแฎแ แแแแแแก แแแ แขแแแแแฃแ แแ แจแแแ แแแแ R-แจแ: data.table
แแก แแกแแแ แแ แแคแแ แแ แ แแฃแแ, แแแแแ แแแแแแแงแแแแ rbind()
.
แ แแแแแแก แแแคแแแขแแ แ R-แจแ: data.table
## data.table
rbind(ga_nov, ga_dec)
แแแแแแจแ แชแฎแ แแแแแแก แแแ แขแแแแแฃแ แแ แจแแแ แแแแ: แแแแแแแ
ะ pandas
แคแฃแแฅแชแแ แแแแแแงแแแแแ แชแฎแ แแแแแแก แจแแกแแแ แแแแแแ concat()
, แ แแแแแจแแช แแฅแแแ แฃแแแ แแแแแ แแ แฉแแ แฉแแแแแก แกแแ, แ แแ แแแแแแแจแแ แแ แแกแแแ.
แกแขแ แแฅแแแแแแก แแแคแแแขแแ แ แแแแแแจแ: แแแแแแแ
# ะฒะตััะธะบะฐะปัะฝะพะต ะพะฑัะตะดะธะฝะตะฝะธะต ัะฐะฑะปะธั
pd.concat([ga_nov, ga_dec])
แชแฎแ แแแแแแก แฐแแ แแแแแขแแแฃแ แ แจแแแ แแแแ
แแแแ แแชแแ, แ แแแแแก แแ แแกแแช แกแแแขแแแ แแแแ แแแแ แแแแขแแแ แแแ แแแ แชแฎแ แแแก แแแกแแฆแแแแ. แแก แฎแจแแ แแ แแแแแแงแแแแแ แคแแฅแขแแแแก แชแฎแ แแแแก (แแแแแแแแแ, แชแฎแ แแแแก แแแงแแแแแแแก แแแแแชแแแแแแ) แแแแแแแ แแแแกแแก แแแแแแ แแ แกแแชแแแแแ แ แแแแแชแแแแแแ (แแแแแแแแแ, แแ แแแฃแฅแขแแก แฆแแ แแแฃแแแแ).
แแ แกแแแแแก แ แแแแแแแแ แกแแฎแแก แจแแแ แแแแ:
แแแ แ แแแขแแแ แแฃแ แชแฎแ แแแจแ Titanic แฉแแแ แแแแฅแแก แกแแแขแ Sex, แ แแแแแแช แจแแแกแแแแแแแ แแแแแแ แแก แกแฅแแกแแก แแแแก:
1 - แฅแแแ
2 - แแแแ แแแแแ
แแกแแแ, แจแแแฅแแแแแ แชแฎแ แแแ - แกแแชแแแแแ แ แฌแแแแ แกแฅแแกแ. แแแแแแ แแแแก แกแฅแแกแแก แจแแกแแฎแแ แแแแแชแแแแแแก แฃแคแ แ แแแกแแฎแแ แฎแแแแแ แฌแแ แแแแแแแแกแแแแก, แฉแแแ แฃแแแ แแแแแแแขแแ แกแฅแแกแแก แกแแฎแแแ แแแ แแฅแขแแ แแแแแ แกแฅแแกแ แแแแแแแกแแแ Titanic.
แฐแแ แแแแแขแแแฃแ แ แชแฎแ แแแแก แจแแแ แแแแ R-แจแ: tidyverse, dplyr
ะ dplyr
แฐแแ แแแแแขแแแฃแ แ แจแแแ แแแแแก แคแฃแแฅแชแแแแแก แแแแแ แแฏแแฎแแ:
inner_join()
left_join()
right_join()
full_join()
semi_join()
nest_join()
anti_join()
แฉแแแก แแ แแฅแขแแแแจแ แงแแแแแแ แฎแจแแ แแ แแแแแแงแแแแแ left_join()
.
แ แแแแ แช แแแ แแแแ แแ แ แแ แแฃแแแแขแ, แแแแแ แฉแแแแแแแแ แคแฃแแฅแชแแแแก แแ แ แชแฎแ แแแ แกแญแแ แแแแ แจแแกแแแ แแแแแแ แแ แ แแแแ แช แแแกแแแ แแ แแฃแแแแขแ by แแฅแแแ แฃแแแ แแแฃแแแแแ แกแแแขแแแ แจแแกแแแ แแแแแแ.
แฐแแ แแแแแขแแแฃแ แ แชแฎแ แแแแก แจแแแ แแแแ R-แจแ: dplyr
# ะพะฑัะตะดะธะฝัะตะผ ัะฐะฑะปะธัั
left_join(titanic, gender,
by = c("Sex" = "id"))
แชแฎแ แแแแแแก แฐแแ แแแแแขแแแฃแ แ แจแแแ แแแแ R-แจแ: แแแแแชแแแแแ.แชแฎแ แแแ
ะ data.table
แแฅแแแ แฃแแแ แจแแฃแแ แแแแ แชแฎแ แแแแแก แฆแแแแแแแแ แคแฃแแฅแชแแแก แแแแแงแแแแแแ merge()
.
แแ แแฃแแแแขแแแ merge() แคแฃแแฅแชแแแแแ แแแก data.table-แจแ
- x, y - แแแแแแแแ แจแแกแแแ แแแแแแ
- แแแแ - แกแแแขแ, แ แแแแแแช แแ แแก แจแแแ แแแแแก แแแกแแฆแแแ, แแฃ แแแก แแ แแ แแ แแแแแ แกแแฎแแแ แแฅแแก แแ แแแ แชแฎแ แแแจแ
- by.x, by.y - แกแแแขแแแแก แกแแฎแแแแแ, แ แแแแแแแช แฃแแแ แแแแ แแแแแแแก, แแฃ แแแ แชแฎแ แแแแแจแ แแแแกแฎแแแแแแฃแแ แกแแฎแแแแแ แแฅแแ
- all, all.x, all.y โ แจแแแ แแแแแก แขแแแ, แงแแแแ แแแแแ แฃแแแแก แงแแแแ แ แแแก แแ แแแ แชแฎแ แแแแแแ, all.x แจแแแกแแแแแแแ LEFT JOIN แแแแ แแชแแแก (แแแขแแแแแก แแแ แแแแ แชแฎแ แแแแก แงแแแแ แกแขแ แแฅแแแก), all.y - แจแแแกแแแแแแแ แแแแ แแชแแ RIGHT JOIN (แแแขแแแแแก แแแแ แ แชแฎแ แแแแก แงแแแแ แแฌแแ แแแก).
แชแฎแ แแแแแแก แฐแแ แแแแแขแแแฃแ แ แจแแแ แแแแ R-แจแ: แแแแแชแแแแแ.แชแฎแ แแแ
# ะพะฑัะตะดะธะฝัะตะผ ัะฐะฑะปะธัั
merge(titanic, gender, by.x = "Sex", by.y = "id", all.x = T)
แฐแแ แแแแแขแแแฃแ แ แแแแแแแก แจแแแ แแแแ แแแแแแจแ: แแแแแแแ
แแกแแแ แ แแแแ แช แจแ data.table
In pandas
แคแฃแแฅแชแแ แแแแแแงแแแแแ แชแฎแ แแแแแแก แจแแกแแแ แแแแแแ merge()
.
merge() แคแฃแแฅแชแแแก แแ แแฃแแแแขแแแ แแแแแแแแจแ
- แ แแแแ โ แแแแจแแ แแก แขแแแ: แแแ แชแฎแแแ, แแแ แฏแแแแ, แแแ แ, แจแแแ
- on โ แกแแแขแ, แ แแแแแแช แแ แแก แแแกแแฆแแแ, แแฃ แแแก แแ แแ แแ แแแแแ แกแแฎแแแ แแฅแแก แแ แแแ แชแฎแ แแแจแ
- left_on, right_on โ แกแแแแแแซแ แกแแแขแแแแก แกแแฎแแแแแ, แแฃ แแแ แแฅแแ แกแฎแแแแแกแฎแแ แกแแฎแแแแแ แชแฎแ แแแแแจแ
แฐแแ แแแแแขแแแฃแ แ แแแแแแแก แจแแแ แแแแ แแแแแแจแ: แแแแแแแ
# ะพะฑัะตะดะธะฝัะตะผ ะฟะพ ะบะปััั
titanic.merge(gender, how = "left", left_on = "Sex", right_on = "id")
แคแแแฏแ แแก แซแแ แแแแแ แคแฃแแฅแชแแแแ แแ แแแแแแแแแแ แกแแแขแแแ
แคแแแฏแ แแก แคแฃแแฅแชแแแแ แแกแแแแกแแ แแแ แแแแชแแแก แคแฃแแฅแชแแแแแก แแแแจแแแแแแแแ แแ แแกแแแ แฎแจแแ แแ แแแแแแงแแแแแ แแแแแชแแแแ แแแแแแแจแ. แแแแ แแ แแแ แแแแชแแแก แคแฃแแฅแชแแแแแกแแแ แแแแกแฎแแแแแแแ, แคแแแฏแ แแก แคแฃแแฅแชแแแแ แแ แชแแแแก แแแแแแแแ แแแแแชแแแแ แฉแแ แฉแแก แ แแแแแแก แ แแแแแแแแแก.
แแ แกแแแแแแ, แคแแแฏแ แแก แคแฃแแฅแชแแแก แแแแแงแแแแแแ, แฉแแแ แแงแแคแ แจแแแแแแแแ แแแแแชแแแแ แฉแแ แฉแแก แแแฌแแแแแแ แแแ แแแแฃแแ แแ แแขแแ แแฃแแแก แแแฎแแแแแ, แ.แ. แแแแแก แแ แ แแแแแแแแ แแแแแก แแแแจแแแแแแแแ. แแ แฉแแแ แแแกแ แฃแแแแ แแ แแแแแขแแแฃแ แแแฅแแแแแแแแก แแแแแแฃแ แคแแแฏแแ แแแ. แแ แแแแ แแชแแแแแก แจแแแแแ แแแแ แฃแแแแแ แแแแแแฃแ แกแขแ แแฅแแแจแ, แ.แ. แชแฎแ แแแแก แ แแแแแแก แแแแแแแ แ แแแแแแแแแก แจแแชแแแแก แแแ แแจแ.
แแแแแแแแแ, แแแแฆแแ แชแฎแ แแแ Titanic. แฉแแแ แจแแแแแซแแแ แแแแแแแแแแแ แ แแแแแแ แแ แแชแแแขแ แแงแ แแแแแแฃแแ แแแแแแแก แฆแแ แแแฃแแแแ แแแก แกแแแแแจแ.
แแแแกแแแแแก, แแแแแแฃแ แฎแแแจแ แฃแแแ แแแแแฆแแ แแแแแแแก แฏแแแฃแ แ แฆแแ แแแฃแแแแ แกแแแแแแก แแแแแแแแ แ แแแแกแแกแแแแก, แ แแแแแกแแช แแแฃแแแแแก แแ แฎแแแแก แแแแแแ, แจแแแแแ แแแแงแแ แแแแแแฃแแ แแแแแแแก แฆแแ แแแฃแแแแ แแแแแ แแแแกแแก แงแแแแ แแแแแแแก แฏแแแฃแ แฆแแ แแแฃแแแแแแ. .
แคแแแฏแ แแก แคแฃแแฅแชแแแแ R-แจแ: tidyverse, dplyr
แแฎแแแ แกแแแขแแแแก แแแกแแแแขแแแแแ, แแฌแแ แแแแแแก แแแฏแแฃแคแแแแก แแแแแงแแแแแแก แแแ แแจแ, in dplyr
แแแกแแฎแฃแ แแแ แคแฃแแฅแชแแแก mutate()
.
แแฅแแแ แจแแแแซแแแแ แแแแแแแ แแ แแแแแ แแฆแฌแแ แแแ แแ แแแแแแ แแแแแชแแแแแแก แแแแแแแก แแแฎแแแแแ แแแฏแแฃแคแแแแ แแแแแกแ แแ แแแแแก แจแแฏแแแแแ แแฎแแ แกแแแขแจแ แแแแแคแแแ. แจแแแแแแ, แแแแฃแฅแแแ แชแฎแ แแแ แแ แแแงแแแแ แแแแแก แแแแจแแแแแแแแแ แแแแแคแแแ แ แแช แแแฎแแ แฌแแแ แแขแแแแ.
แคแแแฏแ แแก แคแฃแแฅแชแแแแ R: dplyr
group_by(titanic, Pclass) %>%
mutate(Pclass_cost = sum(Fare)) %>%
ungroup() %>%
mutate(ticket_fare_rate = Fare / Pclass_cost)
แคแแแฏแ แแก แคแฃแแฅแชแแแแ R-แจแ: data.table
แแแแฎแกแแแก แแแแแ แแแแ แแแแแ แ แฉแแแ, แ แแช แแฅ dplyr
, แชแฎแ แแแ แฃแแแ แแแแงแแ แคแแแฏแ แแแแ แแแแแแแก แแแฎแแแแแ แแแแแกแ. แแฎแแ แกแแแขแจแ แแแแแแขแแแแ แแแแฎแ แแแแแแฃแแ แแฌแแ แแแแก แจแแกแแแแแแกแ แฏแแฃแคแแกแแแแก แแ แแแแแแขแแ แกแแแขแ, แ แแแแแจแแช แแแแแแแ แแจแแแ แแแแแแฃแแ แแแแแแแก แฆแแ แแแฃแแแแแก แฌแแแก แแแก แฏแแฃแคแจแ.
แแฎแแแ แกแแแขแแแแก แแแกแแแแขแแแแแ data.table
แแแแ แแขแแ แ แแแงแแคแแแ :=
. แฅแแแแแ แแแชแแแฃแแแ แแแแแขแแก แแแแแงแแแแแแ แแ แแแแแแแก แแแแแญแ แแก แแแแแแแแ data.table
แคแแแฏแ แแก แคแฃแแฅแชแแแแ R-แจแ: data.table
titanic[,c("Pclass_cost","ticket_fare_rate") := .(sum(Fare), Fare / Pclass_cost),
by = Pclass]
แคแแแฏแ แแก แคแฃแแฅแชแแแแ แแแแแแจแ: แแแแแแแ
แแฎแแแ แกแแแขแแก แแแแแขแแแแก แแ แแ แแแ pandas
- แแแแแแงแแแแ แคแฃแแฅแชแแ assign()
. แแแแแแแแแก แฆแแ แแแฃแแแแแก แจแแกแแฏแแแแแแแ แกแแแแแแก แแแแกแแก แแแฎแแแแแ, แ แแแแแแก แแแฏแแฃแคแแแแก แแแ แแจแ, แแแแแแแงแแแแแ แคแฃแแฅแชแแแก transform()
.
แฅแแแแแ แแแชแแแฃแแแ แแแแแกแแแแแก แแแแแแแแ, แ แแแแแจแแช แแแแแขแแแ แชแฎแ แแแก Titanic แแแแแ 2 แกแแแขแ.
แคแแแฏแ แแก แคแฃแแฅแชแแแแ แแแแแแจแ: แแแแแแแ
titanic.assign(Pclass_cost = titanic.groupby('Pclass').Fare.transform(sum),
ticket_fare_rate = lambda x: x['Fare'] / x['Pclass_cost'])
แคแฃแแฅแชแแแแแกแ แแ แแแแแแแแแก แจแแกแแแแแแกแแแแก แชแฎแ แแแ
แฅแแแแแ แแแชแแแฃแแแ แแแแแฌแแ แแก แชแฎแ แแแ แฉแแแ แแแแ แแแแฎแแแฃแ แแแแแขแแแจแ แกแฎแแแแแกแฎแแ แแแแ แแชแแแแแก แจแแกแ แฃแแแแแก แแแแแแแแก แจแแ แแก.
แแฆแฌแแ แ
แแแฌแแกแ แแแแแฃแแ
แแแแแชแแแแแ. แแแแแแ
pandas
แแขแแแ แแแแ แแแแแชแแแแแ
vroom()
/ readr::read_csv()
/ readr::read_tsv()
fread()
read_csv()
แแแแแชแแแแ แฉแแ แฉแแแแแก แจแแฅแแแ
tibble()
data.table()
dict()
+ from_dict()
แกแแแขแแแแก แจแแ แฉแแแ
select()
แแ แแฃแแแแขแ j, แแแแ แ แแแแแชแแ แแแแแ แแขแฃแ แคแ แฉแฎแแแแแจแ
แฉแแแ แแแซแแแแ แกแแญแแ แ แกแแแขแแแแก แฉแแแแแแแแแแก แแแแแ แแขแฃแ แคแ แฉแฎแแแแแจแ / drop()
/ filter()
/ select_dtypes()
แกแขแ แแฅแแแแแแก แแแคแแแขแแ แ
filter()
แแ แแฃแแแแขแ i, แแแ แแแแ แแแแแชแแ แแแแแ แแขแฃแ แคแ แฉแฎแแแแแจแ
แฉแแแ แฉแแแแแแแแแ แคแแแขแ แแชแแแก แแแ แแแแแก แแแแแ แแขแฃแ แคแ แฉแฎแแแแแจแ / filter()
แแแฏแแฃแคแแแ แแ แแแ แแแแชแแ
group_by()
+ summarise()
แแ แแฃแแแแขแแแ j + by
groupby()
+ agg()
แชแฎแ แแแแแแก แแแ แขแแแแแฃแ แ แแแแ แแแแแแแ (UNION)
bind_rows()
rbind()
concat()
แชแฎแ แแแแแแก แฐแแ แแแแแขแแแฃแ แ แจแแแ แแแแ (JOIN)
left_join()
/ *_join()
merge()
merge()
แคแแแฏแ แแก แซแแ แแแแแ แคแฃแแฅแชแแแแ แแ แแแแแแแแแแ แกแแแขแแแแก แแแแแขแแแ
group_by()
+ mutate()
แแ แแฃแแแแขแ j แแแแ แแขแแ แแก แแแแแงแแแแแแ :=
+ แแ แแฃแแแแขแ by
transform()
+ assign()
แแแกแแแแ
แจแแกแแซแแแ, แกแขแแขแแแจแ แแ แแฆแแฌแแ แ แแแแแชแแแแ แแแแฃแจแแแแแแก แแ แ แงแแแแแแ แแแขแแแแแฃแ แ แแแแฎแแ แชแแแแแแ, แแแแขแแ แแแฎแแ แฃแแ แแแฅแแแแ, แแฃ แฉแแแก แจแแชแแแแแแก แแแแแแกแฌแแ แแแ แแแแแแขแแ แแแจแ, แแ แฃแแ แแแแ แจแแแแกแแแ แกแขแแขแแแจแ แแแชแแแฃแ แแแคแแ แแแชแแแก R / Python-แจแ แแแแแชแแแแแแแ แแฃแจแแแแแก แกแฎแแ แขแแฅแแแแแ.
แ แแแแ แช แแแแแ แแแแฌแแ แ, แกแขแแขแแแก แแแแแแ แแงแ แแ แ แกแแแฃแแแ แ แแแ แแก แแแฌแแกแแแ แแแแแ, แแฃ แ แแแแแ แแแ แฏแแแแ, แแ แแแแ แแแแแ แขแแแแแฃแแแงแ แแ แแแ แแแแก แจแแกแฌแแแแแก, แแ แกแแญแแ แแแแแก แจแแแแฎแแแแแจแ แแแ แจแแ แแก แแแแ แแชแแแก แจแแกแแซแแแแแแแ.
แแฃ แแแแแฌแแแแ แกแขแแขแแ, แแแฎแแ แฃแแ แแแฅแแแแ, แ แแ แแแงแแแแแ แฉแแแ แแฎแแแ แแแแแแแขแแแ
แแแขแแ แแแฃ
แฅแแแแแ แฉแแแแแแแแแแแแแ แ แแแแแก แแงแแแแแ แแฅแแแแก แกแแฅแแแแแแแแจแ?
แแแแแแขแแ แแแจแ แจแแแแซแแแแ แแแฌแแ แแ แแฅแแแแ แแ แฉแแแแแแก แแแแแแ.
แแแแแแแแฎแแแจแ แแแแแฌแแแแแแ แจแแฃแซแแแแ แแฎแแแแ แแแ แแแแกแขแ แแ แแแฃแ แแแแฎแแแ แแแแแแก.
แแแแแชแแแแ แแแแฃแจแแแแแแก แ แแแแ แแแแแขแก แแงแแแแแ (แจแแแแซแแแแ แแแ แฉแแแ แ แแแแแแแแ แแแ แแแแขแ)
-
45,2%แแแแแแแแฃแแ แกแแแงแแ แ19
-
33,3%แแแแแชแแแแแ.แชแฎแ แแแ14
-
54,8%แแแแแแแ23
แแแกแชแ แฎแแ 42 แแแแฎแแแ แแแแแแ. 9 แแแแฎแแแ แแแแแแ แแแแ แจแแแแแแ.
แฌแงแแ แ: www.habr.com