ΠΡΠ΅ΡΡΠ°ΠΆΡΡΡΡΠΈ Π ΠΈΠ»ΠΈ ΠΠΈΡΡ ΠΎΠ½ Π½Π° ΠΠ½ΡΠ΅ΡΠ½Π΅ΡΡ, Π½Π°ΡΠΈ ΡΠ΅ΡΠ΅ ΠΌΠΈΠ»ΠΈΠΎΠ½Π΅ ΡΠ»Π°Π½Π°ΠΊΠ° ΠΈ ΠΊΠΈΠ»ΠΎΠΌΠ΅ΡΡΠ΅ ΡΠ°ΡΠΏΡΠ°Π²Π° Π½Π° ΡΠ΅ΠΌΡ ΠΊΠΎΡΠΈ ΡΠ΅ Π±ΠΎΡΠΈ, Π±ΡΠΆΠΈ ΠΈ ΠΏΠΎΠ³ΠΎΠ΄Π½ΠΈΡΠΈ Π·Π° ΡΠ°Π΄ ΡΠ° ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ°. ΠΠ»ΠΈ, Π½Π°ΠΆΠ°Π»ΠΎΡΡ, ΡΠ²ΠΈ ΠΎΠ²ΠΈ ΡΠ»Π°Π½ΡΠΈ ΠΈ ΡΠΏΠΎΡΠΎΠ²ΠΈ Π½ΠΈΡΡ ΠΏΠΎΡΠ΅Π±Π½ΠΎ ΠΊΠΎΡΠΈΡΠ½ΠΈ.
Π‘Π²ΡΡ Π° ΠΎΠ²ΠΎΠ³ ΡΠ»Π°Π½ΠΊΠ° ΡΠ΅ ΡΠΏΠΎΡΠ΅ΡΠΈΠ²Π°ΡΠ΅ ΠΎΡΠ½ΠΎΠ²Π½ΠΈΡ ΡΠ΅Ρ Π½ΠΈΠΊΠ° ΠΎΠ±ΡΠ°Π΄Π΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π½Π°ΡΠΏΠΎΠΏΡΠ»Π°ΡΠ½ΠΈΡΠΈΠΌ ΠΏΠ°ΠΊΠ΅ΡΠΈΠΌΠ° ΠΎΠ±Π° ΡΠ΅Π·ΠΈΠΊΠ°. Π ΠΏΠΎΠΌΠΎΠ·ΠΈΡΠ΅ ΡΠΈΡΠ°ΠΎΡΠΈΠΌΠ° Π΄Π° Π±ΡΠ·ΠΎ ΡΠ°Π²Π»Π°Π΄Π°ΡΡ Π½Π΅ΡΡΠΎ ΡΡΠΎ ΡΠΎΡ Π½Π΅ Π·Π½Π°ΡΡ. ΠΠ° ΠΎΠ½Π΅ ΠΊΠΎΡΠΈ ΠΏΠΈΡΡ Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ, ΡΠ°Π·Π½Π°ΡΡΠ΅ ΠΊΠ°ΠΊΠΎ Π΄Π° ΡΡΠ°Π΄Π΅ ΠΈΡΡΡ ΡΡΠ²Π°Ρ Ρ Π -Ρ ΠΈ ΠΎΠ±ΡΠ½ΡΡΠΎ.
Π£ ΡΠ»Π°Π½ΠΊΡ ΡΠ΅ΠΌΠΎ Π°Π½Π°Π»ΠΈΠ·ΠΈΡΠ°ΡΠΈ ΡΠΈΠ½ΡΠ°ΠΊΡΡ Π½Π°ΡΠΏΠΎΠΏΡΠ»Π°ΡΠ½ΠΈΡΠΈΡ
ΠΏΠ°ΠΊΠ΅ΡΠ° Ρ Π . ΠΠ²ΠΎ ΡΡ ΠΏΠ°ΠΊΠ΅ΡΠΈ ΡΠΊΡΡΡΠ΅Π½ΠΈ Ρ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ tidyverse
Π° ΡΠ°ΠΊΠΎΡΠ΅ ΠΈ ΠΏΠ°ΠΊΠ΅Ρ data.table
. Π ΡΠΏΠΎΡΠ΅Π΄ΠΈΡΠ΅ ΡΠΈΡ
ΠΎΠ²Ρ ΡΠΈΠ½ΡΠ°ΠΊΡΡ ΡΠ° pandas
, Π½Π°ΡΠΏΠΎΠΏΡΠ»Π°ΡΠ½ΠΈΡΠΈ ΠΏΠ°ΠΊΠ΅Ρ Π·Π° Π°Π½Π°Π»ΠΈΠ·Ρ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΠΈΡΡ
ΠΎΠ½-Ρ.
ΠΡΠΎΡΠΈ ΡΠ΅ΠΌΠΎ ΠΊΠΎΡΠ°ΠΊ ΠΏΠΎ ΠΊΠΎΡΠ°ΠΊ ΠΊΡΠΎΠ· ΡΠ΅ΠΎ ΠΏΡΡ Π°Π½Π°Π»ΠΈΠ·Π΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΎΠ΄ ΡΡΠΈΡΠ°Π²Π°ΡΠ° Π΄ΠΎ ΠΈΠ·Π²ΠΎΡΠ΅ΡΠ° Π°Π½Π°Π»ΠΈΡΠΈΡΠΊΠΈΡ ΡΡΠ½ΠΊΡΠΈΡΠ° ΠΏΡΠΎΠ·ΠΎΡΠ° ΠΊΠΎΡΠΈΡΡΠ΅ΡΠΈ ΠΠΈΡΡ ΠΎΠ½ ΠΈ Π .
Π‘Π°Π΄ΡΠΆΠΈΠ½Π°
ΠΠ²Π°Ρ ΡΠ»Π°Π½Π°ΠΊ ΡΠ΅ ΠΌΠΎΠΆΠ΅ ΠΊΠΎΡΠΈΡΡΠΈΡΠΈ ΠΊΠ°ΠΎ Π²Π°ΡΠ°Π»ΠΈΡΠ° Π°ΠΊΠΎ ΡΡΠ΅ Π·Π°Π±ΠΎΡΠ°Π²ΠΈΠ»ΠΈ Π΄Π° ΠΈΠ·Π²ΡΡΠΈΡΠ΅ Π½Π΅ΠΊΡ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΡ ΠΎΠ±ΡΠ°Π΄Π΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΡΠ΅Π΄Π½ΠΎΠΌ ΠΎΠ΄ ΠΏΠ°ΠΊΠ΅ΡΠ° ΠΊΠΎΡΠΈ ΡΠ΅ ΡΠ°Π·ΠΌΠ°ΡΡΠ°ΡΡ.
ΠΠ»Π°Π²Π½Π΅ ΡΠΈΠ½ΡΠ°ΠΊΡΠΈΡΠΊΠ΅ ΡΠ°Π·Π»ΠΈΠΊΠ΅ ΠΈΠ·ΠΌΠ΅ΡΡ Π ΠΈ ΠΠΈΡΡ ΠΎΠ½-Π°
ΠΠ‘ΠΠ£ΠΠΠ‘.ΠΡΠΈΡΡΡΠΏ ΡΡΠ½ΠΊΡΠΈΡΠ°ΠΌΠ° ΠΏΠ°ΠΊΠ΅ΡΠ°
ΠΠ‘ΠΠ£ΠΠΠ‘.ΠΠΎΠ΄Π΅ΡΠΈΠ²Π°ΡΠ΅
ΠΠ‘ΠΠ£ΠΠΠ‘.ΠΠ½Π΄Π΅ΠΊΡΠΈΡΠ°ΡΠ΅
ΠΠ‘ΠΠ£ΠΠΠ‘.ΠΠ΅ΡΠΎΠ΄Π΅ ΠΈ ΠΠΠ
ΠΠ‘ΠΠ£ΠΠΠ‘.Π¦Π΅Π²ΠΎΠ²ΠΎΠ΄ΠΈ
ΠΠ‘ΠΠ£ΠΠΠ‘.Π‘ΡΡΡΠΊΡΡΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΠ΅ΠΊΠΎΠ»ΠΈΠΊΠΎ ΡΠ΅ΡΠΈ ΠΎ ΠΏΠ°ΠΊΠ΅ΡΠΈΠΌΠ° ΠΊΠΎΡΠ΅ ΡΠ΅ΠΌΠΎ ΠΊΠΎΡΠΈΡΡΠΈΡΠΈ
ΠΠ‘ΠΠ£ΠΠΠ‘.ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅
ΠΠ‘ΠΠ£ΠΠΠ‘.ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
ΠΠ‘ΠΠ£ΠΠΠ‘.ΠΏΠ°Π½Π΄Π΅ ΠΠ½ΡΡΠ°Π»ΠΈΡΠ°ΡΠ΅ ΠΏΠ°ΠΊΠ΅ΡΠ° Π£ΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΡΠ΅ΠΈΡΠ°ΡΠ΅ ΠΎΠΊΠ²ΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΠ΄Π°Π±ΠΈΡ ΠΊΠΎΠ»ΠΎΠ½Π° ΠΊΠΎΡΠ΅ ΡΡ Π²Π°ΠΌ ΠΏΠΎΡΡΠ΅Π±Π½Π΅ Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ΅Π΄ΠΎΠ²Π° ΠΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ° ΠΠ΅ΡΡΠΈΠΊΠ°Π»Π½Π° ΡΠ½ΠΈΡΠ° ΡΠ°Π±Π΅Π»Π° (Π£ΠΠΠΠ) Π₯ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π° (ΠΠΠΠ) ΠΡΠ½ΠΎΠ²Π½Π΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ ΠΏΡΠΎΠ·ΠΎΡΠ° ΠΈ ΠΈΠ·ΡΠ°ΡΡΠ½Π°ΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½Π΅ Π’Π°Π±Π΅Π»Π° ΠΊΠΎΡΠ΅ΡΠΏΠΎΠ½Π΄Π΅Π½ΡΠΈΡΠ΅ ΠΈΠ·ΠΌΠ΅ΡΡ ΠΌΠ΅ΡΠΎΠ΄Π° ΠΎΠ±ΡΠ°Π΄Π΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π ΠΈ ΠΠΈΡΡ ΠΎΠ½-Ρ ΠΠ°ΠΊΡΡΡΠ°ΠΊ ΠΡΠ°ΡΠΊΠ° Π°Π½ΠΊΠ΅ΡΠ° ΠΎ ΡΠΎΠΌΠ΅ ΠΊΠΎΡΠΈ ΠΏΠ°ΠΊΠ΅Ρ ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅
ΠΠΊΠΎ ΡΡΠ΅ Π·Π°ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠΎΠ²Π°Π½ΠΈ Π·Π° Π°Π½Π°Π»ΠΈΠ·Ρ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°, ΠΌΠΎΠΆΠ΄Π° ΡΠ΅ΡΠ΅ ΠΏΡΠΎΠ½Π°ΡΠΈ ΠΌΠΎΡ
ΠΠ»Π°Π²Π½Π΅ ΡΠΈΠ½ΡΠ°ΠΊΡΠΈΡΠΊΠ΅ ΡΠ°Π·Π»ΠΈΠΊΠ΅ ΠΈΠ·ΠΌΠ΅ΡΡ Π ΠΈ ΠΠΈΡΡ ΠΎΠ½-Π°
ΠΠ° Π±ΠΈΡ Π²Π°ΠΌ ΠΎΠ»Π°ΠΊΡΠ°ΠΎ ΠΏΡΠ΅Π»Π°Π·Π°ΠΊ ΡΠ° ΠΠΈΡΡ ΠΎΠ½-Π° Π½Π° Π , ΠΈΠ»ΠΈ ΠΎΠ±ΡΠ½ΡΡΠΎ, Π΄Π°ΡΡ Π½Π΅ΠΊΠΎΠ»ΠΈΠΊΠΎ Π³Π»Π°Π²Π½ΠΈΡ ΡΠ°ΡΠ°ΠΊΠ° Π½Π° ΠΊΠΎΡΠ΅ ΡΡΠ΅Π±Π° Π΄Π° ΠΎΠ±ΡΠ°ΡΠΈΡΠ΅ ΠΏΠ°ΠΆΡΡ.
ΠΡΠΈΡΡΡΠΏ ΡΡΠ½ΠΊΡΠΈΡΠ°ΠΌΠ° ΠΏΠ°ΠΊΠ΅ΡΠ°
ΠΠ°Π΄Π° ΡΠ΅ ΠΏΠ°ΠΊΠ΅Ρ ΡΡΠΈΡΠ° Ρ Π , Π½Π΅ ΠΌΠΎΡΠ°ΡΠ΅ Π΄Π° Π½Π°Π²Π΅Π΄Π΅ΡΠ΅ ΠΈΠΌΠ΅ ΠΏΠ°ΠΊΠ΅ΡΠ° Π΄Π° Π±ΠΈΡΡΠ΅ ΠΏΡΠΈΡΡΡΠΏΠΈΠ»ΠΈ ΡΠ΅Π³ΠΎΠ²ΠΈΠΌ ΡΡΠ½ΠΊΡΠΈΡΠ°ΠΌΠ°. Π£ Π²Π΅ΡΠΈΠ½ΠΈ ΡΠ»ΡΡΠ°ΡΠ΅Π²Π° ΠΎΠ²ΠΎ Π½ΠΈΡΠ΅ ΡΠΎΠ±ΠΈΡΠ°ΡΠ΅Π½ΠΎ Ρ Π , Π°Π»ΠΈ ΡΠ΅ ΠΏΡΠΈΡ
Π²Π°ΡΡΠΈΠ²ΠΎ. ΠΠ΅ ΠΌΠΎΡΠ°ΡΠ΅ ΡΠΎΠΏΡΡΠ΅ Π΄Π° ΡΠ²ΠΎΠ·ΠΈΡΠ΅ ΠΏΠ°ΠΊΠ΅Ρ Π°ΠΊΠΎ Π²Π°ΠΌ ΡΠ΅ ΠΏΠΎΡΡΠ΅Π±Π½Π° Π½Π΅ΠΊΠ° ΠΎΠ΄ ΡΠ΅Π³ΠΎΠ²ΠΈΡ
ΡΡΠ½ΠΊΡΠΈΡΠ° Ρ Π²Π°ΡΠ΅ΠΌ ΠΊΠΎΠ΄Ρ, Π²Π΅Ρ Π³Π° ΡΠ΅Π΄Π½ΠΎΡΡΠ°Π²Π½ΠΎ ΠΏΠΎΠ·ΠΎΠ²ΠΈΡΠ΅ ΡΠ°ΠΊΠΎ ΡΡΠΎ ΡΠ΅ΡΠ΅ Π½Π°Π²Π΅ΡΡΠΈ ΠΈΠΌΠ΅ ΠΏΠ°ΠΊΠ΅ΡΠ° ΠΈ ΠΈΠΌΠ΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅. Π Π°Π·Π΄Π΅Π»Π½ΠΈΠΊ ΠΈΠ·ΠΌΠ΅ΡΡ ΠΈΠΌΠ΅Π½Π° ΠΏΠ°ΠΊΠ΅ΡΠ° ΠΈ ΡΡΠ½ΠΊΡΠΈΡΠ° Ρ Π ΡΠ΅ Π΄Π²ΠΎΡΡΡΡΠΊΠ° ΡΠ°ΡΠΊΠ°. package_name::function_name()
.
Π£ ΠΠΈΡΡ
ΠΎΠ½-Ρ ΡΠ΅, Π½Π°ΠΏΡΠΎΡΠΈΠ², ΡΠΌΠ°ΡΡΠ° ΠΊΠ»Π°ΡΠΈΡΠ½ΠΈΠΌ ΠΏΠΎΠ·ΠΈΠ²Π°ΡΠ΅ ΡΡΠ½ΠΊΡΠΈΡΠ° ΠΏΠ°ΠΊΠ΅ΡΠ° Π΅ΠΊΡΠΏΠ»ΠΈΡΠΈΡΠ½ΠΈΠΌ Π½Π°Π²ΠΎΡΠ΅ΡΠ΅ΠΌ ΡΠ΅Π³ΠΎΠ²ΠΎΠ³ ΠΈΠΌΠ΅Π½Π°. ΠΠ°Π΄Π° ΡΠ΅ ΠΏΠ°ΠΊΠ΅Ρ ΠΏΡΠ΅ΡΠ·ΠΌΠ΅, ΠΎΠ±ΠΈΡΠ½ΠΎ ΠΌΡ ΡΠ΅ Π΄Π°ΡΠ΅ ΡΠΊΡΠ°ΡΠ΅Π½ΠΎ ΠΈΠΌΠ΅, Π½ΠΏΡ. pandas
ΠΎΠ±ΠΈΡΠ½ΠΎ ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈ ΠΏΡΠ΅ΡΠ΄ΠΎΠ½ΠΈΠΌ pd
. Π€ΡΠ½ΠΊΡΠΈΡΠΈ ΠΏΠ°ΠΊΠ΅ΡΠ° ΡΠ΅ ΠΏΡΠΈΡΡΡΠΏΠ° ΠΏΡΠ΅ΠΊΠΎ ΡΠ°ΡΠΊΠ΅ package_name.function_name()
.
ΠΠΎΠ΄Π΅ΡΠΈΠ²Π°ΡΠ΅
Π£ Π , ΡΠΎΠ±ΠΈΡΠ°ΡΠ΅Π½ΠΎ ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈΡΠΈ ΡΡΡΠ΅Π»ΠΈΡΡ Π·Π° Π΄ΠΎΠ΄Π΅ΡΠΈΠ²Π°ΡΠ΅ Π²ΡΠ΅Π΄Π½ΠΎΡΡΠΈ ΠΎΠ±ΡΠ΅ΠΊΡΡ. obj_name <- value
, ΠΈΠ°ΠΊΠΎ ΡΠ΅ Π΄ΠΎΠ·Π²ΠΎΡΠ΅Π½ ΡΠ΅Π΄Π°Π½ Π·Π½Π°ΠΊ ΡΠ΅Π΄Π½Π°ΠΊΠΎΡΡΠΈ, ΡΠ΅Π΄Π°Π½ Π·Π½Π°ΠΊ ΡΠ΅Π΄Π½Π°ΠΊΠΎΡΡΠΈ Ρ Π ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈ ΠΏΡΠ²Π΅Π½ΡΡΠ²Π΅Π½ΠΎ Π·Π° ΠΏΡΠΎΡΠ»Π΅ΡΠΈΠ²Π°ΡΠ΅ Π²ΡΠ΅Π΄Π½ΠΎΡΡΠΈ Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠΈΠΌΠ° ΡΡΠ½ΠΊΡΠΈΡΠ΅.
Π£ ΠΠΈΡΡ
ΠΎΠ½-Ρ, Π΄ΠΎΠ΄Π΅ΡΠΈΠ²Π°ΡΠ΅ ΡΠ΅ Π²ΡΡΠΈ ΠΈΡΠΊΡΡΡΠΈΠ²ΠΎ ΡΠ° ΡΠ΅Π΄Π½ΠΈΠΌ Π·Π½Π°ΠΊΠΎΠΌ ΡΠ΅Π΄Π½Π°ΠΊΠΎΡΡΠΈ obj_name = value
.
ΠΠ½Π΄Π΅ΠΊΡΠΈΡΠ°ΡΠ΅
ΠΠ²Π΄Π΅ ΡΠ°ΠΊΠΎΡΠ΅ ΠΏΠΎΡΡΠΎΡΠ΅ ΠΏΡΠΈΠ»ΠΈΡΠ½ΠΎ Π·Π½Π°ΡΠ°ΡΠ½Π΅ ΡΠ°Π·Π»ΠΈΠΊΠ΅. Π£ Π , ΠΈΠ½Π΄Π΅ΠΊΡΠΈΡΠ°ΡΠ΅ ΠΏΠΎΡΠΈΡΠ΅ ΠΎΠ΄ ΡΠ΅Π΄Π°Π½ ΠΈ ΡΠΊΡΡΡΡΡΠ΅ ΡΠ²Π΅ Π½Π°Π²Π΅Π΄Π΅Π½Π΅ Π΅Π»Π΅ΠΌΠ΅Π½ΡΠ΅ Ρ ΡΠ΅Π·ΡΠ»ΡΡΡΡΡΠ΅ΠΌ ΠΎΠΏΡΠ΅Π³Ρ,
Π£ ΠΠΈΡΡ
ΠΎΠ½-Ρ ΠΈΠ½Π΄Π΅ΠΊΡΠΈΡΠ°ΡΠ΅ ΠΏΠΎΡΠΈΡΠ΅ ΠΎΠ΄ Π½ΡΠ»Π΅ ΠΈ ΠΈΠ·Π°Π±ΡΠ°Π½ΠΈ ΠΎΠΏΡΠ΅Π³ Π½Π΅ ΡΠΊΡΡΡΡΡΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΡΠΈ Π΅Π»Π΅ΠΌΠ΅Π½Ρ Π½Π°Π²Π΅Π΄Π΅Π½ Ρ ΠΈΠ½Π΄Π΅ΠΊΡΡ. ΠΠ°ΠΊΠ»Π΅ Π΄ΠΈΠ·Π°ΡΠ½ x[i:j]
Ρ ΠΠΈΡΡ
ΠΎΠ½-Ρ Π½Π΅ΡΠ΅ ΡΠΊΡΡΡΠΈΠ²Π°ΡΠΈ Ρ Π΅Π»Π΅ΠΌΠ΅Π½Ρ.
ΠΠΎΡΡΠΎΡΠ΅ ΠΈ ΡΠ°Π·Π»ΠΈΠΊΠ΅ Ρ Π½Π΅Π³Π°ΡΠΈΠ²Π½ΠΎΠΌ ΠΈΠ½Π΄Π΅ΠΊΡΠΈΡΠ°ΡΡ, Ρ Π Π½ΠΎΡΠ°ΡΠΈΡΠΈ x[-1]
ΡΠ΅ Π²ΡΠ°ΡΠΈΡΠΈ ΡΠ²Π΅ Π΅Π»Π΅ΠΌΠ΅Π½ΡΠ΅ Π²Π΅ΠΊΡΠΎΡΠ° ΠΎΡΠΈΠΌ ΠΏΠΎΡΠ»Π΅Π΄ΡΠ΅Π³. Π£ ΠΠΈΡΡ
ΠΎΠ½-Ρ, ΡΠ»ΠΈΡΠ½Π° Π½ΠΎΡΠ°ΡΠΈΡΠ° ΡΠ΅ Π²ΡΠ°ΡΠΈΡΠΈ ΡΠ°ΠΌΠΎ ΠΏΠΎΡΠ»Π΅Π΄ΡΠΈ Π΅Π»Π΅ΠΌΠ΅Π½Ρ.
ΠΠ΅ΡΠΎΠ΄Π΅ ΠΈ ΠΠΠ
Π ΠΈΠΌΠΏΠ»Π΅ΠΌΠ΅Π½ΡΠΈΡΠ° ΠΠΠ Π½Π° ΡΠ²ΠΎΡ Π½Π°ΡΠΈΠ½, ΠΎ ΡΠΎΠΌΠ΅ ΡΠ°ΠΌ ΠΏΠΈΡΠ°ΠΎ Ρ ΡΠ»Π°Π½ΠΊΡ tydiverse
Π±ΠΈΡΠ΅ Π»Π°ΠΊΡΠ΅ Π½Π΅Π³ΠΎ pandas
. ΠΠ°ΠΊΠΎ ΡΠ΅ ΠΎΠ²ΠΎ ΠΌΠΎΠΆΠ΄Π° ΠΌΠΎΡΠ΅ ΡΡΠ±ΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎ ΠΌΠΈΡΡΠ΅ΡΠ΅.
Π£ΠΊΡΠ°ΡΠΊΠΎ, ΠΎΠ±ΡΠ΅ΠΊΡΠΈ Ρ Π Π½Π΅ΠΌΠ°ΡΡ ΠΌΠ΅ΡΠΎΠ΄Π΅ (Π°ΠΊΠΎ Π³ΠΎΠ²ΠΎΡΠΈΠΌΠΎ ΠΎ Π‘3 ΠΊΠ»Π°ΡΠ°ΠΌΠ°, Π°Π»ΠΈ ΠΏΠΎΡΡΠΎΡΠ΅ ΠΈ Π΄ΡΡΠ³Π΅ ΠΠΠ ΠΈΠΌΠΏΠ»Π΅ΠΌΠ΅Π½ΡΠ°ΡΠΈΡΠ΅ ΠΊΠΎΡΠ΅ ΡΡ ΠΌΠ½ΠΎΠ³ΠΎ ΡΠ΅ΡΠ΅). ΠΠΎΡΡΠΎΡΠ΅ ΡΠ°ΠΌΠΎ Π³Π΅Π½Π΅ΡΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ ΠΊΠΎΡΠ΅ ΠΈΡ ΡΠ°Π·Π»ΠΈΡΠΈΡΠΎ ΠΎΠ±ΡΠ°ΡΡΡΡ Ρ Π·Π°Π²ΠΈΡΠ½ΠΎΡΡΠΈ ΠΎΠ΄ ΠΊΠ»Π°ΡΠ΅ ΠΎΠ±ΡΠ΅ΠΊΡΠ°.
Π¦Π΅Π²ΠΎΠ²ΠΎΠ΄ΠΈ
ΠΠΎΠΆΠ΄Π° ΡΠ΅ ΠΎΠ²ΠΎ ΠΈΠΌΠ΅ Π·Π° pandas
ΠΠ΅ΡΠ΅ Π±ΠΈΡΠΈ ΡΠ°ΡΠ²ΠΈΠΌ ΡΠ°ΡΠ½ΠΎ, Π°Π»ΠΈ ΠΏΠΎΠΊΡΡΠ°ΡΡ Π΄Π° ΠΎΠ±ΡΠ°ΡΠ½ΠΈΠΌ Π·Π½Π°ΡΠ΅ΡΠ΅.
ΠΠ° Π½Π΅ Π±ΠΈΡΡΠ΅ ΡΠ°ΡΡΠ²Π°Π»ΠΈ ΠΌΠ΅ΡΡΠΏΡΠΎΡΠ°ΡΡΠ½Π΅ ΠΈ Π½Π΅ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠ»ΠΈ Π½Π΅ΠΏΠΎΡΡΠ΅Π±Π½Π΅ ΠΎΠ±ΡΠ΅ΠΊΡΠ΅ Ρ ΡΠ°Π΄Π½ΠΎΠΌ ΠΎΠΊΡΡΠΆΠ΅ΡΡ, ΠΌΠΎΠΆΠ΅ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈΡΠΈ Π½Π΅ΠΊΡ Π²ΡΡΡΡ ΡΠ΅Π²ΠΎΠ²ΠΎΠ΄Π°. ΠΠ½Π΅. ΠΏΡΠ΅Π½Π΅ΡΠΈ ΡΠ΅Π·ΡΠ»ΡΠ°Ρ ΠΏΡΠΎΡΠ°ΡΡΠ½Π° ΡΠ° ΡΠ΅Π΄Π½Π΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ Π½Π° Π΄ΡΡΠ³Ρ ΠΈ Π½Π΅ ΡΡΠ²Π°ΡΠΈ ΠΌΠ΅ΡΡΡΠ΅Π·ΡΠ»ΡΠ°ΡΠ΅.
Π£Π·ΠΌΠΈΠΌΠΎ ΡΠ»Π΅Π΄Π΅ΡΠΈ ΠΏΡΠΈΠΌΠ΅Ρ ΠΊΠΎΠ΄Π°, Π³Π΄Π΅ ΠΏΠΎΡΡΠ΅Π΄Π½Π΅ ΠΏΡΠΎΡΠ°ΡΡΠ½Π΅ ΡΡΠ²Π°ΠΌΠΎ Ρ ΠΎΠ΄Π²ΠΎΡΠ΅Π½ΠΈΠΌ ΠΎΠ±ΡΠ΅ΠΊΡΠΈΠΌΠ°:
temp_object <- func1()
temp_object2 <- func2(temp_object )
obj <- func3(temp_object2 )
ΠΠ·Π²Π΅Π»ΠΈ ΡΠΌΠΎ 3 ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ΅ ΡΠ·Π°ΡΡΠΎΠΏΠ½ΠΎ, Π° ΡΠ΅Π·ΡΠ»ΡΠ°Ρ ΡΠ²Π°ΠΊΠ΅ ΡΠ΅ ΡΠ°ΡΡΠ²Π°Π½ Ρ ΠΏΠΎΡΠ΅Π±Π½ΠΎΠΌ ΠΎΠ±ΡΠ΅ΠΊΡΡ. ΠΠ»ΠΈ Ρ ΡΡΠ²Π°ΡΠΈ, ΠΎΠ²ΠΈ ΠΌΠ΅ΡΡΠΎΠ±ΡΠ΅ΠΊΡΠΈ Π½Π°ΠΌ Π½ΠΈΡΡ ΠΏΠΎΡΡΠ΅Π±Π½ΠΈ.
ΠΠ»ΠΈ ΡΠΎΡ Π³ΠΎΡΠ΅, Π°Π»ΠΈ ΠΏΠΎΠ·Π½Π°ΡΠΈΡΠ΅ ΠΊΠΎΡΠΈΡΠ½ΠΈΡΠΈΠΌΠ° ΠΠΊΡΠ΅Π»-Π°.
obj <- func3(func2(func1()))
Π£ ΠΎΠ²ΠΎΠΌ ΡΠ»ΡΡΠ°ΡΡ Π½ΠΈΡΠΌΠΎ ΡΠ°ΡΡΠ²Π°Π»ΠΈ ΠΌΠ΅ΡΡΡΠ΅Π·ΡΠ»ΡΠ°ΡΠ΅ ΠΏΡΠΎΡΠ°ΡΡΠ½Π°, Π°Π»ΠΈ ΡΠ΅ ΡΠΈΡΠ°ΡΠ΅ ΠΊΠΎΠ΄Π° ΡΠ° ΡΠ³Π½Π΅ΠΆΡΠ΅Π½ΠΈΠΌ ΡΡΠ½ΠΊΡΠΈΡΠ°ΠΌΠ° ΠΈΠ·ΡΠ·Π΅ΡΠ½ΠΎ Π½Π΅Π·Π³ΠΎΠ΄Π½ΠΎ.
ΠΠΎΠ³Π»Π΅Π΄Π°ΡΠ΅ΠΌΠΎ Π½Π΅ΠΊΠΎΠ»ΠΈΠΊΠΎ ΠΏΡΠΈΡΡΡΠΏΠ° ΠΎΠ±ΡΠ°Π΄ΠΈ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π -Ρ, Π° ΠΎΠ½ΠΈ ΠΎΠ±Π°Π²ΡΠ°ΡΡ ΡΠ»ΠΈΡΠ½Π΅ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ΅ Π½Π° ΡΠ°Π·Π»ΠΈΡΠΈΡΠ΅ Π½Π°ΡΠΈΠ½Π΅.
Π¦Π΅Π²ΠΎΠ²ΠΎΠ΄ΠΈ Ρ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΡΠΈ tidyverse
ΠΈΠΌΠΏΠ»Π΅ΠΌΠ΅Π½ΡΠΈΡΠ° ΠΎΠΏΠ΅ΡΠ°ΡΠ΅Ρ %>%
.
obj <- func1() %>%
func2() %>%
func3()
Π’Π°ΠΊΠΎ ΡΠ·ΠΈΠΌΠ°ΠΌΠΎ ΡΠ΅Π·ΡΠ»ΡΠ°Ρ ΡΠ°Π΄Π° func1()
ΠΈ ΠΏΡΠΎΡΠ»Π΅Π΄ΠΈΡΠ΅ Π³Π° ΠΊΠ°ΠΎ ΠΏΡΠ²ΠΈ Π°ΡΠ³ΡΠΌΠ΅Π½Ρ func2()
, ΠΎΠ½Π΄Π° ΡΠ΅Π·ΡΠ»ΡΠ°Ρ ΠΎΠ²ΠΎΠ³ ΠΏΡΠΎΡΠ°ΡΡΠ½Π° ΠΏΡΠ΅Π½ΠΎΡΠΈΠΌΠΎ ΠΊΠ°ΠΎ ΠΏΡΠ²ΠΈ Π°ΡΠ³ΡΠΌΠ΅Π½Ρ func3()
. Π Π½Π° ΠΊΡΠ°ΡΡ ΡΠ²Π΅ ΠΈΠ·Π²ΡΡΠ΅Π½Π΅ ΠΏΡΠΎΡΠ°ΡΡΠ½Π΅ ΡΠΏΠΈΡΡΡΠ΅ΠΌΠΎ Ρ ΠΎΠ±ΡΠ΅ΠΊΠ°Ρ obj <-
.
Π‘Π²Π΅ Π³ΠΎΡΠ΅ Π½Π°Π²Π΅Π΄Π΅Π½ΠΎ ΡΠ΅ Π±ΠΎΡΠ΅ ΠΎΠ΄ ΡΠ΅ΡΠΈ ΠΈΠ»ΡΡΡΡΠΎΠ²Π°Π½ΠΎ ΠΎΠ²ΠΈΠΌ ΠΌΠ΅ΠΌΠΎΠΌ:
Π data.table
Π»Π°Π½ΡΠΈ ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠ΅ Π½Π° ΡΠ»ΠΈΡΠ°Π½ Π½Π°ΡΠΈΠ½.
newDT <- DT[where, select|update|do, by][where, select|update|do, by][where, select|update|do, by]
Π£ ΡΠ²Π°ΠΊΠΎΡ ΠΎΠ΄ ΡΠ³Π»Π°ΡΡΠΈΡ Π·Π°Π³ΡΠ°Π΄Π° ΠΌΠΎΠΆΠ΅ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈΡΠΈ ΡΠ΅Π·ΡΠ»ΡΠ°Ρ ΠΏΡΠ΅ΡΡ ΠΎΠ΄Π½Π΅ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ΅.
Π pandas
ΡΠ°ΠΊΠ²Π΅ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ΅ ΡΡ ΠΎΠ΄Π²ΠΎΡΠ΅Π½Π΅ ΡΠ°ΡΠΊΠΎΠΌ.
obj = df.fun1().fun2().fun3()
ΠΠ½Π΅. ΡΠ·ΠΈΠΌΠ°ΠΌΠΎ ΡΠ²ΠΎΡ ΡΡΠΎ df ΠΈ ΠΊΠΎΡΠΈΡΡΠΈΡΠΈ ΡΠ΅Π½ ΠΌΠ΅ΡΠΎΠ΄ fun1()
, Π·Π°ΡΠΈΠΌ ΠΌΠ΅ΡΠΎΠ΄Ρ ΠΏΡΠΈΠΌΠ΅ΡΡΡΠ΅ΠΌΠΎ Π½Π° Π΄ΠΎΠ±ΠΈΡΠ΅Π½ΠΈ ΡΠ΅Π·ΡΠ»ΡΠ°Ρ fun2()
, ΠΏΠΎΡΠ»Π΅ fun3()
. ΠΠΎΠ±ΠΈΡΠ΅Π½ΠΈ ΡΠ΅Π·ΡΠ»ΡΠ°Ρ ΡΠ΅ ΡΡΠ²Π° Ρ ΠΎΠ±ΡΠ΅ΠΊΡΡ ΠΠΠ .
Π‘ΡΡΡΠΊΡΡΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°
Π‘ΡΡΡΠΊΡΡΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π ΠΈ ΠΠΈΡΡ ΠΎΠ½-Ρ ΡΡ ΡΠ»ΠΈΡΠ½Π΅, Π°Π»ΠΈ ΠΈΠΌΠ°ΡΡ ΡΠ°Π·Π»ΠΈΡΠΈΡΠ° ΠΈΠΌΠ΅Π½Π°.
ΠΠΏΠΈΡ
ΠΠΌΠ΅ Ρ Π
ΠΠΌΠ΅ Ρ ΠΠΈΡΡ
ΠΎΠ½/ΠΏΠ°Π½Π΄Π°Ρ
Π‘ΡΡΡΠΊΡΡΡΠ° ΡΠ°Π±Π΅Π»Π΅
Π΄Π°ΡΠ°.ΡΡΠ°ΠΌΠ΅, Π΄Π°ΡΠ°.ΡΠ°Π±Π»Π΅, ΡΠΈΠ±Π±Π»Π΅
ΠΠΊΠ²ΠΈΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°
ΠΠ΅Π΄Π½ΠΎΠ΄ΠΈΠΌΠ΅Π½Π·ΠΈΠΎΠ½Π°Π»Π½Π° Π»ΠΈΡΡΠ° Π²ΡΠ΅Π΄Π½ΠΎΡΡΠΈ
ΠΠ΅ΡΡΠΎΡ
Π‘Π΅ΡΠΈΡΠ° Ρ ΠΏΠ°Π½Π΄Π°ΠΌΠ° ΠΈΠ»ΠΈ Π»ΠΈΡΡΠ° Ρ ΡΠΈΡΡΠΎΠΌ ΠΠΈΡΡ
ΠΎΠ½-Ρ
ΠΠΈΡΠ΅ΡΠ»ΠΎΡΠ½Π° Π½Π΅ΡΠ°Π±Π΅Π»Π°ΡΠ½Π° ΡΡΡΡΠΊΡΡΡΠ°
ΠΠΈΡΡΠ°
ΡΠ΅ΡΠ½ΠΈΠΊ (Π΄ΠΈΠΊΡ)
Π£ Π½Π°ΡΡΠ°Π²ΠΊΡ ΡΠ΅ΠΌΠΎ ΠΏΠΎΠ³Π»Π΅Π΄Π°ΡΠΈ Π½Π΅ΠΊΠ΅ Π΄ΡΡΠ³Π΅ ΠΊΠ°ΡΠ°ΠΊΡΠ΅ΡΠΈΡΡΠΈΠΊΠ΅ ΠΈ ΡΠ°Π·Π»ΠΈΠΊΠ΅ Ρ ΡΠΈΠ½ΡΠ°ΠΊΡΠΈ.
ΠΠ΅ΠΊΠΎΠ»ΠΈΠΊΠΎ ΡΠ΅ΡΠΈ ΠΎ ΠΏΠ°ΠΊΠ΅ΡΠΈΠΌΠ° ΠΊΠΎΡΠ΅ ΡΠ΅ΠΌΠΎ ΠΊΠΎΡΠΈΡΡΠΈΡΠΈ
ΠΡΠ²ΠΎ ΡΡ Π²Π°ΠΌ ΡΠ΅ΡΠΈ Π½Π΅ΡΡΠΎ ΠΎ ΠΏΠ°ΠΊΠ΅ΡΠΈΠΌΠ° ΡΠ° ΠΊΠΎΡΠΈΠΌΠ° ΡΠ΅ΡΠ΅ ΡΠ΅ ΡΠΏΠΎΠ·Π½Π°ΡΠΈ ΡΠΎΠΊΠΎΠΌ ΠΎΠ²ΠΎΠ³ ΡΠ»Π°Π½ΠΊΠ°.
ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅
ΠΠ²Π°Π½ΠΈΡΠ½ΠΈ ΡΠ°ΡΡ:
Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ° tidyverse
Π½Π°ΠΏΠΈΡΠ°ΠΎ Π₯Π΅Π΄Π»ΠΈ ΠΠΈΠΊΠ°ΠΌ, Π²ΠΈΡΠΈ Π½Π°ΡΡΠ½ΠΈ Π½Π°ΡΡΠ½ΠΈΠΊ Ρ Π Π‘ΡΡΠ΄ΠΈΡ. tidyverse
ΡΠ°ΡΡΠΎΡΠΈ ΡΠ΅ ΠΎΠ΄ ΠΈΠΌΠΏΡΠ΅ΡΠΈΠ²Π½ΠΎΠ³ ΡΠΊΡΠΏΠ° ΠΏΠ°ΠΊΠ΅ΡΠ° ΠΊΠΎΡΠΈ ΠΏΠΎΡΠ΅Π΄Π½ΠΎΡΡΠ°Π²ΡΡΡΡ ΠΎΠ±ΡΠ°Π΄Ρ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°, ΠΎΠ΄ ΠΊΠΎΡΠΈΡ
ΡΠ΅ 5 ΡΠΊΡΡΡΠ΅Π½ΠΎ Ρ ΠΏΡΠ²ΠΈΡ
10 ΠΏΡΠ΅ΡΠ·ΠΈΠΌΠ°ΡΠ° ΠΈΠ· Π¦Π ΠΠ ΡΠΏΡΠ΅ΠΌΠΈΡΡΠ°.
ΠΠ΅Π·Π³ΡΠΎ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ΅ ΡΠΈΠ½Π΅ ΡΠ»Π΅Π΄Π΅ΡΠΈ ΠΏΠ°ΠΊΠ΅ΡΠΈ: ggplot2
, dplyr
, tidyr
, readr
, purrr
, tibble
, stringr
, forcats
. Π‘Π²Π°ΠΊΠΈ ΠΎΠ΄ ΠΎΠ²ΠΈΡ
ΠΏΠ°ΠΊΠ΅ΡΠ° ΡΠ΅ ΡΡΠΌΠ΅ΡΠ΅Π½ Π½Π° ΡΠ΅ΡΠ°Π²Π°ΡΠ΅ ΠΎΠ΄ΡΠ΅ΡΠ΅Π½ΠΎΠ³ ΠΏΡΠΎΠ±Π»Π΅ΠΌΠ°. ΠΠ° ΠΏΡΠΈΠΌΠ΅Ρ dplyr
ΠΊΡΠ΅ΠΈΡΠ°Π½ Π·Π° ΠΌΠ°Π½ΠΈΠΏΡΠ»Π°ΡΠΈΡΡ ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ°, tidyr
Π΄Π° Π΄ΠΎΠ²Π΅Π΄Π΅ ΠΏΠΎΠ΄Π°ΡΠΊΠ΅ Ρ ΡΡΠ΅Π΄Π°Π½ ΠΎΠ±Π»ΠΈΠΊ, stringr
ΠΏΠΎΡΠ΅Π΄Π½ΠΎΡΡΠ°Π²ΡΡΡΠ΅ ΡΠ°Π΄ ΡΠ° ΡΡΡΠΈΠ½Π³ΠΎΠ²ΠΈΠΌΠ°, ΠΈ ggplot2
ΡΠ΅ ΡΠ΅Π΄Π°Π½ ΠΎΠ΄ Π½Π°ΡΠΏΠΎΠΏΡΠ»Π°ΡΠ½ΠΈΡΠΈΡ
Π°Π»Π°ΡΠ° Π·Π° Π²ΠΈΠ·ΡΠ΅Π»ΠΈΠ·Π°ΡΠΈΡΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°.
ΠΡΠ΅Π΄Π½ΠΎΡΡ tidyverse
ΡΠ΅ ΡΠ΅Π΄Π½ΠΎΡΡΠ°Π²Π½ΠΎΡΡ ΠΈ Π»Π°ΠΊΠΎ ΡΠΈΡΡΠΈΠ²Π° ΡΠΈΠ½ΡΠ°ΠΊΡΠ°, ΠΊΠΎΡΠ° ΡΠ΅ Π½Π° ΠΌΠ½ΠΎΠ³ΠΎ Π½Π°ΡΠΈΠ½Π° ΡΠ»ΠΈΡΠ½Π° Π‘ΠΠ ΡΠ΅Π·ΠΈΠΊΡ ΡΠΏΠΈΡΠ°.
ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
ΠΠ΄ Π°ΡΡΠΎΡΠ° data.table
ΡΠ΅ ΠΠ°ΡΡ ΠΠΎΠ»Π΅ ΠΈΠ· Π₯2Π.Π°ΠΈ.
ΠΡΠ²ΠΎ ΠΈΠ·Π΄Π°ΡΠ΅ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ΅ ΠΎΠ΄ΡΠΆΠ°Π½ΠΎ ΡΠ΅ 2006. Π³ΠΎΠ΄ΠΈΠ½Π΅.
Π‘ΠΈΠ½ΡΠ°ΠΊΡΠ° ΠΏΠ°ΠΊΠ΅ΡΠ° Π½ΠΈΡΠ΅ ΡΠ°ΠΊΠΎ Π·Π³ΠΎΠ΄Π½Π° ΠΊΠ°ΠΎ Ρ tidyverse
ΠΈ Π²ΠΈΡΠ΅ ΠΏΠΎΠ΄ΡΠ΅ΡΠ° Π½Π° ΠΊΠ»Π°ΡΠΈΡΠ½Π΅ ΠΎΠΊΠ²ΠΈΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π , Π°Π»ΠΈ ΡΠ΅ ΠΈΡΡΠΎΠ²ΡΠ΅ΠΌΠ΅Π½ΠΎ Π·Π½Π°ΡΠ°ΡΠ½ΠΎ ΠΏΡΠΎΡΠΈΡΠ΅Π½ Ρ ΡΡΠ½ΠΊΡΠΈΠΎΠ½Π°Π»Π½ΠΎΡΡΠΈ.
Π‘Π²Π΅ ΠΌΠ°Π½ΠΈΠΏΡΠ»Π°ΡΠΈΡΠ΅ ΡΠ° ΡΠ°Π±Π΅Π»ΠΎΠΌ Ρ ΠΎΠ²ΠΎΠΌ ΠΏΠ°ΠΊΠ΅ΡΡ ΡΡ ΠΎΠΏΠΈΡΠ°Π½Π΅ Ρ ΡΠ³Π»Π°ΡΡΠΈΠΌ Π·Π°Π³ΡΠ°Π΄Π°ΠΌΠ°, Π° Π°ΠΊΠΎ ΠΏΡΠ΅Π²Π΅Π΄Π΅ΡΠ΅ ΡΠΈΠ½ΡΠ°ΠΊΡΡ data.table
Ρ Π‘ΠΠ-Ρ Π΄ΠΎΠ±ΠΈΡΠ°ΡΠ΅ Π½Π΅ΡΡΠΎ ΠΎΠ²Π°ΠΊΠΎ: data.table[ WHERE, SELECT, GROUP BY ]
Π‘Π½Π°Π³Π° ΠΎΠ²ΠΎΠ³ ΠΏΠ°ΠΊΠ΅ΡΠ° ΡΠ΅ Π±ΡΠ·ΠΈΠ½Π° ΠΎΠ±ΡΠ°Π΄Π΅ Π²Π΅Π»ΠΈΠΊΠΈΡ ΠΊΠΎΠ»ΠΈΡΠΈΠ½Π° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°.
ΠΏΠ°Π½Π΄Π΅
ΠΠ²Π°Π½ΠΈΡΠ½ΠΈ ΡΠ°ΡΡ:
ΠΠ°Π·ΠΈΠ² Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ΅ ΠΏΠΎΡΠΈΡΠ΅ ΠΎΠ΄ Π΅ΠΊΠΎΠ½ΠΎΠΌΠ΅ΡΡΠΈΡΡΠΊΠΎΠ³ ΡΠ΅ΡΠΌΠΈΠ½Π° βΠΏΠ°Π½Π΅Π» ΠΏΠΎΠ΄Π°ΡΠΈβ, ΠΊΠΎΡΠΈ ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈ Π·Π° ΠΎΠΏΠΈΡΠΈΠ²Π°ΡΠ΅ Π²ΠΈΡΠ΅Π΄ΠΈΠΌΠ΅Π½Π·ΠΈΠΎΠ½Π°Π»Π½ΠΈΡ ΡΡΡΡΠΊΡΡΡΠΈΡΠ°Π½ΠΈΡ ΡΠΊΡΠΏΠΎΠ²Π° ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡΠ°.
ΠΠ΄ Π°ΡΡΠΎΡΠ° pandas
ΡΠ΅ ΠΠΌΠ΅ΡΠΈΠΊΠ°Π½Π°Ρ ΠΠ΅Ρ ΠΠ΅ΠΊΠΈΠ½ΠΈ.
ΠΠ°Π΄Π° ΡΠ΅ ΡΠ΅Ρ ΠΎ Π°Π½Π°Π»ΠΈΠ·ΠΈ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΠΈΡΡ
ΠΎΠ½-Ρ, ΡΠ΅Π΄Π½Π°ΠΊΠΎ pandas
ΠΠ΅. ΠΠ΅ΠΎΠΌΠ° ΠΌΡΠ»ΡΠΈΡΡΠ½ΠΊΡΠΈΠΎΠ½Π°Π»Π°Π½ ΠΏΠ°ΠΊΠ΅Ρ Π²ΠΈΡΠΎΠΊΠΎΠ³ Π½ΠΈΠ²ΠΎΠ° ΠΊΠΎΡΠΈ Π²Π°ΠΌ ΠΎΠΌΠΎΠ³ΡΡΠ°Π²Π° Π΄Π° ΠΈΠ·Π²ΡΡΠΈΡΠ΅ Π±ΠΈΠ»ΠΎ ΠΊΠ°ΠΊΠ²Ρ ΠΌΠ°Π½ΠΈΠΏΡΠ»Π°ΡΠΈΡΡ ΡΠ° ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ°, ΠΎΠ΄ ΡΡΠΈΡΠ°Π²Π°ΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΈΠ· Π±ΠΈΠ»ΠΎ ΠΊΠΎΠ³ ΠΈΠ·Π²ΠΎΡΠ° Π΄ΠΎ Π²ΠΈΠ·ΡΠ΅Π»ΠΈΠ·Π°ΡΠΈΡΠ΅.
ΠΠ½ΡΡΠ°Π»ΠΈΡΠ°ΡΠ΅ Π΄ΠΎΠ΄Π°ΡΠ½ΠΈΡ ΠΏΠ°ΠΊΠ΅ΡΠ°
ΠΠ°ΠΊΠ΅ΡΠΈ ΠΎ ΠΊΠΎΡΠΈΠΌΠ° ΡΠ΅ Π³ΠΎΠ²ΠΎΡΠΈ Ρ ΠΎΠ²ΠΎΠΌ ΡΠ»Π°Π½ΠΊΡ Π½ΠΈΡΡ ΡΠΊΡΡΡΠ΅Π½ΠΈ Ρ ΠΎΡΠ½ΠΎΠ²Π½Π΅ Π ΠΈ ΠΠΈΡΡ
ΠΎΠ½ Π΄ΠΈΡΡΡΠΈΠ±ΡΡΠΈΡΠ΅. ΠΠ°ΠΊΠΎ ΠΏΠΎΡΡΠΎΡΠΈ ΠΌΠ°Π»ΠΎ ΡΠΏΠΎΠ·ΠΎΡΠ΅ΡΠ΅, Π°ΠΊΠΎ ΡΡΠ΅ ΠΈΠ½ΡΡΠ°Π»ΠΈΡΠ°Π»ΠΈ Π΄ΠΈΡΡΡΠΈΠ±ΡΡΠΈΡΡ ΠΠ½Π°ΡΠΎΠ½Π΄Π°, ΠΈΠ½ΡΡΠ°Π»ΠΈΡΠ°ΡΡΠ΅ Π΄ΠΎΠ΄Π°ΡΠ½ΠΎ pandas
Π½ΠΈΡΠ΅ ΠΏΠΎΡΡΠ΅Π±Π½ΠΎ.
ΠΠ½ΡΡΠ°Π»ΠΈΡΠ°ΡΠ΅ ΠΏΠ°ΠΊΠ΅ΡΠ° Ρ Π
ΠΠΊΠΎ ΡΡΠ΅ Π±Π°Ρ ΡΠ΅Π΄Π½ΠΎΠΌ ΠΎΡΠ²ΠΎΡΠΈΠ»ΠΈ ΡΠ°Π·Π²ΠΎΡΠ½ΠΎ ΠΎΠΊΡΡΠΆΠ΅ΡΠ΅ Π Π‘ΡΡΠ΄ΠΈΠΎ, Π²Π΅ΡΠΎΠ²Π°ΡΠ½ΠΎ Π²Π΅Ρ Π·Π½Π°ΡΠ΅ ΠΊΠ°ΠΊΠΎ Π΄Π° ΠΈΠ½ΡΡΠ°Π»ΠΈΡΠ°ΡΠ΅ ΠΏΠΎΡΡΠ΅Π±Π°Π½ ΠΏΠ°ΠΊΠ΅Ρ Ρ Π . ΠΠ° Π±ΠΈΡΡΠ΅ ΠΈΠ½ΡΡΠ°Π»ΠΈΡΠ°Π»ΠΈ ΠΏΠ°ΠΊΠ΅ΡΠ΅, ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ ΡΡΠ°Π½Π΄Π°ΡΠ΄Π½Ρ ΠΊΠΎΠΌΠ°Π½Π΄Ρ install.packages()
ΠΏΠΎΠΊΡΠ΅ΡΠ°ΡΠ΅ΠΌ Π΄ΠΈΡΠ΅ΠΊΡΠ½ΠΎ Ρ ΡΠ°ΠΌΠΎΠΌ Π .
# ΡΡΡΠ°Π½ΠΎΠ²ΠΊΠ° ΠΏΠ°ΠΊΠ΅ΡΠΎΠ²
install.packages("vroom")
install.packages("readr")
install.packages("dplyr")
install.packages("data.table")
ΠΠ°ΠΊΠΎΠ½ ΠΈΠ½ΡΡΠ°Π»Π°ΡΠΈΡΠ΅ ΠΏΠΎΡΡΠ΅Π±Π½ΠΎ ΡΠ΅ ΠΏΠΎΠ²Π΅Π·Π°ΡΠΈ ΠΏΠ°ΠΊΠ΅ΡΠ΅, Π·Π° ΡΡΠ° ΡΠ΅ Ρ Π²Π΅ΡΠΈΠ½ΠΈ ΡΠ»ΡΡΠ°ΡΠ΅Π²Π° ΠΊΠΎΡΠΈΡΡΠΈ ΠΊΠΎΠΌΠ°Π½Π΄Π° library()
.
# ΠΏΠΎΠ΄ΠΊΠ»ΡΡΠ΅Π½ΠΈΠ΅ ΠΈΠ»ΠΈ ΠΈΠΌΠΏΠΎΡΡ ΠΏΠ°ΠΊΠ΅ΡΠΎΠ² Π² ΡΠ°Π±ΠΎΡΠ΅Π΅ ΠΎΠΊΡΡΠΆΠ΅Π½ΠΈΠ΅
library(vroom)
library(readr)
library(dplyr)
library(data.table)
ΠΠ½ΡΡΠ°Π»ΠΈΡΠ°ΡΠ΅ ΠΏΠ°ΠΊΠ΅ΡΠ° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ
ΠΠ°ΠΊΠ»Π΅, Π°ΠΊΠΎ ΠΈΠΌΠ°ΡΠ΅ ΠΈΠ½ΡΡΠ°Π»ΠΈΡΠ°Π½ ΡΠΈΡΡΠΈ ΠΠΈΡΡ
ΠΎΠ½ pandas
ΠΌΠΎΡΠ°ΡΠ΅ Π΄Π° Π³Π° ΠΈΠ½ΡΡΠ°Π»ΠΈΡΠ°ΡΠ΅ ΡΡΡΠ½ΠΎ. ΠΡΠ²ΠΎΡΠΈΡΠ΅ ΠΊΠΎΠΌΠ°Π½Π΄Π½Ρ Π»ΠΈΠ½ΠΈΡΡ ΠΈΠ»ΠΈ ΡΠ΅ΡΠΌΠΈΠ½Π°Π», Ρ Π·Π°Π²ΠΈΡΠ½ΠΎΡΡΠΈ ΠΎΠ΄ Π²Π°ΡΠ΅Π³ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠ²Π½ΠΎΠ³ ΡΠΈΡΡΠ΅ΠΌΠ° ΠΈ ΡΠ½Π΅ΡΠΈΡΠ΅ ΡΠ»Π΅Π΄Π΅ΡΡ ΠΊΠΎΠΌΠ°Π½Π΄Ρ.
pip install pandas
ΠΠ°ΡΠΈΠΌ ΡΠ΅ Π²ΡΠ°ΡΠ°ΠΌΠΎ Π½Π° ΠΠΈΡΡ
ΠΎΠ½ ΠΈ ΠΊΠΎΠΌΠ°Π½Π΄ΠΎΠΌ ΡΠ²ΠΎΠ·ΠΈΠΌΠΎ ΠΈΠ½ΡΡΠ°Π»ΠΈΡΠ°Π½ΠΈ ΠΏΠ°ΠΊΠ΅Ρ import
.
import pandas as pd
Π£ΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°
ΠΠ°ΡΠ° ΠΌΠΈΠ½ΠΈΠ½Π³ ΡΠ΅ ΡΠ΅Π΄Π°Π½ ΠΎΠ΄ Π½Π°ΡΠ²Π°ΠΆΠ½ΠΈΡΠΈΡ ΠΊΠΎΡΠ°ΠΊΠ° Ρ Π°Π½Π°Π»ΠΈΠ·ΠΈ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°. Π ΠΠΈΡΡ ΠΎΠ½ ΠΈ Π , Π°ΠΊΠΎ ΠΆΠ΅Π»ΠΈΡΠ΅, ΠΏΡΡΠΆΠ°ΡΡ Π²Π°ΠΌ ΡΠΈΡΠΎΠΊΠ΅ ΠΌΠΎΠ³ΡΡΠ½ΠΎΡΡΠΈ Π·Π° Π΄ΠΎΠ±ΠΈΡΠ°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΈΠ· Π±ΠΈΠ»ΠΎ ΠΊΠΎΠ³ ΠΈΠ·Π²ΠΎΡΠ°: Π»ΠΎΠΊΠ°Π»Π½ΠΈΡ Π΄Π°ΡΠΎΡΠ΅ΠΊΠ°, Π΄Π°ΡΠΎΡΠ΅ΠΊΠ° ΡΠ° ΠΠ½ΡΠ΅ΡΠ½Π΅ΡΠ°, Π²Π΅Π± Π»ΠΎΠΊΠ°ΡΠΈΡΠ°, ΡΠ²ΠΈΡ Π²ΡΡΡΠ° Π±Π°Π·Π° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°.
Π£ ΡΠ»Π°Π½ΠΊΡ ΡΠ΅ΠΌΠΎ ΠΊΠΎΡΠΈΡΡΠΈΡΠΈ Π½Π΅ΠΊΠΎΠ»ΠΈΠΊΠΎ ΡΠΊΡΠΏΠΎΠ²Π° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°:
- ΠΠ²Π° ΠΏΡΠ΅ΡΠ·ΠΈΠΌΠ°ΡΠ° ΡΠ° ΠΠΎΠΎΠ³Π»Π΅ Π°Π½Π°Π»ΠΈΡΠΈΠΊΠ΅.
- Π’ΠΈΡΠ°Π½ΠΈΡ ΠΠ°ΡΡΠ΅Π½Π³Π΅Ρ ΠΠ°ΡΠ°ΡΠ΅Ρ.
Π‘Π²ΠΈ ΠΏΠΎΠ΄Π°ΡΠΈ ΡΡ Π½Π° ΠΌΠΎΠΌ
Π£ΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π : ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅, Π²ΡΠΎΠΎΠΌ, ΡΠ΅Π°Π΄Ρ
ΠΠ° ΡΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ tidyverse
ΠΠΎΡΡΠΎΡΠ΅ Π΄Π²Π° ΠΏΠ°ΠΊΠ΅ΡΠ°: vroom
, readr
. vroom
ΠΌΠΎΠ΄Π΅ΡΠ½ΠΈΡΠΈ, Π°Π»ΠΈ Ρ Π±ΡΠ΄ΡΡΠ½ΠΎΡΡΠΈ ΠΏΠ°ΠΊΠ΅ΡΠΈ ΠΌΠΎΠ³Ρ Π±ΠΈΡΠΈ ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΎΠ²Π°Π½ΠΈ.
Π¦ΠΈΡΠ°Ρ ΠΈΠ· vroom
.
Π²ΡΠΎΠΎΠΌ Π²Ρ ΡΠ΅Π°Π΄Π΅Ρ
Π¨ΡΠ° Π·Π½Π°ΡΠΈ ΠΎΡΠ»ΠΎΠ±Π°ΡΠ°ΡΠ΅ ΠΎΠ΄vroom
Π·Π½Π°ΡΠΈ Π·Π°readr
? ΠΠ° ΡΠ°Π΄Π° ΠΏΠ»Π°Π½ΠΈΡΠ°ΠΌΠΎ Π΄Π° Π΄ΠΎΠ·Π²ΠΎΠ»ΠΈΠΌΠΎ Π΄Π° ΡΠ΅ ΠΎΠ²Π° Π΄Π²Π° ΠΏΠ°ΠΊΠ΅ΡΠ° ΡΠ°Π·Π²ΠΈΡΠ°ΡΡ ΠΎΠ΄Π²ΠΎΡΠ΅Π½ΠΎ, Π°Π»ΠΈ Π²Π΅ΡΠΎΠ²Π°ΡΠ½ΠΎ ΡΠ΅ΠΌΠΎ Ρ Π±ΡΠ΄ΡΡΠ½ΠΎΡΡΠΈ ΡΡΠ΅Π΄ΠΈΠ½ΠΈΡΠΈ ΠΏΠ°ΠΊΠ΅ΡΠ΅. ΠΠ΅Π΄Π½Π° ΠΌΠ°Π½Π° Π²ΡΠΎΠΎΠΌΠΎΠ²ΠΎΠ³ Π»Π΅ΡΠΎΠ³ ΡΠΈΡΠ°ΡΠ° ΡΠ΅ Π΄Π° ΡΠ΅ ΠΎΠ΄ΡΠ΅ΡΠ΅Π½ΠΈ ΠΏΡΠΎΠ±Π»Π΅ΠΌΠΈ ΡΠ° ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ° Π½Π΅ ΠΌΠΎΠ³Ρ ΠΏΡΠΈΡΠ°Π²ΠΈΡΠΈ ΡΠ½Π°ΠΏΡΠ΅Π΄, ΠΏΠ° ΡΠ΅ ΠΏΠΎΡΡΠ΅Π±Π½ΠΎ ΡΠ°Π·ΠΌΠΈΡΠ»ΠΈΡΠΈ ΠΎ ΡΠΎΠΌΠ΅ ΠΊΠ°ΠΊΠΎ ΠΈΡ Π½Π°ΡΠ±ΠΎΡΠ΅ ΡΡΠ΅Π΄ΠΈΠ½ΠΈΡΠΈ.Π²ΡΠΎΠΎΠΌ Π²Ρ ΡΠ΅Π°Π΄Ρ
Π¨ΡΠ° Π·Π½Π°ΡΠΈ ΠΎΡΠ»ΠΎΠ±Π°ΡΠ°ΡΠ΅?vroom
Π·Π°readr
? Π’ΡΠ΅Π½ΡΡΠ½ΠΎ ΠΏΠ»Π°Π½ΠΈΡΠ°ΠΌΠΎ Π΄Π° ΡΠ°Π·Π²ΠΈΡΠ°ΠΌΠΎ ΠΎΠ±Π° ΠΏΠ°ΠΊΠ΅ΡΠ° ΠΎΠ΄Π²ΠΎΡΠ΅Π½ΠΎ, Π°Π»ΠΈ ΡΠ΅ΠΌΠΎ ΠΈΡ Π²Π΅ΡΠΎΠ²Π°ΡΠ½ΠΎ ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΎΠ²Π°ΡΠΈ Ρ Π±ΡΠ΄ΡΡΠ½ΠΎΡΡΠΈ. ΠΠ΅Π΄Π°Π½ ΠΎΠ΄ Π½Π΅Π΄ΠΎΡΡΠ°ΡΠ°ΠΊΠ° Π»Π΅ΡΠΎΠ³ ΡΠΈΡΠ°ΡΠ°vroom
ΡΠ΅ Π΄Π° ΡΠ΅ Π½Π΅ΠΊΠΈ ΠΏΡΠΎΠ±Π»Π΅ΠΌΠΈ ΡΠ° ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ° Π½Π΅ ΠΌΠΎΠ³Ρ ΠΏΡΠΈΡΠ°Π²ΠΈΡΠΈ ΡΠ½Π°ΠΏΡΠ΅Π΄, ΠΏΠ° ΡΡΠ΅Π±Π° ΡΠ°Π·ΠΌΠΈΡΠ»ΠΈΡΠΈ ΠΊΠ°ΠΊΠΎ ΠΈΡ Π½Π°ΡΠ±ΠΎΡΠ΅ ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΎΠ²Π°ΡΠΈ.
Π£ ΠΎΠ²ΠΎΠΌ ΡΠ»Π°Π½ΠΊΡ ΡΠ΅ΠΌΠΎ ΠΏΠΎΠ³Π»Π΅Π΄Π°ΡΠΈ ΠΎΠ±Π° ΠΏΠ°ΠΊΠ΅ΡΠ° Π·Π° ΡΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°:
Π£ΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΏΠ°ΠΊΠ΅Ρ Π : Π²ΡΠΎΠΎΠΌ
# install.packages("vroom")
library(vroom)
# Π§ΡΠ΅Π½ΠΈΠ΅ Π΄Π°Π½Π½ΡΡ
## vroom
ga_nov <- vroom("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_nowember.csv")
ga_dec <- vroom("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_december.csv")
titanic <- vroom("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/titanic.csv")
Π£ΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π : ΡΠ΅Π°Π΄Ρ
# install.packages("readr")
library(readr)
# Π§ΡΠ΅Π½ΠΈΠ΅ Π΄Π°Π½Π½ΡΡ
## readr
ga_nov <- read_tsv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_nowember.csv")
ga_dec <- read_tsv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_december.csv")
titanic <- read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/titanic.csv")
Π£ ΠΏΠ°ΠΊΠ΅ΡΡ vroom
, Π±Π΅Π· ΠΎΠ±Π·ΠΈΡΠ° Π½Π° ΡΡΠ² / ΡΡΠ² ΡΠΎΡΠΌΠ°Ρ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°, ΡΡΠΈΡΠ°Π²Π°ΡΠ΅ ΡΠ΅ Π²ΡΡΠΈ ΠΏΠΎΠΌΠΎΡΡ ΠΈΡΡΠΎΠΈΠΌΠ΅Π½Π΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ vroom()
, Ρ ΠΏΠ°ΠΊΠ΅ΡΡ readr
ΠΊΠΎΡΠΈΡΡΠΈΠΌΠΎ ΡΠ°Π·Π»ΠΈΡΠΈΡΠ΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ Π·Π° ΡΠ²Π°ΠΊΠΈ ΡΠΎΡΠΌΠ°Ρ read_tsv()
ΠΈ read_csv()
.
Π£ΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π : Π΄Π°ΡΠ°.ΡΠ°Π±Π»Π΅
Π data.table
ΠΏΠΎΡΡΠΎΡΠΈ ΡΡΠ½ΠΊΡΠΈΡΠ° Π·Π° ΡΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° fread()
.
Π£ΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΏΠ°ΠΊΠ΅Ρ Π : Π΄Π°ΡΠ°.ΡΠ°Π±Π»Π΅
# install.packages("data.table")
library(data.table)
## data.table
ga_nov <- fread("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_nowember.csv")
ga_dec <- fread("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/ga_december.csv")
titanic <- fread("https://raw.githubusercontent.com/selesnow/publications/master/data_example/r_python_data/titanic.csv")
Π£ΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π΅
ΠΠΊΠΎ ΡΠΏΠΎΡΠ΅Π΄ΠΈΠΌΠΎ ΡΠ° Π ΠΏΠ°ΠΊΠ΅ΡΠΈΠΌΠ°, ΠΎΠ½Π΄Π° ΡΠ΅ Ρ ΠΎΠ²ΠΎΠΌ ΡΠ»ΡΡΠ°ΡΡ ΡΠΈΠ½ΡΠ°ΠΊΡΠ° Π½Π°ΡΠ±Π»ΠΈΠΆΠ° pandas
Π²ΠΎΡΠ° readr
, ΡΠ΅Ρ pandas
ΠΌΠΎΠΆΠ΅ Π·Π°Ρ
ΡΠ΅Π²Π°ΡΠΈ ΠΏΠΎΠ΄Π°ΡΠΊΠ΅ ΡΠ° Π±ΠΈΠ»ΠΎ ΠΊΠΎΠ³ ΠΌΠ΅ΡΡΠ°, Π° Ρ ΠΎΠ²ΠΎΠΌ ΠΏΠ°ΠΊΠ΅ΡΡ ΠΏΠΎΡΡΠΎΡΠΈ ΡΠΈΡΠ°Π²Π° ΠΏΠΎΡΠΎΠ΄ΠΈΡΠ° ΡΡΠ½ΠΊΡΠΈΡΠ° read_*()
.
read_csv()
read_excel()
read_sql()
read_json()
read_html()
Π ΠΌΠ½ΠΎΠ³Π΅ Π΄ΡΡΠ³Π΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ Π΄ΠΈΠ·Π°ΡΠ½ΠΈΡΠ°Π½Π΅ Π·Π° ΡΠΈΡΠ°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΈΠ· ΡΠ°Π·Π»ΠΈΡΠΈΡΠΈΡ
ΡΠΎΡΠΌΠ°ΡΠ°. ΠΠ»ΠΈ Π·Π° Π½Π°ΡΠ΅ ΠΏΠΎΡΡΠ΅Π±Π΅ ΡΠΎ ΡΠ΅ Π΄ΠΎΠ²ΠΎΡΠ½ΠΎ read_table()
ΠΈΠ»ΠΈ read_csv()
ΠΊΠΎΡΠΈΡΡΠ΅ΡΠΈ Π°ΡΠ³ΡΠΌΠ΅Π½Ρ Π‘Π΅ΠΏ Π΄Π° ΠΎΠ΄ΡΠ΅Π΄ΠΈΡΠ΅ ΡΠ΅ΠΏΠ°ΡΠ°ΡΠΎΡ ΠΊΠΎΠ»ΠΎΠ½Π°.
Π£ΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π΅
import pandas as pd
ga_nov = pd.read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/russian_text_in_r/ga_nowember.csv", sep = "t")
ga_dec = pd.read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/russian_text_in_r/ga_december.csv", sep = "t")
titanic = pd.read_csv("https://raw.githubusercontent.com/selesnow/publications/master/data_example/russian_text_in_r/titanic.csv")
ΠΡΠ΅ΠΈΡΠ°ΡΠ΅ ΠΎΠΊΠ²ΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°
Π‘ΡΠΎ Π’ΠΈΡΠ°Π½ΠΈΡ, ΠΊΠΎΡΠΈ ΡΠΌΠΎ ΡΡΠΈΡΠ°Π»ΠΈ, ΠΏΠΎΡΡΠΎΡΠΈ ΠΏΠΎΡΠ΅ Π‘Π΅ΠΊΡ, ΠΊΠΎΡΠΈ ΡΡΠ²Π° ΠΈΠ΄Π΅Π½ΡΠΈΡΠΈΠΊΠ°ΡΠΎΡ ΠΏΠΎΠ»Π° ΠΏΡΡΠ½ΠΈΠΊΠ°.
ΠΠ»ΠΈ Π·Π° ΠΏΡΠ°ΠΊΡΠΈΡΠ½ΠΈΡΡ ΠΏΡΠ΅Π·Π΅Π½ΡΠ°ΡΠΈΡΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΏΡΠ΅ΠΌΠ° ΠΏΠΎΠ»Ρ ΠΏΡΡΠ½ΠΈΠΊΠ°, ΡΡΠ΅Π±Π°Π»ΠΎ Π±ΠΈ Π΄Π° ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ ΠΈΠΌΠ΅, Π° Π½Π΅ ΡΠΈΡΡΡ ΠΏΠΎΠ»Π°.
ΠΠ° Π±ΠΈΡΠΌΠΎ ΡΠΎ ΡΡΠ°Π΄ΠΈΠ»ΠΈ, Π½Π°ΠΏΡΠ°Π²ΠΈΡΠ΅ΠΌΠΎ ΠΌΠ°Π»ΠΈ Π΄ΠΈΡΠ΅ΠΊΡΠΎΡΠΈΡΡΠΌ, ΡΠ°Π±Π΅Π»Ρ Ρ ΠΊΠΎΡΠΎΡ ΡΠ΅ Π±ΠΈΡΠΈ ΡΠ°ΠΌΠΎ 2 ΠΊΠΎΠ»ΠΎΠ½Π΅ (ΠΊΠΎΠ΄ ΠΈ Π½Π°Π·ΠΈΠ² ΠΏΠΎΠ»Π°) ΠΈ 2 ΡΠ΅Π΄Π°, ΡΠ΅ΡΠΏΠ΅ΠΊΡΠΈΠ²Π½ΠΎ.
ΠΡΠ΅ΠΈΡΠ°ΡΠ΅ ΠΎΠΊΠ²ΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π : ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅, Π΄ΠΏΠ»ΠΈΡ
Π£ ΠΏΡΠΈΠΌΠ΅ΡΡ ΠΊΠΎΠ΄Π° ΠΈΡΠΏΠΎΠ΄, ΠΊΡΠ΅ΠΈΡΠ°ΠΌΠΎ ΠΆΠ΅ΡΠ΅Π½ΠΈ ΠΎΠΊΠ²ΠΈΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΏΠΎΠΌΠΎΡΡ ΡΡΠ½ΠΊΡΠΈΡΠ΅ tibble()
.
ΠΡΠ΅ΠΈΡΠ°ΡΠ΅ ΠΎΠΊΠ²ΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π : Π΄ΠΏΠ»ΠΈΡ
## dplyr
### ΡΠΎΠ·Π΄Π°ΡΠΌ ΡΠΏΡΠ°Π²ΠΎΡΠ½ΠΈΠΊ
gender <- tibble(id = c(1, 2),
gender = c("female", "male"))
ΠΡΠ΅ΠΈΡΠ°ΡΠ΅ ΠΎΠΊΠ²ΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π : Π΄Π°ΡΠ°.ΡΠ°Π±Π»Π΅
ΠΡΠ΅ΠΈΡΠ°ΡΠ΅ ΠΎΠΊΠ²ΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π : Π΄Π°ΡΠ°.ΡΠ°Π±Π»Π΅
## data.table
### ΡΠΎΠ·Π΄Π°ΡΠΌ ΡΠΏΡΠ°Π²ΠΎΡΠ½ΠΈΠΊ
gender <- data.table(id = c(1, 2),
gender = c("female", "male"))
ΠΡΠ΅ΠΈΡΠ°ΡΠ΅ ΠΎΠΊΠ²ΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π°Ρ
Π pandas
ΠΡΠ΅ΠΈΡΠ°ΡΠ΅ ΠΎΠΊΠ²ΠΈΡΠ° ΡΠ΅ ΠΎΠ΄Π²ΠΈΡΠ° Ρ Π½Π΅ΠΊΠΎΠ»ΠΈΠΊΠΎ ΡΠ°Π·Π°, ΠΏΡΠ²ΠΎ ΠΊΡΠ΅ΠΈΡΠ°ΠΌΠΎ ΡΠ΅ΡΠ½ΠΈΠΊ, Π° Π·Π°ΡΠΈΠΌ ΠΊΠΎΠ½Π²Π΅ΡΡΡΡΠ΅ΠΌΠΎ ΡΠ΅ΡΠ½ΠΈΠΊ Ρ ΠΎΠΊΠ²ΠΈΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°.
ΠΡΠ΅ΠΈΡΠ°ΡΠ΅ ΠΎΠΊΠ²ΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π°Ρ
# ΡΠΎΠ·Π΄Π°ΡΠΌ Π΄Π°ΡΠ° ΡΡΠ΅ΠΉΠΌ
gender_dict = {'id': [1, 2],
'gender': ["female", "male"]}
# ΠΏΡΠ΅ΠΎΠ±ΡΠ°Π·ΡΠ΅ΠΌ ΡΠ»ΠΎΠ²Π°ΡΡ Π² Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ
gender = pd.DataFrame.from_dict(gender_dict)
ΠΠ·Π±ΠΎΡ ΠΊΠΎΠ»ΠΎΠ½Π΅
Π’Π°Π±Π΅Π»Π΅ ΡΠ° ΠΊΠΎΡΠΈΠΌΠ° ΡΠ°Π΄ΠΈΡΠ΅ ΠΌΠΎΠ³Ρ Π΄Π° ΡΠ°Π΄ΡΠΆΠ΅ Π΄Π΅ΡΠ΅ΡΠΈΠ½Π΅ ΠΈΠ»ΠΈ ΡΠ°ΠΊ ΡΡΠΎΡΠΈΠ½Π΅ ΠΊΠΎΠ»ΠΎΠ½Π° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°. ΠΠ»ΠΈ Π΄Π° Π±ΠΈΡΡΠ΅ ΠΈΠ·Π²ΡΡΠΈΠ»ΠΈ Π°Π½Π°Π»ΠΈΠ·Ρ, ΠΏΠΎ ΠΏΡΠ°Π²ΠΈΠ»Ρ, Π½ΠΈΡΡ Π²Π°ΠΌ ΠΏΠΎΡΡΠ΅Π±Π½Π΅ ΡΠ²Π΅ ΠΊΠΎΠ»ΠΎΠ½Π΅ ΠΊΠΎΡΠ΅ ΡΡ Π΄ΠΎΡΡΡΠΏΠ½Π΅ Ρ ΠΈΠ·Π²ΠΎΡΠ½ΠΎΡ ΡΠ°Π±Π΅Π»ΠΈ.
Π‘ΡΠΎΠ³Π°, ΡΠ΅Π΄Π½Π° ΠΎΠ΄ ΠΏΡΠ²ΠΈΡ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ° ΠΊΠΎΡΡ ΡΠ΅ΡΠ΅ ΠΈΠ·Π²ΡΡΠΈΡΠΈ ΡΠ° ΠΈΠ·Π²ΠΎΡΠ½ΠΎΠΌ ΡΠ°Π±Π΅Π»ΠΎΠΌ ΡΠ΅ Π΄Π° ΡΠ΅ ΠΎΡΠΈΡΡΠΈΡΠ΅ ΠΎΠ΄ Π½Π΅ΠΏΠΎΡΡΠ΅Π±Π½ΠΈΡ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡΠ° ΠΈ ΠΎΡΠ»ΠΎΠ±ΠΎΠ΄ΠΈΡΠ΅ ΠΌΠ΅ΠΌΠΎΡΠΈΡΡ ΠΊΠΎΡΡ ΠΎΠ²Π΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡΠ΅ Π·Π°ΡΠ·ΠΈΠΌΠ°ΡΡ.
ΠΠ·Π±ΠΎΡ ΠΊΠΎΠ»ΠΎΠ½Π° Ρ Π : ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅, Π΄ΠΏΠ»ΠΈΡ
ΡΠΈΠ½ΡΠ°ΠΊΡΠ° dplyr
ΡΠ΅ Π²Π΅ΠΎΠΌΠ° ΡΠ»ΠΈΡΠ°Π½ Π‘ΠΠ ΡΠ΅Π·ΠΈΠΊΡ ΡΠΏΠΈΡΠ°, Π°ΠΊΠΎ ΡΡΠ΅ ΡΠΏΠΎΠ·Π½Π°ΡΠΈ ΡΠ° ΡΠΈΠΌ, Π±ΡΠ·ΠΎ ΡΠ΅ΡΠ΅ ΡΠ°Π²Π»Π°Π΄Π°ΡΠΈ ΠΎΠ²Π°Ρ ΠΏΠ°ΠΊΠ΅Ρ.
ΠΠ° Π±ΠΈΡΡΠ΅ ΠΈΠ·Π°Π±ΡΠ°Π»ΠΈ ΠΊΠΎΠ»ΠΎΠ½Π΅, ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ ΡΡΠ½ΠΊΡΠΈΡΡ select()
.
ΠΡΠΏΠΎΠ΄ ΡΡ ΠΏΡΠΈΠΌΠ΅ΡΠΈ ΠΊΠΎΠ΄Π° ΠΏΠΎΠΌΠΎΡΡ ΠΊΠΎΡΠΈΡ ΠΌΠΎΠΆΠ΅ΡΠ΅ Π΄Π° ΠΈΠ·Π°Π±Π΅ΡΠ΅ΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½Π΅ Π½Π° ΡΠ»Π΅Π΄Π΅ΡΠ΅ Π½Π°ΡΠΈΠ½Π΅:
- ΠΠ°Π²ΠΎΡΠ΅ΡΠ΅ ΠΈΠΌΠ΅Π½Π° ΠΏΠΎΡΡΠ΅Π±Π½ΠΈΡ ΠΊΠΎΠ»ΠΎΠ½Π°
- ΠΠΎΠ³Π»Π΅Π΄Π°ΡΡΠ΅ Π½Π°Π·ΠΈΠ²Π΅ ΠΊΠΎΠ»ΠΎΠ½Π° ΠΊΠΎΡΠΈΡΡΠ΅ΡΠΈ ΡΠ΅Π³ΡΠ»Π°ΡΠ½Π΅ ΠΈΠ·ΡΠ°Π·Π΅
- ΠΠΎ ΡΠΈΠΏΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΈΠ»ΠΈ Π±ΠΈΠ»ΠΎ ΠΊΠΎΠΌ Π΄ΡΡΠ³ΠΎΠΌ ΡΠ²ΠΎΡΡΡΠ²Ρ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΡΠ°Π΄ΡΠΆΠ°Π½ΠΈΡ Ρ ΠΊΠΎΠ»ΠΎΠ½ΠΈ
ΠΠ·Π±ΠΎΡ ΠΊΠΎΠ»ΠΎΠ½Π° Ρ Π : Π΄ΠΏΠ»ΠΈΡ
# ΠΡΠ±ΠΎΡ Π½ΡΠΆΠ½ΡΡ
ΡΡΠΎΠ»Π±ΡΠΎΠ²
## dplyr
### Π²ΡΠ±ΡΠ°ΡΡ ΠΏΠΎ Π½Π°Π·Π²Π°Π½ΠΈΡ ΡΡΠΎΠ»Π±ΡΠΎΠ²
select(ga_nov, date, source, sessions)
### ΠΈΡΠΊΠ»ΡΡΡ ΠΏΠΎ Π½Π°Π·Π²Π°Π½ΠΈΡ ΡΡΠΎΠ»Π±ΡΠΎΠ²
select(ga_nov, -medium, -bounces)
### Π²ΡΠ±ΡΠ°ΡΡ ΠΏΠΎ ΡΠ΅Π³ΡΠ»ΡΡΠ½ΠΎΠΌΡ Π²ΡΡΠ°ΠΆΠ΅Π½ΠΈΡ, ΡΡΠΎΠ±ΡΡ ΠΈΠΌΠ΅Π½Π° ΠΊΠΎΡΠΎΡΡΡ
Π·Π°ΠΊΠ°Π½ΡΠΈΠ²Π°ΡΡΡΡ Π½Π° s
select(ga_nov, matches("s$"))
### Π²ΡΠ±ΡΠ°ΡΡ ΠΏΠΎ ΡΡΠ»ΠΎΠ²ΠΈΡ, Π²ΡΠ±ΠΈΡΠ°Π΅ΠΌ ΡΠΎΠ»ΡΠΊΠΎ ΡΠ΅Π»ΠΎΡΠΈΡΠ»Π΅Π½Π½ΡΠ΅ ΡΡΠΎΠ»Π±ΡΡ
select_if(ga_nov, is.integer)
ΠΠ·Π±ΠΎΡ ΠΊΠΎΠ»ΠΎΠ½Π° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
ΠΡΡΠ΅ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ΅ Ρ data.table
ΡΠ΅ ΠΈΠ·Π²ΠΎΠ΄Π΅ ΠΌΠ°Π»ΠΎ Π΄ΡΡΠ³Π°ΡΠΈΡΠ΅, Π½Π° ΠΏΠΎΡΠ΅ΡΠΊΡ ΡΠ»Π°Π½ΠΊΠ° ΡΠ°ΠΌ Π΄Π°ΠΎ ΠΎΠΏΠΈΡ ΠΊΠΎΡΠΈ ΡΡ Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠΈ Ρ ΡΠ³Π»Π°ΡΡΠΈΠΌ Π·Π°Π³ΡΠ°Π΄Π°ΠΌΠ° data.table
.
DT[i,j,by]
ΠΠ΄Π΅ ΡΠ΅:
ΡΠ° - Π³Π΄Π΅, ΡΡ. ΡΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΠΏΠΎ ΡΠ΅Π΄ΠΎΠ²ΠΈΠΌΠ°
Ρ - ΠΈΠ·Π°Π±Π΅ΡΠΈΡΠ΅|Π°ΠΆΡΡΠΈΡΠ°Ρ|ΡΡΠ°Π΄ΠΈ, ΡΡ. Π±ΠΈΡΠ°ΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½Π° ΠΈ ΡΠΈΡ
ΠΎΠ²ΠΎ ΠΏΡΠ΅ΡΠ²Π°ΡΠ°ΡΠ΅
ΠΏΠΎ - Π³ΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°
ΠΠ·Π±ΠΎΡ ΠΊΠΎΠ»ΠΎΠ½Π° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
## data.table
### Π²ΡΠ±ΡΠ°ΡΡ ΠΏΠΎ Π½Π°Π·Π²Π°Π½ΠΈΡ ΡΡΠΎΠ»Π±ΡΠΎΠ²
ga_nov[ , .(date, source, sessions) ]
### ΠΈΡΠΊΠ»ΡΡΡ ΠΏΠΎ Π½Π°Π·Π²Π°Π½ΠΈΡ ΡΡΠΎΠ»Π±ΡΠΎΠ²
ga_nov[ , .SD, .SDcols = ! names(ga_nov) %like% "medium|bounces" ]
### Π²ΡΠ±ΡΠ°ΡΡ ΠΏΠΎ ΡΠ΅Π³ΡΠ»ΡΡΠ½ΠΎΠΌΡ Π²ΡΡΠ°ΠΆΠ΅Π½ΠΈΡ
ga_nov[, .SD, .SDcols = patterns("s$")]
ΠΠ°ΡΠΈΠ°Π±Π»Π΅ .SD
ΠΎΠΌΠΎΠ³ΡΡΠ°Π²Π° Π²Π°ΠΌ ΠΏΡΠΈΡΡΡΠΏ ΡΠ²ΠΈΠΌ ΠΊΠΎΠ»ΠΎΠ½Π°ΠΌΠ°, ΠΈ .SDcols
ΡΠΈΠ»ΡΡΠΈΡΠ°ΡΡΠ΅ ΠΏΠΎΡΡΠ΅Π±Π½Π΅ ΠΊΠΎΠ»ΠΎΠ½Π΅ ΠΊΠΎΡΠΈΡΡΠ΅ΡΠΈ ΡΠ΅Π³ΡΠ»Π°ΡΠ½Π΅ ΠΈΠ·ΡΠ°Π·Π΅ ΠΈΠ»ΠΈ Π΄ΡΡΠ³Π΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ Π΄Π° Π±ΠΈΡΡΠ΅ ΡΠΈΠ»ΡΡΠΈΡΠ°Π»ΠΈ Π½Π°Π·ΠΈΠ²Π΅ ΠΊΠΎΠ»ΠΎΠ½Π° ΠΊΠΎΡΠ΅ ΡΡ Π²Π°ΠΌ ΠΏΠΎΡΡΠ΅Π±Π½Π΅.
ΠΠ΄Π°Π±ΠΈΡ ΠΊΠΎΠ»ΠΎΠ½Π° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ, ΠΏΠ°Π½Π΄Π΅
ΠΠ° Π±ΠΈΡΡΠ΅ ΠΈΠ·Π°Π±ΡΠ°Π»ΠΈ ΠΊΠΎΠ»ΠΎΠ½Π΅ ΠΏΠΎ ΠΈΠΌΠ΅Π½Ρ Ρ pandas
Π΄ΠΎΠ²ΠΎΡΠ½ΠΎ ΡΠ΅ Π½Π°Π²Π΅ΡΡΠΈ ΡΠΏΠΈΡΠ°ΠΊ ΡΠΈΡ
ΠΎΠ²ΠΈΡ
ΠΈΠΌΠ΅Π½Π°. Π Π΄Π° Π±ΠΈΡΡΠ΅ ΠΈΠ·Π°Π±ΡΠ°Π»ΠΈ ΠΈΠ»ΠΈ ΠΈΡΠΊΡΡΡΠΈΠ»ΠΈ ΠΊΠΎΠ»ΠΎΠ½Π΅ ΠΏΠΎ ΠΈΠΌΠ΅Π½Ρ ΠΏΠΎΠΌΠΎΡΡ ΡΠ΅Π³ΡΠ»Π°ΡΠ½ΠΈΡ
ΠΈΠ·ΡΠ°Π·Π°, ΠΏΠΎΡΡΠ΅Π±Π½ΠΎ ΡΠ΅ Π΄Π° ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ drop()
ΠΈ filter()
, ΠΈ Π°ΡΠ³ΡΠΌΠ΅Π½Ρ Π°ΠΊΠΈΡ=1, ΡΠΈΠΌΠ΅ ΡΠΊΠ°Π·ΡΡΠ΅ΡΠ΅ Π΄Π° ΡΠ΅ ΠΏΠΎΡΡΠ΅Π±Π½ΠΎ ΠΎΠ±ΡΠ°Π΄ΠΈΡΠΈ ΠΊΠΎΠ»ΠΎΠ½Π΅, Π° Π½Π΅ ΡΠ΅Π΄ΠΎΠ²Π΅.
ΠΠ° Π±ΠΈΡΡΠ΅ ΠΈΠ·Π°Π±ΡΠ°Π»ΠΈ ΠΏΠΎΡΠ΅ ΠΏΡΠ΅ΠΌΠ° ΡΠΈΠΏΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°, ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ ΡΡΠ½ΠΊΡΠΈΡΡ select_dtypes()
, ΠΈ Ρ Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠ΅ ΠΎΠ±ΡΡ
Π²Π°ΡΠΈΡΠΈ ΠΈΠ»ΠΈ ΠΈΡΠΊΡΡΡΠΈΡΠΈ ΠΏΡΠΎΡΠ»Π΅Π΄ΠΈΡΠ΅ Π»ΠΈΡΡΡ ΡΠΈΠΏΠΎΠ²Π° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΊΠΎΡΠΈ ΠΎΠ΄Π³ΠΎΠ²Π°ΡΠ°ΡΡ ΠΏΠΎΡΠΈΠΌΠ° ΠΊΠΎΡΠ° ΡΡΠ΅Π±Π° Π΄Π° ΠΈΠ·Π°Π±Π΅ΡΠ΅ΡΠ΅.
ΠΠ·Π±ΠΎΡ ΠΊΠΎΠ»ΠΎΠ½Π° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π°Ρ
# ΠΡΠ±ΠΎΡ ΠΏΠΎΠ»Π΅ΠΉ ΠΏΠΎ Π½Π°Π·Π²Π°Π½ΠΈΡ
ga_nov[['date', 'source', 'sessions']]
# ΠΡΠΊΠ»ΡΡΠΈΡΡ ΠΏΠΎ Π½Π°Π·Π²Π°Π½ΠΈΡ
ga_nov.drop(['medium', 'bounces'], axis=1)
# ΠΡΠ±ΡΠ°ΡΡ ΠΏΠΎ ΡΠ΅Π³ΡΠ»ΡΡΠ½ΠΎΠΌΡ Π²ΡΡΠ°ΠΆΠ΅Π½ΠΈΡ
ga_nov.filter(regex="s$", axis=1)
# ΠΡΠ±ΡΠ°ΡΡ ΡΠΈΡΠ»ΠΎΠ²ΡΠ΅ ΠΏΠΎΠ»Ρ
ga_nov.select_dtypes(include=['number'])
# ΠΡΠ±ΡΠ°ΡΡ ΡΠ΅ΠΊΡΡΠΎΠ²ΡΠ΅ ΠΏΠΎΠ»Ρ
ga_nov.select_dtypes(include=['object'])
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ΅Π΄ΠΎΠ²Π°
ΠΠ° ΠΏΡΠΈΠΌΠ΅Ρ, ΠΈΠ·Π²ΠΎΡΠ½Π° ΡΠ°Π±Π΅Π»Π° ΠΌΠΎΠΆΠ΅ Π΄Π° ΡΠ°Π΄ΡΠΆΠΈ ΠΏΠΎΠ΄Π°ΡΠΊΠ΅ Π·Π° Π½Π΅ΠΊΠΎΠ»ΠΈΠΊΠΎ Π³ΠΎΠ΄ΠΈΠ½Π°, Π°Π»ΠΈ ΡΡΠ΅Π±Π° Π΄Π° Π°Π½Π°Π»ΠΈΠ·ΠΈΡΠ°ΡΠ΅ ΡΠ°ΠΌΠΎ ΠΏΡΠΎΡΠ»ΠΈ ΠΌΠ΅ΡΠ΅Ρ. ΠΠΏΠ΅Ρ, Π΄ΠΎΠ΄Π°ΡΠ½Π΅ Π»ΠΈΠ½ΠΈΡΠ΅ ΡΠ΅ ΡΡΠΏΠΎΡΠΈΡΠΈ ΠΏΡΠΎΡΠ΅Ρ ΠΎΠ±ΡΠ°Π΄Π΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΈ Π·Π°ΡΠ΅ΠΏΠΈΡΠΈ ΠΌΠ΅ΠΌΠΎΡΠΈΡΡ ΡΠ°ΡΡΠ½Π°ΡΠ°.
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ΅Π΄ΠΎΠ²Π° Ρ Π : ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅, Π΄ΠΏΠ»ΠΈΡ
Π dplyr
ΡΡΠ½ΠΊΡΠΈΡΠ° ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈ Π·Π° ΡΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ΅Π΄ΠΎΠ²Π° filter()
. Π£Π·ΠΈΠΌΠ° ΠΎΠΊΠ²ΠΈΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΊΠ°ΠΎ ΠΏΡΠ²ΠΈ Π°ΡΠ³ΡΠΌΠ΅Π½Ρ, Π° Π·Π°ΡΠΈΠΌ Π½Π°Π²ΠΎΠ΄ΠΈΡΠ΅ ΡΡΠ»ΠΎΠ²Π΅ ΡΠΈΠ»ΡΡΠΈΡΠ°ΡΠ°.
ΠΠ°Π΄Π° ΠΏΠΈΡΠ΅ΡΠ΅ Π»ΠΎΠ³ΠΈΡΠΊΠ΅ ΠΈΠ·ΡΠ°Π·Π΅ Π·Π° ΡΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π΅, Ρ ΠΎΠ²ΠΎΠΌ ΡΠ»ΡΡΠ°ΡΡ Π½Π°Π²Π΅Π΄ΠΈΡΠ΅ ΠΈΠΌΠ΅Π½Π° ΠΊΠΎΠ»ΠΎΠ½Π° Π±Π΅Π· Π½Π°Π²ΠΎΠ΄Π½ΠΈΠΊΠ° ΠΈ Π±Π΅Π· Π΄Π΅ΠΊΠ»Π°ΡΠΈΡΠ°ΡΠ° ΠΈΠΌΠ΅Π½Π° ΡΠ°Π±Π΅Π»Π΅.
ΠΠ°Π΄Π° ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ Π²ΠΈΡΠ΅ Π»ΠΎΠ³ΠΈΡΠΊΠΈΡ ΠΈΠ·ΡΠ°Π·Π° Π·Π° ΡΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅, ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ ΡΠ»Π΅Π΄Π΅ΡΠ΅ ΠΎΠΏΠ΅ΡΠ°ΡΠΎΡΠ΅:
- & ΠΈΠ»ΠΈ Π·Π°ΡΠ΅Π· - Π»ΠΎΠ³ΠΈΡΠΊΠΎ Π
- | - Π»ΠΎΠ³ΠΈΡΠΊΠΎ ΠΠΠ
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ΅Π΄ΠΎΠ²Π° Ρ Π : Π΄ΠΏΠ»ΠΈΡ
# ΡΠΈΠ»ΡΡΡΠ°ΡΠΈΡ ΡΡΡΠΎΠΊ
## dplyr
### ΡΠΈΠ»ΡΡΡΠ°ΡΠΈΡ ΡΡΡΠΎΠΊ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡ ΡΡΠ»ΠΎΠ²ΠΈΡ
filter(ga_nov, source == "google")
### ΡΠΈΠ»ΡΡΡ ΠΏΠΎ Π΄Π²ΡΠΌ ΡΡΠ»ΠΎΠ²ΠΈΡΠΌ ΡΠΎΠ΅Π΄ΠΈΠ½ΡΠ½Π½ΡΠΌ Π»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΠΌ ΠΈ
filter(ga_nov, source == "google" & sessions >= 10)
### ΡΠΈΠ»ΡΡΡ ΠΏΠΎ Π΄Π²ΡΠΌ ΡΡΠ»ΠΎΠ²ΠΈΡΠΌ ΡΠΎΠ΅Π΄ΠΈΠ½ΡΠ½Π½ΡΠΌ Π»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΠΌ ΠΈΠ»ΠΈ
filter(ga_nov, source == "google" | sessions >= 10)
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ΅Π΄ΠΎΠ²Π° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
ΠΠ°ΠΎ ΡΡΠΎ ΡΠ°ΠΌ Π²Π΅Ρ Π½Π°ΠΏΠΈΡΠ°ΠΎ Π³ΠΎΡΠ΅, Ρ data.table
ΡΠΈΠ½ΡΠ°ΠΊΡΠ° ΠΊΠΎΠ½Π²Π΅ΡΠ·ΠΈΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΡΠ΅ Π·Π°ΡΠ²ΠΎΡΠ΅Π½Π° Ρ ΡΠ³Π»Π°ΡΡΠΈΠΌ Π·Π°Π³ΡΠ°Π΄Π°ΠΌΠ°.
DT[i,j,by]
ΠΠ΄Π΅ ΡΠ΅:
ΡΠ° - Π³Π΄Π΅, ΡΡ. ΡΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΠΏΠΎ ΡΠ΅Π΄ΠΎΠ²ΠΈΠΌΠ°
Ρ - ΠΈΠ·Π°Π±Π΅ΡΠΈΡΠ΅|Π°ΠΆΡΡΠΈΡΠ°Ρ|ΡΡΠ°Π΄ΠΈ, ΡΡ. Π±ΠΈΡΠ°ΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½Π° ΠΈ ΡΠΈΡ
ΠΎΠ²ΠΎ ΠΏΡΠ΅ΡΠ²Π°ΡΠ°ΡΠ΅
ΠΏΠΎ - Π³ΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°
ΠΡΠ³ΡΠΌΠ΅Π½Ρ ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈ Π·Π° ΡΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ΅Π΄ΠΎΠ²Π° i, ΠΊΠΎΡΠΈ ΠΈΠΌΠ° ΠΏΡΠ²Ρ ΠΏΠΎΠ·ΠΈΡΠΈΡΡ Ρ ΡΠ³Π»Π°ΡΡΠΈΠΌ Π·Π°Π³ΡΠ°Π΄Π°ΠΌΠ°.
Π‘ΡΡΠΏΡΠΈΠΌΠ° ΡΠ΅ ΠΏΡΠΈΡΡΡΠΏΠ° Ρ Π»ΠΎΠ³ΠΈΡΠΊΠΈΠΌ ΠΈΠ·ΡΠ°Π·ΠΈΠΌΠ° Π±Π΅Π· Π½Π°Π²ΠΎΠ΄Π½ΠΈΠΊΠ° ΠΈ Π±Π΅Π· Π½Π°Π²ΠΎΡΠ΅ΡΠ° ΠΈΠΌΠ΅Π½Π° ΡΠ°Π±Π΅Π»Π΅.
ΠΠΎΠ³ΠΈΡΠΊΠΈ ΠΈΠ·ΡΠ°Π·ΠΈ ΡΡ ΠΌΠ΅ΡΡΡΠΎΠ±Π½ΠΎ ΠΏΠΎΠ²Π΅Π·Π°Π½ΠΈ Π½Π° ΠΈΡΡΠΈ Π½Π°ΡΠΈΠ½ ΠΊΠ°ΠΎ Ρ dplyr
ΠΏΡΠ΅ΠΊΠΎ & ΠΈ | ΠΎΠΏΠ΅ΡΠ°ΡΠΎΡΠ°.
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ΅Π΄ΠΎΠ²Π° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
## data.table
### ΡΠΈΠ»ΡΡΡΠ°ΡΠΈΡ ΡΡΡΠΎΠΊ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡ ΡΡΠ»ΠΎΠ²ΠΈΡ
ga_nov[source == "google"]
### ΡΠΈΠ»ΡΡΡ ΠΏΠΎ Π΄Π²ΡΠΌ ΡΡΠ»ΠΎΠ²ΠΈΡΠΌ ΡΠΎΠ΅Π΄ΠΈΠ½ΡΠ½Π½ΡΠΌ Π»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΠΌ ΠΈ
ga_nov[source == "google" & sessions >= 10]
### ΡΠΈΠ»ΡΡΡ ΠΏΠΎ Π΄Π²ΡΠΌ ΡΡΠ»ΠΎΠ²ΠΈΡΠΌ ΡΠΎΠ΅Π΄ΠΈΠ½ΡΠ½Π½ΡΠΌ Π»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΠΌ ΠΈΠ»ΠΈ
ga_nov[source == "google" | sessions >= 10]
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΡΡΠΈΠ½Π³ΠΎΠ²Π° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π°Ρ
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΡΠ΅ ΠΏΠΎ ΡΠ΅Π΄ΠΎΠ²ΠΈΠΌΠ° Ρ pandas
ΡΠ»ΠΈΡΠ½ΠΎ ΡΠΈΠ»ΡΡΠΈΡΠ°ΡΡ Ρ data.table
, Π° ΡΠ°Π΄ΠΈ ΡΠ΅ Ρ ΡΠ³Π»Π°ΡΡΠΈΠΌ Π·Π°Π³ΡΠ°Π΄Π°ΠΌΠ°.
Π£ ΠΎΠ²ΠΎΠΌ ΡΠ»ΡΡΠ°ΡΡ, ΠΏΡΠΈΡΡΡΠΏ ΠΊΠΎΠ»ΠΎΠ½Π°ΠΌΠ° ΡΠ΅ Π²ΡΡΠΈ ΠΎΠ±Π°Π²Π΅Π·Π½ΠΎ Π½Π°Π²ΠΎΡΠ΅ΡΠ΅ΠΌ Π½Π°Π·ΠΈΠ²Π° ΠΎΠΊΠ²ΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°; ΡΠ°Π΄Π° ΡΠ΅ Π½Π°Π·ΠΈΠ² ΠΊΠΎΠ»ΠΎΠ½Π΅ ΠΌΠΎΠΆΠ΅ Π½Π°Π²Π΅ΡΡΠΈ ΠΈ ΠΏΠΎΠ΄ Π½Π°Π²ΠΎΠ΄Π½ΠΈΡΠΈΠΌΠ° Ρ ΡΠ³Π»Π°ΡΡΠΈΠΌ Π·Π°Π³ΡΠ°Π΄Π°ΠΌΠ° (ΠΏΡΠΈΠΌΠ΅Ρ df['col_name']
), ΠΈΠ»ΠΈ Π±Π΅Π· Π½Π°Π²ΠΎΠ΄Π½ΠΈΠΊΠ° ΠΏΠΎΡΠ»Π΅ ΡΠ°ΡΠΊΠ΅ (ΠΏΡΠΈΠΌΠ΅Ρ df.col_name
).
ΠΠΊΠΎ ΡΡΠ΅Π±Π° Π΄Π° ΡΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΠΎΠΊΠ²ΠΈΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΏΡΠ΅ΠΌΠ° Π½Π΅ΠΊΠΎΠ»ΠΈΠΊΠΎ ΡΡΠ»ΠΎΠ²Π°, ΡΠ²Π°ΠΊΠΈ ΡΡΠ»ΠΎΠ² ΠΌΠΎΡΠ° Π±ΠΈΡΠΈ ΡΡΠ°Π²ΡΠ΅Π½ Ρ Π·Π°Π³ΡΠ°Π΄Π΅. ΠΠΎΠ³ΠΈΡΠΊΠΈ ΡΡΠ»ΠΎΠ²ΠΈ ΡΡ ΠΌΠ΅ΡΡΡΠΎΠ±Π½ΠΎ ΠΏΠΎΠ²Π΅Π·Π°Π½ΠΈ ΠΎΠΏΠ΅ΡΠ°ΡΠΎΡΠΈΠΌΠ° &
ΠΈ |
.
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΡΡΠΈΠ½Π³ΠΎΠ²Π° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π°Ρ
# Π€ΠΈΠ»ΡΡΡΠ°ΡΠΈΡ ΡΡΡΠΎΠΊ ΡΠ°Π±Π»ΠΈΡΡ
### ΡΠΈΠ»ΡΡΡΠ°ΡΠΈΡ ΡΡΡΠΎΠΊ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡ ΡΡΠ»ΠΎΠ²ΠΈΡ
ga_nov[ ga_nov['source'] == "google" ]
### ΡΠΈΠ»ΡΡΡ ΠΏΠΎ Π΄Π²ΡΠΌ ΡΡΠ»ΠΎΠ²ΠΈΡΠΌ ΡΠΎΠ΅Π΄ΠΈΠ½ΡΠ½Π½ΡΠΌ Π»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΠΌ ΠΈ
ga_nov[(ga_nov['source'] == "google") & (ga_nov['sessions'] >= 10)]
### ΡΠΈΠ»ΡΡΡ ΠΏΠΎ Π΄Π²ΡΠΌ ΡΡΠ»ΠΎΠ²ΠΈΡΠΌ ΡΠΎΠ΅Π΄ΠΈΠ½ΡΠ½Π½ΡΠΌ Π»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΠΌ ΠΈΠ»ΠΈ
ga_nov[(ga_nov['source'] == "google") | (ga_nov['sessions'] >= 10)]
ΠΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°
ΠΠ΅Π΄Π½Π° ΠΎΠ΄ Π½Π°ΡΡΠ΅ΡΡΠ΅ ΠΊΠΎΡΠΈΡΡΠ΅Π½ΠΈΡ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ° Ρ Π°Π½Π°Π»ΠΈΠ·ΠΈ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΡΠ΅ Π³ΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ°.
Π‘ΠΈΠ½ΡΠ°ΠΊΡΠ° Π·Π° ΠΈΠ·Π²ΠΎΡΠ΅ΡΠ΅ ΠΎΠ²ΠΈΡ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ° ΡΠ΅ ΡΠ°Π·Π±Π°ΡΠ°Π½Π° ΠΏΠΎ ΡΠ²ΠΈΠΌ ΠΏΠ°ΠΊΠ΅ΡΠΈΠΌΠ° ΠΊΠΎΡΠ΅ ΠΏΡΠ΅Π³Π»Π΅Π΄Π°ΠΌΠΎ.
Π£ ΠΎΠ²ΠΎΠΌ ΡΠ»ΡΡΠ°ΡΡ, ΡΠ·Π΅ΡΠ΅ΠΌΠΎ ΠΎΠΊΠ²ΠΈΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΊΠ°ΠΎ ΠΏΡΠΈΠΌΠ΅Ρ Π’ΠΈΡΠ°Π½ΠΈΡ, ΠΈ ΠΈΠ·ΡΠ°ΡΡΠ½Π°ΡΠΈ Π±ΡΠΎΡ ΠΈ ΠΏΡΠΎΡΠ΅ΡΠ½Ρ ΡΠ΅Π½Ρ ΠΊΠ°ΡΠ°ΡΠ° Ρ Π·Π°Π²ΠΈΡΠ½ΠΎΡΡΠΈ ΠΎΠ΄ ΠΊΠ»Π°ΡΠ΅ ΠΊΠ°Π±ΠΈΠ½Π΅.
ΠΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π : ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅, Π΄ΠΏΠ»ΠΈΡ
Π dplyr
ΡΡΠ½ΠΊΡΠΈΡΠ° ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈ Π·Π° Π³ΡΡΠΏΠΈΡΠ°ΡΠ΅ group_by()
, ΠΈ Π·Π° Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΡ summarise()
. ΠΠ°ΠΏΡΠ°Π²ΠΎ, dplyr
ΠΏΠΎΡΡΠΎΡΠΈ ΡΠΈΡΠ°Π²Π° ΠΏΠΎΡΠΎΠ΄ΠΈΡΠ° ΡΡΠ½ΠΊΡΠΈΡΠ° summarise_*()
, Π°Π»ΠΈ ΡΠ²ΡΡ
Π° ΠΎΠ²ΠΎΠ³ ΡΠ»Π°Π½ΠΊΠ° ΡΠ΅ Π΄Π° ΡΠΏΠΎΡΠ΅Π΄ΠΈ ΠΎΡΠ½ΠΎΠ²Π½Ρ ΡΠΈΠ½ΡΠ°ΠΊΡΡ, ΡΠ°ΠΊΠΎ Π΄Π° Π½Π΅ΡΠ΅ΠΌΠΎ ΡΠ»Π°Π·ΠΈΡΠΈ Ρ ΡΠ°ΠΊΠ²Ρ ΡΡΠ½Π³Π»Ρ.
ΠΡΠ½ΠΎΠ²Π½Π΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ΅:
sum()
β ΡΡΠΌΠΈΡΠ°ΡΠ΅min()
/max()
β ΠΌΠΈΠ½ΠΈΠΌΠ°Π»Π½Π° ΠΈ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»Π½Π° Π²ΡΠ΅Π΄Π½ΠΎΡΡmean()
- ΠΏΡΠΎΡΠ΅ΠΊmedian()
β ΠΌΠ΅Π΄ΠΈΡΠ°Π½Π°length()
- ΠΊΠΎΠ»ΠΈΡΠΈΠ½Π°
ΠΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ° Ρ Π : Π΄ΠΏΠ»ΠΈΡ
## dplyr
### Π³ΡΡΠΏΠΏΠΈΡΠΎΠ²ΠΊΠ° ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡ ΡΡΡΠΎΠΊ
group_by(titanic, Pclass) %>%
summarise(passangers = length(PassengerId),
avg_price = mean(Fare))
Π£ ΡΡΠ½ΠΊΡΠΈΡΠΈ group_by()
ΠΏΡΠΎΡΠ»Π΅Π΄ΠΈΠ»ΠΈ ΡΠΌΠΎ ΡΠ°Π±Π΅Π»Ρ ΠΊΠ°ΠΎ ΠΏΡΠ²ΠΈ Π°ΡΠ³ΡΠΌΠ΅Π½Ρ Π’ΠΈΡΠ°Π½ΠΈΡ, Π° Π·Π°ΡΠΈΠΌ ΠΎΠ·Π½Π°ΡΠΈΠΎ ΠΏΠΎΡΠ΅ ΠΡΠ»Π°ΡΡ, ΠΏΠΎ ΠΊΠΎΡΠΈΠΌΠ° ΡΠ΅ΠΌΠΎ Π³ΡΡΠΏΠΈΡΠ°ΡΠΈ Π½Π°ΡΡ ΡΠ°Π±Π΅Π»Ρ. Π Π΅Π·ΡΠ»ΡΠ°Ρ ΠΎΠ²Π΅ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ΅ ΠΏΠΎΠΌΠΎΡΡ ΠΎΠΏΠ΅ΡΠ°ΡΠΎΡΠ° %>%
ΠΏΡΠΎΡΠ»Π΅ΡΠ΅Π½ ΠΊΠ°ΠΎ ΠΏΡΠ²ΠΈ Π°ΡΠ³ΡΠΌΠ΅Π½Ρ ΡΡΠ½ΠΊΡΠΈΡΠΈ summarise()
, ΠΈ Π΄ΠΎΠ΄Π°ΠΎ ΡΠΎΡ 2 ΠΏΠΎΡΠ°: ΠΏΡΡΠ½ΠΈΡΠΈΠΌΠ° ΠΈ Π°Π²Π³_ΠΏΡΠΈΡΠ΅. Π£ ΠΏΡΠ²ΠΎΠΌ, ΠΊΠΎΡΠΈΡΡΠ΅ΡΠΈ ΡΡΠ½ΠΊΡΠΈΡΡ length()
ΠΈΠ·ΡΠ°ΡΡΠ½Π°ΠΎ Π±ΡΠΎΡ ΠΊΠ°ΡΠ°ΡΠ°, Π° Ρ Π΄ΡΡΠ³ΠΎΠΌ ΠΊΠΎΡΠΈΡΡΠ΅ΡΠΈ ΡΡΠ½ΠΊΡΠΈΡΡ mean()
Π΄ΠΎΠ±ΠΈΠΎ ΠΏΡΠΎΡΠ΅ΡΠ½Ρ ΡΠ΅Π½Ρ ΠΊΠ°ΡΡΠ΅.
ΠΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π°Π³ΡΠ΅Π³ΠΈΡΠ°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
Π data.table
Π°ΡΠ³ΡΠΌΠ΅Π½Ρ ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈ Π·Π° Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΡ j
ΠΊΠΎΡΠΈ ΠΈΠΌΠ° Π΄ΡΡΠ³Ρ ΠΏΠΎΠ·ΠΈΡΠΈΡΡ Ρ ΡΠ³Π»Π°ΡΡΠΈΠΌ Π·Π°Π³ΡΠ°Π΄Π°ΠΌΠ°, Π° Π·Π° Π³ΡΡΠΏΠΈΡΠ°ΡΠ΅ by
ΠΈΠ»ΠΈ keyby
, ΠΊΠΎΡΠΈ ΠΈΠΌΠ°ΡΡ ΡΡΠ΅ΡΡ ΠΏΠΎΠ·ΠΈΡΠΈΡΡ.
ΠΠΈΡΡΠ° ΡΡΠ½ΠΊΡΠΈΡΠ° Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ΅ Ρ ΠΎΠ²ΠΎΠΌ ΡΠ»ΡΡΠ°ΡΡ ΡΠ΅ ΠΈΠ΄Π΅Π½ΡΠΈΡΠ½Π° ΠΎΠ½ΠΎΡ ΠΎΠΏΠΈΡΠ°Π½ΠΎΡ Ρ dplyr
, ΡΠ΅Ρ ΡΠΎ ΡΡ ΡΡΠ½ΠΊΡΠΈΡΠ΅ ΠΈΠ· ΠΎΡΠ½ΠΎΠ²Π½Π΅ Π ΡΠΈΠ½ΡΠ°ΠΊΡΠ΅.
ΠΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
## data.table
### ΡΠΈΠ»ΡΡΡΠ°ΡΠΈΡ ΡΡΡΠΎΠΊ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡ ΡΡΠ»ΠΎΠ²ΠΈΡ
titanic[, .(passangers = length(PassengerId),
avg_price = mean(Fare)),
by = Pclass]
ΠΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π΅
ΠΡΡΠΏΠΈΡΠ°ΡΠ΅ Ρ pandas
ΡΠ»ΠΈΡΠ½ΠΎ dplyr
, Π°Π»ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ° Π½ΠΈΡΠ΅ ΡΠ»ΠΈΡΠ½Π° dplyr
Π½ΠΈΡΠ΅ Π½Π° data.table
.
ΠΠ° Π³ΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ ΠΌΠ΅ΡΠΎΠ΄ groupby()
, Ρ ΠΊΠΎΡΠΈ ΡΡΠ΅Π±Π° Π΄Π° ΠΏΡΠΎΡΠ»Π΅Π΄ΠΈΡΠ΅ Π»ΠΈΡΡΡ ΠΊΠΎΠ»ΠΎΠ½Π° ΠΏΠΎ ΠΊΠΎΡΠΈΠΌΠ° ΡΠ΅ ΠΎΠΊΠ²ΠΈΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Π±ΠΈΡΠΈ Π³ΡΡΠΏΠΈΡΠ°Π½.
ΠΠ° Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΡ ΠΌΠΎΠΆΠ΅ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈΡΠΈ ΠΌΠ΅ΡΠΎΠ΄ agg()
ΠΊΠΎΡΠΈ ΠΏΡΠΈΡ
Π²Π°ΡΠ° ΡΠ΅ΡΠ½ΠΈΠΊ. ΠΡΡΡΠ΅Π²ΠΈ ΡΠ΅ΡΠ½ΠΈΠΊΠ° ΡΡ ΠΊΠΎΠ»ΠΎΠ½Π΅ Π½Π° ΠΊΠΎΡΠ΅ ΡΠ΅ΡΠ΅ ΠΏΡΠΈΠΌΠ΅Π½ΠΈΡΠΈ ΡΡΠ½ΠΊΡΠΈΡΠ΅ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ΅, Π° Π²ΡΠ΅Π΄Π½ΠΎΡΡΠΈ ΡΡ Π½Π°Π·ΠΈΠ²ΠΈ ΡΡΠ½ΠΊΡΠΈΡΠ° Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ΅.
Π€ΡΠ½ΠΊΡΠΈΡΠ΅ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ΅:
sum()
β ΡΡΠΌΠΈΡΠ°ΡΠ΅min()
/max()
β ΠΌΠΈΠ½ΠΈΠΌΠ°Π»Π½Π° ΠΈ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»Π½Π° Π²ΡΠ΅Π΄Π½ΠΎΡΡmean()
- ΠΏΡΠΎΡΠ΅ΠΊmedian()
β ΠΌΠ΅Π΄ΠΈΡΠ°Π½Π°count()
- ΠΊΠΎΠ»ΠΈΡΠΈΠ½Π°
Π€ΡΠ½ΠΊΡΠΈΡΠ° reset_index()
Ρ ΠΏΡΠΈΠΌΠ΅ΡΡ ΠΈΡΠΏΠΎΠ΄ ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈ Π·Π° ΡΠ΅ΡΠ΅ΡΠΎΠ²Π°ΡΠ΅ ΡΠ³Π½Π΅ΠΆΡΠ΅Π½ΠΈΡ
ΠΈΠ½Π΄Π΅ΠΊΡΠ° ΠΊΠΎΡΠΈ pandas
ΠΏΠΎΠ΄ΡΠ°Π·ΡΠΌΠ΅Π²Π°Π½ΠΎ Π½Π°ΠΊΠΎΠ½ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°.
ΡΠΈΠΌΠ±ΠΎΠ» ΠΎΠΌΠΎΠ³ΡΡΠ°Π²Π° Π²Π°ΠΌ Π΄Π° ΠΏΡΠ΅ΡΠ΅ΡΠ΅ Π½Π° ΡΠ»Π΅Π΄Π΅ΡΠΈ ΡΠ΅Π΄.
ΠΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π΅
# Π³ΡΡΠΏΠΏΠΈΡΠΎΠ²ΠΊΠ° ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡ Π΄Π°Π½Π½ΡΡ
titanic.groupby(["Pclass"]).
agg({'PassengerId': 'count', 'Fare': 'mean'}).
reset_index()
ΠΠ΅ΡΡΠΈΠΊΠ°Π»Π½ΠΈ ΡΠΏΠΎΡ ΡΠ°Π±Π΅Π»Π°
ΠΠΏΠ΅ΡΠ°ΡΠΈΡΠ° Ρ ΠΊΠΎΡΠΎΡ ΡΠΏΠ°ΡΠ°ΡΠ΅ Π΄Π²Π΅ ΠΈΠ»ΠΈ Π²ΠΈΡΠ΅ ΡΠ°Π±Π΅Π»Π° ΠΈΡΡΠ΅ ΡΡΡΡΠΊΡΡΡΠ΅. ΠΠΎΠ΄Π°ΡΠΈ ΠΊΠΎΡΠ΅ ΡΠΌΠΎ ΡΡΠΈΡΠ°Π»ΠΈ ΡΠ°Π΄ΡΠΆΠ΅ ΡΠ°Π±Π΅Π»Π΅ Π³Π°_Π½ΠΎΠ² ΠΈ Π³Π°_Π΄Π΅Ρ. ΠΠ²Π΅ ΡΠ°Π±Π΅Π»Π΅ ΡΡ ΠΈΠ΄Π΅Π½ΡΠΈΡΠ½Π΅ ΠΏΠΎ ΡΡΡΡΠΊΡΡΡΠΈ, ΡΡ. ΠΈΠΌΠ°ΡΡ ΠΈΡΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½Π΅ ΠΈ ΡΠΈΠΏΠΎΠ²Π΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΎΠ²ΠΈΠΌ ΠΊΠΎΠ»ΠΎΠ½Π°ΠΌΠ°.
ΠΠ²ΠΎ ΡΠ΅ ΠΎΡΠΏΡΠ΅ΠΌΠ°ΡΠ΅ ΠΈΠ· ΠΠΎΠΎΠ³Π»Π΅ Π°Π½Π°Π»ΠΈΡΠΈΠΊΠ΅ Π·Π° ΠΌΠ΅ΡΠ΅Ρ Π½ΠΎΠ²Π΅ΠΌΠ±Π°Ρ ΠΈ Π΄Π΅ΡΠ΅ΠΌΠ±Π°Ρ, Ρ ΠΎΠ²ΠΎΠΌ ΠΎΠ΄Π΅ΡΠΊΡ ΡΠ΅ΠΌΠΎ ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΎΠ²Π°ΡΠΈ ΠΎΠ²Π΅ ΠΏΠΎΠ΄Π°ΡΠΊΠ΅ Ρ ΡΠ΅Π΄Π½Ρ ΡΠ°Π±Π΅Π»Ρ.
ΠΠ΅ΡΡΠΈΠΊΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π° Ρ Π : ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅, Π΄ΠΏΠ»ΠΈΡ
Π dplyr
ΠΠΎΠΌΠΎΡΡ ΡΡΠ½ΠΊΡΠΈΡΠ΅ ΠΌΠΎΠΆΠ΅ΡΠ΅ ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΎΠ²Π°ΡΠΈ 2 ΡΠ°Π±Π΅Π»Π΅ Ρ ΡΠ΅Π΄Π½Ρ bind_rows()
, ΠΏΡΠ΅Π½ΠΎΡΠ΅ΡΠΈ ΡΠ°Π±Π΅Π»Π΅ ΠΊΠ°ΠΎ ΡΠ²ΠΎΡΠ΅ Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠ΅.
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ΅Π΄ΠΎΠ²Π° Ρ Π : Π΄ΠΏΠ»ΠΈΡ
# ΠΠ΅ΡΡΠΈΠΊΠ°Π»ΡΠ½ΠΎΠ΅ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½Π΅Π½ΠΈΠ΅ ΡΠ°Π±Π»ΠΈΡ
## dplyr
bind_rows(ga_nov, ga_dec)
ΠΠ΅ΡΡΠΈΠΊΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
Π’Π°ΠΊΠΎΡΠ΅ Π½ΠΈΡΠ΅ Π½ΠΈΡΡΠ° ΠΊΠΎΠΌΠΏΠ»ΠΈΠΊΠΎΠ²Π°Π½ΠΎ, Ρ
Π°ΡΠ΄Π΅ Π΄Π° ΠΊΠΎΡΠΈΡΡΠΈΠΌΠΎ rbind()
.
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ΅Π΄ΠΎΠ²Π° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
## data.table
rbind(ga_nov, ga_dec)
ΠΠ΅ΡΡΠΈΠΊΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π΅
Π pandas
ΡΡΠ½ΠΊΡΠΈΡΠ° ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈ Π·Π° ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π° concat()
, Ρ ΠΊΠΎΡΠΈ ΡΡΠ΅Π±Π° Π΄Π° ΠΏΡΠΎΡΠ»Π΅Π΄ΠΈΡΠ΅ Π»ΠΈΡΡΡ ΠΎΠΊΠ²ΠΈΡΠ° Π΄Π° Π±ΠΈΡΡΠ΅ ΠΈΡ
ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΎΠ²Π°Π»ΠΈ.
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΡΡΠΈΠ½Π³ΠΎΠ²Π° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π°Ρ
# Π²Π΅ΡΡΠΈΠΊΠ°Π»ΡΠ½ΠΎΠ΅ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½Π΅Π½ΠΈΠ΅ ΡΠ°Π±Π»ΠΈΡ
pd.concat([ga_nov, ga_dec])
Π₯ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π°
ΠΠΏΠ΅ΡΠ°ΡΠΈΡΠ° Ρ ΠΊΠΎΡΠΎΡ ΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½Π΅ ΠΈΠ· Π΄ΡΡΠ³Π΅ Π΄ΠΎΠ΄Π°ΡΡ ΠΏΡΠ²ΠΎΡ ΡΠ°Π±Π΅Π»ΠΈ ΠΏΠΎΠΌΠΎΡΡ ΠΊΡΡΡΠ°. Π§Π΅ΡΡΠΎ ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈ ΠΊΠ°Π΄Π° ΡΠ΅ ΠΎΠ±ΠΎΠ³Π°ΡΡΡΠ΅ ΡΠ°Π±Π΅Π»Π° ΡΠΈΡΠ΅Π½ΠΈΡΠ° (Π½Π° ΠΏΡΠΈΠΌΠ΅Ρ, ΡΠ°Π±Π΅Π»Π° ΡΠ° ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ° ΠΎ ΠΏΡΠΎΠ΄Π°ΡΠΈ) Π½Π΅ΠΊΠΈΠΌ ΡΠ΅ΡΠ΅ΡΠ΅Π½ΡΠ½ΠΈΠΌ ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ° (Π½Π° ΠΏΡΠΈΠΌΠ΅Ρ, ΡΠ΅Π½Π° ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄Π°).
ΠΠΎΡΡΠΎΡΠΈ Π½Π΅ΠΊΠΎΠ»ΠΈΠΊΠΎ Π²ΡΡΡΠ° ΡΠΏΠΎΡΠ΅Π²Π°:
Π£ ΠΏΡΠ΅ΡΡ ΠΎΠ΄Π½ΠΎ ΡΡΠΈΡΠ°Π½ΠΎΡ ΡΠ°Π±Π΅Π»ΠΈ Π’ΠΈΡΠ°Π½ΠΈΡ ΠΈΠΌΠ°ΠΌΠΎ ΠΊΠΎΠ»ΠΎΠ½Ρ Π‘Π΅ΠΊΡ, ΡΡΠΎ ΠΎΠ΄Π³ΠΎΠ²Π°ΡΠ° ΠΊΠΎΠ΄Ρ ΠΏΠΎΠ»Π° ΠΏΡΡΠ½ΠΈΠΊΠ°:
1 - ΠΆΠ΅Π½ΡΠΊΠΎ
2 - ΠΌΡΡΠΊΠΎ
Π’Π°ΠΊΠΎΡΠ΅, Π½Π°ΠΏΡΠ°Π²ΠΈΠ»ΠΈ ΡΠΌΠΎ ΡΠ°Π±Π΅Π»Ρ - ΡΠ΅ΡΠ΅ΡΠ΅Π½ΡΠ½Ρ ΠΊΡΠΈΠ³Ρ ΠΏΠΎΠ». ΠΠ° ΠΏΡΠ°ΠΊΡΠΈΡΠ½ΠΈΡΠΈ ΠΏΡΠΈΠΊΠ°Π· ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΎ ΠΏΠΎΠ»Ρ ΠΏΡΡΠ½ΠΈΠΊΠ°, ΠΏΠΎΡΡΠ΅Π±Π½ΠΎ ΡΠ΅ Π΄ΠΎΠ΄Π°ΡΠΈ Π½Π°Π·ΠΈΠ² ΠΏΠΎΠ»Π° ΠΈΠ· ΠΈΠΌΠ΅Π½ΠΈΠΊΠ° ΠΏΠΎΠ» Π΄ΠΎ ΡΡΠΎΠ»Π° Π’ΠΈΡΠ°Π½ΠΈΡ.
Π₯ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π΅ Ρ Π : ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅, Π΄ΠΏΠ»ΠΈΡ
Π dplyr
ΠΠΎΡΡΠΎΡΠΈ ΡΠΈΡΠ°Π²Π° ΠΏΠΎΡΠΎΠ΄ΠΈΡΠ° ΡΡΠ½ΠΊΡΠΈΡΠ° Π·Π° Ρ
ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅:
inner_join()
left_join()
right_join()
full_join()
semi_join()
nest_join()
anti_join()
ΠΠ°ΡΡΠ΅ΡΡΠ΅ ΠΊΠΎΡΠΈΡΡΠ΅Π½ΠΈ Ρ ΠΌΠΎΡΠΎΡ ΠΏΡΠ°ΠΊΡΠΈ ΡΠ΅ left_join()
.
ΠΠ°ΠΎ ΠΏΡΠ²Π° Π΄Π²Π° Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠ°, Π³ΠΎΡΠ΅ Π½Π°Π²Π΅Π΄Π΅Π½Π΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ ΡΠ·ΠΈΠΌΠ°ΡΡ Π΄Π²Π΅ ΡΠ°Π±Π΅Π»Π΅ Π·Π° ΡΠΏΠ°ΡΠ°ΡΠ΅ ΠΈ ΠΊΠ°ΠΎ ΡΡΠ΅ΡΠΈ Π°ΡΠ³ΡΠΌΠ΅Π½Ρ by ΠΌΠΎΡΠ°ΡΠ΅ Π½Π°Π²Π΅ΡΡΠΈ ΠΊΠΎΠ»ΠΎΠ½Π΅ Π·Π° ΠΏΡΠΈΠ΄ΡΡΠΆΠΈΠ²Π°ΡΠ΅.
Π₯ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π΅ Ρ Π : Π΄ΠΏΠ»ΠΈΡ
# ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΠ΅ΠΌ ΡΠ°Π±Π»ΠΈΡΡ
left_join(titanic, gender,
by = c("Sex" = "id"))
Π₯ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
Π data.table
ΠΠΎΡΠ°ΡΠ΅ ΡΠΏΠΎΡΠΈΡΠΈ ΡΠ°Π±Π΅Π»Π΅ ΠΏΠΎΠΌΠΎΡΡ ΠΊΡΡΡΠ° ΠΏΠΎΠΌΠΎΡΡ ΡΡΠ½ΠΊΡΠΈΡΠ΅ merge()
.
ΠΡΠ³ΡΠΌΠ΅Π½ΡΠΈ Π·Π° ΡΡΠ½ΠΊΡΠΈΡΡ ΠΌΠ΅ΡΠ³Π΅() Ρ Π΄Π°ΡΠ°.ΡΠ°Π±Π»Π΅
- ΠΊ, ΠΈ β Π’Π°Π±Π΅Π»Π΅ Π·Π° ΡΠΏΠ°ΡΠ°ΡΠ΅
- Π±ΠΈ β ΠΠΎΠ»ΠΎΠ½Π° ΠΊΠΎΡΠ° ΡΠ΅ ΠΊΡΡΡ Π·Π° ΡΠΏΠ°ΡΠ°ΡΠ΅ Π°ΠΊΠΎ ΠΈΠΌΠ° ΠΈΡΡΠΎ ΠΈΠΌΠ΅ Ρ ΠΎΠ±Π΅ ΡΠ°Π±Π΅Π»Π΅
- Π±ΠΈ.ΠΊ, Π±ΠΈ.ΠΈ β ΠΠΌΠ΅Π½Π° ΠΊΠΎΠ»ΠΎΠ½Π° ΠΊΠΎΡΠ΅ ΡΡΠ΅Π±Π° ΡΠΏΠΎΡΠΈΡΠΈ, Π°ΠΊΠΎ ΠΈΠΌΠ°ΡΡ ΡΠ°Π·Π»ΠΈΡΠΈΡΠ° ΠΈΠΌΠ΅Π½Π° Ρ ΡΠ°Π±Π΅Π»Π°ΠΌΠ°
- Π°Π»Π», Π°Π»Π».ΠΊ, Π°Π»Π».ΠΈ β Π’ΠΈΠΏ ΡΠΏΠ°ΡΠ°ΡΠ°, Π°Π»Π» ΡΠ΅ Π²ΡΠ°ΡΠΈΡΠΈ ΡΠ²Π΅ ΡΠ΅Π΄ΠΎΠ²Π΅ ΠΈΠ· ΠΎΠ±Π΅ ΡΠ°Π±Π΅Π»Π΅, Π°Π»Π».ΠΊ ΠΎΠ΄Π³ΠΎΠ²Π°ΡΠ° ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠΈ ΠΠΠ€Π’ ΠΠΠΠ (ΠΎΡΡΠ°Π²ΠΈΡΠ΅ ΡΠ²Π΅ ΡΠ΅Π΄ΠΎΠ²Π΅ ΠΏΡΠ²Π΅ ΡΠ°Π±Π΅Π»Π΅), Π°Π»Π».ΠΈ β ΠΎΠ΄Π³ΠΎΠ²Π°ΡΠ° Π ΠΠΠ₯Π’ ΠΠΠΠ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ° (Π½Π°ΠΏΡΡΡΠΈΡΠ΅ ΡΠ²Π΅ ΡΠ΅Π΄ΠΎΠ²Π΅ Π΄ΡΡΠ³Π΅ ΡΠ°Π±Π΅Π»Π΅).
Π₯ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
# ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΠ΅ΠΌ ΡΠ°Π±Π»ΠΈΡΡ
merge(titanic, gender, by.x = "Sex", by.y = "id", all.x = T)
Π₯ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π΅ Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π΅
ΠΠ°ΠΎ ΠΈ Ρ data.table
Π£ pandas
ΡΡΠ½ΠΊΡΠΈΡΠ° ΡΠ΅ ΠΊΠΎΡΠΈΡΡΠΈ Π·Π° ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π° merge()
.
ΠΡΠ³ΡΠΌΠ΅Π½ΡΠΈ ΡΡΠ½ΠΊΡΠΈΡΠ΅ ΠΌΠ΅ΡΠ³Π΅() Ρ ΠΏΠ°Π½Π΄Π°ΠΌΠ°
- ΠΊΠ°ΠΊΠΎ β Π’ΠΈΠΏ Π²Π΅Π·Π΅: Π»Π΅Π²Π°, Π΄Π΅ΡΠ½Π°, ΡΠΏΠΎΡΠ°ΡΡΠ°, ΡΠ½ΡΡΡΠ°ΡΡΠ°
- ΠΎΠ½ β ΠΠΎΠ»ΠΎΠ½Π° ΠΊΠΎΡΠ° ΡΠ΅ ΠΊΡΡΡ Π°ΠΊΠΎ ΠΈΠΌΠ° ΠΈΡΡΠΎ ΠΈΠΌΠ΅ Ρ ΠΎΠ±Π΅ ΡΠ°Π±Π΅Π»Π΅
- Π»Π΅ΡΡ_ΠΎΠ½, ΡΠΈΠ³Ρ Ρ_ΠΎΠ½ β ΠΠΌΠ΅Π½Π° ΠΊΡΡΡΠ½ΠΈΡ ΠΊΠΎΠ»ΠΎΠ½Π°, Π°ΠΊΠΎ ΠΈΠΌΠ°ΡΡ ΡΠ°Π·Π»ΠΈΡΠΈΡΠ° ΠΈΠΌΠ΅Π½Π° Ρ ΡΠ°Π±Π΅Π»Π°ΠΌΠ°
Π₯ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π΅ Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π΅
# ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΠ΅ΠΌ ΠΏΠΎ ΠΊΠ»ΡΡΡ
titanic.merge(gender, how = "left", left_on = "Sex", right_on = "id")
ΠΡΠ½ΠΎΠ²Π½Π΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ ΠΏΡΠΎΠ·ΠΎΡΠ° ΠΈ ΠΈΠ·ΡΠ°ΡΡΠ½Π°ΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½Π΅
Π€ΡΠ½ΠΊΡΠΈΡΠ΅ ΠΏΡΠΎΠ·ΠΎΡΠ° ΡΡ ΠΏΠΎ Π·Π½Π°ΡΠ΅ΡΡ ΡΠ»ΠΈΡΠ½Π΅ ΡΡΠ½ΠΊΡΠΈΡΠ°ΠΌΠ° Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ΅, Π° ΡΠ°ΠΊΠΎΡΠ΅ ΡΠ΅ ΡΠ΅ΡΡΠΎ ΠΊΠΎΡΠΈΡΡΠ΅ Ρ Π°Π½Π°Π»ΠΈΠ·ΠΈ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°. ΠΠ»ΠΈ Π·Π° ΡΠ°Π·Π»ΠΈΠΊΡ ΠΎΠ΄ ΡΡΠ½ΠΊΡΠΈΡΠ° Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ΅, ΡΡΠ½ΠΊΡΠΈΡΠ΅ ΠΏΡΠΎΠ·ΠΎΡΠ° Π½Π΅ ΠΌΠ΅ΡΠ°ΡΡ Π±ΡΠΎΡ ΡΠ΅Π΄ΠΎΠ²Π° ΠΎΠ΄Π»Π°Π·Π½ΠΎΠ³ ΠΎΠΊΠ²ΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°.
Π£ ΡΡΡΡΠΈΠ½ΠΈ, ΠΊΠΎΡΠΈΡΡΠ΅ΡΠΈ ΡΡΠ½ΠΊΡΠΈΡΡ ΠΏΡΠΎΠ·ΠΎΡΠ°, Π΄Π΅Π»ΠΈΠΌΠΎ Π΄ΠΎΠ»Π°Π·Π½ΠΈ ΠΎΠΊΠ²ΠΈΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Π½Π° Π΄Π΅Π»ΠΎΠ²Π΅ ΠΏΡΠ΅ΠΌΠ° Π½Π΅ΠΊΠΎΠΌ ΠΊΡΠΈΡΠ΅ΡΠΈΡΡΠΌΡ, ΡΡ. ΠΏΠΎ Π²ΡΠ΅Π΄Π½ΠΎΡΡΠΈ ΠΏΠΎΡΠ° ΠΈΠ»ΠΈ Π½Π΅ΠΊΠΎΠ»ΠΈΠΊΠΎ ΠΏΠΎΡΠ°. Π Π²ΡΡΠΈΠΌΠΎ Π°ΡΠΈΡΠΌΠ΅ΡΠΈΡΠΊΠ΅ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ΅ Π½Π° ΡΠ²Π°ΠΊΠΎΠΌ ΠΏΡΠΎΠ·ΠΎΡΡ. Π Π΅Π·ΡΠ»ΡΠ°Ρ ΠΎΠ²ΠΈΡ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ° Π±ΠΈΡΠ΅ Π²ΡΠ°ΡΠ΅Π½ Ρ ΡΠ²Π°ΠΊΠΎΠΌ ΡΠ΅Π΄Ρ, ΡΡ. Π±Π΅Π· ΠΏΡΠΎΠΌΠ΅Π½Π΅ ΡΠΊΡΠΏΠ½ΠΎΠ³ Π±ΡΠΎΡΠ° ΡΠ΅Π΄ΠΎΠ²Π° Ρ ΡΠ°Π±Π΅Π»ΠΈ.
ΠΠ° ΠΏΡΠΈΠΌΠ΅Ρ, ΡΠ·ΠΌΠΈΠΌΠΎ ΡΡΠΎ Π’ΠΈΡΠ°Π½ΠΈΡ. ΠΠΎΠΆΠ΅ΠΌΠΎ ΠΈΠ·ΡΠ°ΡΡΠ½Π°ΡΠΈ ΠΊΠΎΠ»ΠΈΠΊΠΈ ΡΠ΅ ΠΏΡΠΎΡΠ΅Π½Π°Ρ ΡΠ΅Π½Π΅ ΡΠ²Π°ΠΊΠ΅ ΠΊΠ°ΡΡΠ΅ Ρ ΠΎΠΊΠ²ΠΈΡΡ ΠΊΠ»Π°ΡΠ΅ ΠΊΠ°Π±ΠΈΠ½Π΅.
ΠΠ° Π±ΠΈΡΠΌΠΎ ΡΠΎ ΡΡΠ°Π΄ΠΈΠ»ΠΈ, ΠΏΠΎΡΡΠ΅Π±Π½ΠΎ ΡΠ΅ Π΄Π° Ρ ΡΠ²Π°ΠΊΠΎΡ Π»ΠΈΠ½ΠΈΡΠΈ Π΄ΠΎΠ±ΠΈΡΠ΅ΠΌΠΎ ΡΠΊΡΠΏΠ½Ρ ΡΠ΅Π½Ρ ΠΊΠ°ΡΡΠ΅ Π·Π° ΡΡΠ΅Π½ΡΡΠ½Ρ ΠΊΠ»Π°ΡΡ ΠΊΠ°Π±ΠΈΠ½Π΅ ΠΊΠΎΡΠΎΡ ΠΏΡΠΈΠΏΠ°Π΄Π° ΠΊΠ°ΡΡΠ° Ρ ΠΎΠ²ΠΎΡ Π»ΠΈΠ½ΠΈΡΠΈ, Π° Π·Π°ΡΠΈΠΌ ΠΏΠΎΠ΄Π΅Π»ΠΈΠΌΠΎ ΡΠ΅Π½Ρ ΡΠ²Π°ΠΊΠ΅ ΠΊΠ°ΡΡΠ΅ ΡΠ° ΡΠΊΡΠΏΠ½ΠΎΠΌ ΡΠ΅Π½ΠΎΠΌ ΡΠ²ΠΈΡ ΠΊΠ°ΡΠ°ΡΠ° ΠΈΡΡΠ΅ ΠΊΠ»Π°ΡΠ΅ ΠΊΠ°Π±ΠΈΠ½Π΅ .
Π€ΡΠ½ΠΊΡΠΈΡΠ΅ ΠΏΡΠΎΠ·ΠΎΡΠ° Ρ Π : ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅, Π΄ΠΏΠ»ΠΈΡ
ΠΠ° Π±ΠΈΡΡΠ΅ Π΄ΠΎΠ΄Π°Π»ΠΈ Π½ΠΎΠ²Π΅ ΠΊΠΎΠ»ΠΎΠ½Π΅, Π±Π΅Π· ΠΊΠΎΡΠΈΡΡΠ΅ΡΠ° Π³ΡΡΠΏΠΈΡΠ°ΡΠ° ΡΠ΅Π΄ΠΎΠ²Π°, Ρ dplyr
ΡΠ»ΡΠΆΠΈ ΡΡΠ½ΠΊΡΠΈΡΠΈ mutate()
.
ΠΠΎΡΠ΅ ΠΎΠΏΠΈΡΠ°Π½ΠΈ ΠΏΡΠΎΠ±Π»Π΅ΠΌ ΠΌΠΎΠΆΠ΅ΡΠ΅ ΡΠ΅ΡΠΈΡΠΈ Π³ΡΡΠΏΠΈΡΠ°ΡΠ΅ΠΌ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΏΠΎ ΠΏΠΎΡΡ ΠΡΠ»Π°ΡΡ ΠΈ ΡΠ°Π±ΠΈΡΠ°ΡΠ΅ ΠΏΠΎΡΠ° Ρ Π½ΠΎΠ²Ρ ΠΊΠΎΠ»ΠΎΠ½Ρ Π€Π°ΡΠ΅. ΠΠ°ΡΠΈΠΌ ΡΠ°Π·Π³ΡΡΠΏΠΈΡΠΈΡΠ΅ ΡΠ°Π±Π΅Π»Ρ ΠΈ ΠΏΠΎΠ΄Π΅Π»ΠΈΡΠ΅ Π²ΡΠ΅Π΄Π½ΠΎΡΡΠΈ ΠΏΠΎΡΠ° Π€Π°ΡΠ΅ Π½Π° ΠΎΠ½ΠΎ ΡΡΠΎ ΡΠ΅ Π΄ΠΎΠ³ΠΎΠ΄ΠΈΠ»ΠΎ Ρ ΠΏΡΠ΅ΡΡ ΠΎΠ΄Π½ΠΎΠΌ ΠΊΠΎΡΠ°ΠΊΡ.
Π€ΡΠ½ΠΊΡΠΈΡΠ΅ ΠΏΡΠΎΠ·ΠΎΡΠ° Ρ Π : Π΄ΠΏΠ»ΠΈΡ
group_by(titanic, Pclass) %>%
mutate(Pclass_cost = sum(Fare)) %>%
ungroup() %>%
mutate(ticket_fare_rate = Fare / Pclass_cost)
Π€ΡΠ½ΠΊΡΠΈΡΠ΅ ΠΏΡΠΎΠ·ΠΎΡΠ° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
ΠΠ»Π³ΠΎΡΠΈΡΠ°ΠΌ ΡΠ΅ΡΠ΅ΡΠ° ΠΎΡΡΠ°ΡΠ΅ ΠΈΡΡΠΈ ΠΊΠ°ΠΎ Ρ dplyr
, ΡΡΠ΅Π±Π° Π΄Π° ΠΏΠΎΠ΄Π΅Π»ΠΈΠΌΠΎ ΡΠ°Π±Π΅Π»Ρ Π½Π° ΠΏΡΠΎΠ·ΠΎΡΠ΅ ΠΏΠΎ ΠΏΠΎΡΡ ΠΡΠ»Π°ΡΡ. Π£ Π½ΠΎΠ²Ρ ΠΊΠΎΠ»ΠΎΠ½Ρ ΡΠ½Π΅ΡΠΈΡΠ΅ ΠΈΠ·Π½ΠΎΡ Π·Π° Π³ΡΡΠΏΡ ΠΊΠΎΡΠ° ΠΎΠ΄Π³ΠΎΠ²Π°ΡΠ° ΡΠ²Π°ΠΊΠΎΠΌ ΡΠ΅Π΄Ρ ΠΈ Π΄ΠΎΠ΄Π°ΡΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½Ρ Ρ ΠΊΠΎΡΠΎΡ ΠΈΠ·ΡΠ°ΡΡΠ½Π°Π²Π°ΠΌΠΎ ΡΠ΄Π΅ΠΎ ΡΠ΅Π½Π΅ ΡΠ²Π°ΠΊΠ΅ ΠΊΠ°ΡΡΠ΅ Ρ ΡΠ΅Π½ΠΎΡ Π³ΡΡΠΏΠΈ.
ΠΠ° Π±ΠΈΡΡΠ΅ Π΄ΠΎΠ΄Π°Π»ΠΈ Π½ΠΎΠ²Π΅ ΠΊΠΎΠ»ΠΎΠ½Π΅ Ρ data.table
ΠΏΡΠΈΡΡΡΠ°Π½ ΠΎΠΏΠ΅ΡΠ°ΡΠ΅Ρ :=
. ΠΡΠΏΠΎΠ΄ ΡΠ΅ ΠΏΡΠΈΠΌΠ΅Ρ ΡΠ΅ΡΠ°Π²Π°ΡΠ° ΠΏΡΠΎΠ±Π»Π΅ΠΌΠ° ΠΏΠΎΠΌΠΎΡΡ ΠΏΠ°ΠΊΠ΅ΡΠ° data.table
Π€ΡΠ½ΠΊΡΠΈΡΠ΅ ΠΏΡΠΎΠ·ΠΎΡΠ° Ρ Π : ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
titanic[,c("Pclass_cost","ticket_fare_rate") := .(sum(Fare), Fare / Pclass_cost),
by = Pclass]
Π€ΡΠ½ΠΊΡΠΈΡΠ΅ ΠΏΡΠΎΠ·ΠΎΡΠ° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π΅
ΠΠ΅Π΄Π°Π½ ΠΎΠ΄ Π½Π°ΡΠΈΠ½Π° Π΄Π° Π΄ΠΎΠ΄Π°ΡΠ΅ Π½ΠΎΠ²Ρ ΠΊΠΎΠ»ΠΎΠ½Ρ Ρ pandas
- ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ ΡΡΠ½ΠΊΡΠΈΡΡ assign()
. ΠΠ° Π±ΠΈΡΠΌΠΎ ΡΡΠΌΠΈΡΠ°Π»ΠΈ ΡΠ΅Π½Ρ ΠΊΠ°ΡΠ°ΡΠ° ΠΏΠΎ ΠΊΠ»Π°ΡΠ°ΠΌΠ° ΠΊΠ°Π±ΠΈΠ½Π΅, Π±Π΅Π· Π³ΡΡΠΏΠΈΡΠ°ΡΠ° ΡΠ΅Π΄ΠΎΠ²Π°, ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ΠΌΠΎ ΡΡΠ½ΠΊΡΠΈΡΡ transform()
.
ΠΡΠΏΠΎΠ΄ ΡΠ΅ ΠΏΡΠΈΠΌΠ΅Ρ ΡΠ΅ΡΠ΅ΡΠ° Ρ ΠΊΠΎΠΌΠ΅ Π΄ΠΎΠ΄Π°ΡΠ΅ΠΌΠΎ Ρ ΡΠ°Π±Π΅Π»Ρ Π’ΠΈΡΠ°Π½ΠΈΡ ΠΈΡΡΠ΅ 2 ΠΊΠΎΠ»ΠΎΠ½Π΅.
Π€ΡΠ½ΠΊΡΠΈΡΠ΅ ΠΏΡΠΎΠ·ΠΎΡΠ° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ: ΠΏΠ°Π½Π΄Π΅
titanic.assign(Pclass_cost = titanic.groupby('Pclass').Fare.transform(sum),
ticket_fare_rate = lambda x: x['Fare'] / x['Pclass_cost'])
Π’Π°Π±Π΅Π»Π° ΠΊΠΎΡΠ΅ΡΠΏΠΎΠ½Π΄Π΅Π½ΡΠΈΡΠ΅ ΡΡΠ½ΠΊΡΠΈΡΠ° ΠΈ ΠΌΠ΅ΡΠΎΠ΄Π°
ΠΡΠΏΠΎΠ΄ ΡΠ΅ ΡΠ°Π±Π΅Π»Π° ΠΊΠΎΡΠ΅ΡΠΏΠΎΠ½Π΄Π΅Π½ΡΠΈΡΠ΅ ΠΈΠ·ΠΌΠ΅ΡΡ ΠΌΠ΅ΡΠΎΠ΄Π° Π·Π° ΠΈΠ·Π²ΠΎΡΠ΅ΡΠ΅ ΡΠ°Π·Π»ΠΈΡΠΈΡΠΈΡ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡΠ° ΡΠ° ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ° Ρ ΠΏΠ°ΠΊΠ΅ΡΠΈΠΌΠ° ΠΊΠΎΡΠ΅ ΡΠΌΠΎ ΡΠ°Π·ΠΌΠ°ΡΡΠ°Π»ΠΈ.
ΠΠΏΠΈΡ
ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅
ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°
ΠΏΠ°Π½Π΄Π΅
Π£ΡΠΈΡΠ°Π²Π°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°
vroom()
/ readr::read_csv()
/ readr::read_tsv()
fread()
read_csv()
ΠΡΠ΅ΠΈΡΠ°ΡΠ΅ ΠΎΠΊΠ²ΠΈΡΠ° ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°
tibble()
data.table()
dict()
+ from_dict()
ΠΠ·Π±ΠΎΡ ΠΊΠΎΠ»ΠΎΠ½Π΅
select()
Π°ΡΠ³ΡΠΌΠ΅Π½Ρ j, Π΄ΡΡΠ³Π° ΠΏΠΎΠ·ΠΈΡΠΈΡΠ° Ρ ΡΠ³Π»Π°ΡΡΠΈΠΌ Π·Π°Π³ΡΠ°Π΄Π°ΠΌΠ°
Π»ΠΈΡΡΡ ΠΏΠΎΡΡΠ΅Π±Π½ΠΈΡ
ΠΊΠΎΠ»ΠΎΠ½Π° ΠΏΡΠ΅Π½ΠΎΡΠΈΠΌΠΎ Ρ ΡΠ³Π»Π°ΡΡΠΈΠΌ Π·Π°Π³ΡΠ°Π΄Π°ΠΌΠ° / drop()
/ filter()
/ select_dtypes()
Π€ΠΈΠ»ΡΡΠΈΡΠ°ΡΠ΅ ΡΠ΅Π΄ΠΎΠ²Π°
filter()
Π°ΡΠ³ΡΠΌΠ΅Π½Ρ i, ΠΏΡΠ²Π° ΠΏΠΎΠ·ΠΈΡΠΈΡΠ° Ρ ΡΠ³Π»Π°ΡΡΠΈΠΌ Π·Π°Π³ΡΠ°Π΄Π°ΠΌΠ°
Π£ΡΠ»ΠΎΠ²Π΅ ΡΠΈΠ»ΡΡΠΈΡΠ°ΡΠ° Π½Π°Π²ΠΎΠ΄ΠΈΠΌΠΎ Ρ ΡΠ³Π»Π°ΡΡΠΈΠΌ Π·Π°Π³ΡΠ°Π΄Π°ΠΌΠ° / filter()
ΠΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π°Π³ΡΠ΅Π³Π°ΡΠΈΡΠ°
group_by()
+ summarise()
Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠ΅ j + by
groupby()
+ agg()
ΠΠ΅ΡΡΠΈΠΊΠ°Π»Π½Π° ΡΠ½ΠΈΡΠ° ΡΠ°Π±Π΅Π»Π° (Π£ΠΠΠΠ)
bind_rows()
rbind()
concat()
Π₯ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»Π½ΠΎ ΡΠΏΠ°ΡΠ°ΡΠ΅ ΡΠ°Π±Π΅Π»Π° (ΠΠΠΠ)
left_join()
/ *_join()
merge()
merge()
ΠΡΠ½ΠΎΠ²Π½Π΅ ΡΡΠ½ΠΊΡΠΈΡΠ΅ ΠΏΡΠΎΠ·ΠΎΡΠ° ΠΈ Π΄ΠΎΠ΄Π°Π²Π°ΡΠ΅ ΠΈΠ·ΡΠ°ΡΡΠ½Π°ΡΠΈΡ
ΠΊΠΎΠ»ΠΎΠ½Π°
group_by()
+ mutate()
Π°ΡΠ³ΡΠΌΠ΅Π½Ρ j ΠΊΠΎΡΠΈΡΡΠ΅ΡΠΈ ΠΎΠΏΠ΅ΡΠ°ΡΠ΅ΡΠ° :=
+ Π°ΡΠ³ΡΠΌΠ΅Π½Ρ by
transform()
+ assign()
ΠΠ°ΠΊΡΡΡΠ°ΠΊ
ΠΠΎΠΆΠ΄Π° ΡΠ°ΠΌ Ρ ΡΠ»Π°Π½ΠΊΡ ΠΎΠΏΠΈΡΠ°ΠΎ Π½Π΅ Π½Π°ΡΠΎΠΏΡΠΈΠΌΠ°Π»Π½ΠΈΡΠ΅ ΠΈΠΌΠΏΠ»Π΅ΠΌΠ΅Π½ΡΠ°ΡΠΈΡΠ΅ ΠΎΠ±ΡΠ°Π΄Π΅ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°, ΠΏΠ° ΡΠ΅ ΠΌΠΈ Π±ΠΈΡΠΈ Π΄ΡΠ°Π³ΠΎ Π°ΠΊΠΎ ΠΈΡΠΏΡΠ°Π²ΠΈΡΠ΅ ΠΌΠΎΡΠ΅ Π³ΡΠ΅ΡΠΊΠ΅ Ρ ΠΊΠΎΠΌΠ΅Π½ΡΠ°ΡΠΈΠΌΠ° ΠΈΠ»ΠΈ ΡΠ΅Π΄Π½ΠΎΡΡΠ°Π²Π½ΠΎ Π΄ΠΎΠΏΡΠ½ΠΈΡΠ΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡΠ΅ Π΄Π°ΡΠ΅ Ρ ΡΠ»Π°Π½ΠΊΡ Π΄ΡΡΠ³ΠΈΠΌ ΡΠ΅Ρ Π½ΠΈΠΊΠ°ΠΌΠ° Π·Π° ΡΠ°Π΄ ΡΠ° ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ° Ρ Π / ΠΠΈΡΡ ΠΎΠ½-Ρ.
ΠΠ°ΠΎ ΡΡΠΎ ΡΠ°ΠΌ Π³ΠΎΡΠ΅ Π½Π°ΠΏΠΈΡΠ°ΠΎ, ΡΠ²ΡΡ Π° ΡΠ»Π°Π½ΠΊΠ° Π½ΠΈΡΠ΅ Π±ΠΈΠ»Π° Π΄Π° Π½Π°ΠΌΠ΅ΡΠ½Π΅ ΡΠ²ΠΎΡΠ΅ ΠΌΠΈΡΡΠ΅ΡΠ΅ ΠΎ ΡΠΎΠΌΠ΅ ΠΊΠΎΡΠΈ ΡΠ΅ ΡΠ΅Π·ΠΈΠΊ Π±ΠΎΡΠΈ, Π²Π΅Ρ Π΄Π° ΠΏΠΎΡΠ΅Π΄Π½ΠΎΡΡΠ°Π²ΠΈ ΠΌΠΎΠ³ΡΡΠ½ΠΎΡΡ ΡΡΠ΅ΡΠ° ΠΎΠ±Π° ΡΠ΅Π·ΠΈΠΊΠ°, ΠΈΠ»ΠΈ, Π°ΠΊΠΎ ΡΠ΅ ΠΏΠΎΡΡΠ΅Π±Π½ΠΎ, ΠΌΠΈΠ³ΡΠΈΡΠ° ΠΈΠ·ΠΌΠ΅ΡΡ ΡΠΈΡ .
ΠΠΊΠΎ Π²Π°ΠΌ ΡΠ΅ Π΄ΠΎΠΏΠ°ΠΎ ΡΠ»Π°Π½Π°ΠΊ, Π±ΠΈΡΠ΅ ΠΌΠΈ Π΄ΡΠ°Π³ΠΎ Π΄Π° ΠΈΠΌΠ°ΠΌ Π½ΠΎΠ²Π΅ ΠΏΡΠ΅ΡΠΏΠ»Π°ΡΠ½ΠΈΠΊΠ΅ Π½Π° ΠΌΠΎΡ
ΠΠΏΡΠΎΡ
ΠΠΎΡΠ΅ ΠΎΠ΄ ΡΠ»Π΅Π΄Π΅ΡΠΈΡ ΠΏΠ°ΠΊΠ΅ΡΠ° ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ Ρ ΡΠ²ΠΎΠΌ ΡΠ°Π΄Ρ?
Π£ ΠΊΠΎΠΌΠ΅Π½ΡΠ°ΡΠΈΠΌΠ° ΠΌΠΎΠΆΠ΅ΡΠ΅ Π½Π°ΠΏΠΈΡΠ°ΡΠΈ ΡΠ°Π·Π»ΠΎΠ³ ΡΠ²ΠΎΠ³ ΠΈΠ·Π±ΠΎΡΠ°.
Π‘Π°ΠΌΠΎ ΡΠ΅Π³ΠΈΡΡΡΠΎΠ²Π°Π½ΠΈ ΠΊΠΎΡΠΈΡΠ½ΠΈΡΠΈ ΠΌΠΎΠ³Ρ ΡΡΠ΅ΡΡΠ²ΠΎΠ²Π°ΡΠΈ Ρ Π°Π½ΠΊΠ΅ΡΠΈ.
ΠΠΎΡΠΈ ΠΏΠ°ΠΊΠ΅Ρ Π·Π° ΠΎΠ±ΡΠ°Π΄Ρ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ (ΠΌΠΎΠΆΠ΅ΡΠ΅ ΠΈΠ·Π°Π±ΡΠ°ΡΠΈ Π½Π΅ΠΊΠΎΠ»ΠΈΠΊΠΎ ΠΎΠΏΡΠΈΡΠ°)
-
100%ΡΠΈΠ΄ΠΈΠ²Π΅ΡΡΠ΅19
-
100%ΠΏΠΎΠ΄Π°ΡΠΈ.ΡΠ°Π±Π΅Π»Π°14
-
100%ΠΏΠ°Π½Π΄Π°Ρ23
42 ΠΊΠΎΡΠΈΡΠ½ΠΈΠΊΠ° ΡΠ΅ Π³Π»Π°ΡΠ°Π»ΠΎ. 9 ΠΊΠΎΡΠΈΡΠ½ΠΈΠΊΠ° ΡΠ΅ Π±ΠΈΠ»ΠΎ ΡΠ·Π΄ΡΠΆΠ°Π½ΠΎ.
ΠΠ·Π²ΠΎΡ: Π²Π²Π².Ρ
Π°Π±Ρ.ΡΠΎΠΌ