Dėl karantino daugelis didžiąją laiko dalį dabar praleidžia namuose, o šį laiką galima ir net reikia praleisti naudingai.
Karantino pradžioje nusprendžiau užbaigti keletą projektų, kuriuos pradėjau prieš kelis mėnesius. Vienas iš šių projektų buvo vaizdo kursas „R kalba Excel vartotojams“. Šiuo kursu norėjau sumažinti barjerą patekti į R ir šiek tiek užpildyti esamą mokymo medžiagos šia tema rusų kalba trūkumą.
Jei visi darbai su duomenimis įmonėje, kurioje dirbate, vis dar atliekami Excel programoje, tuomet siūlau susipažinti su modernesniu, o kartu ir visiškai nemokamu duomenų analizės įrankiu.

Turinys
Jei jus domina duomenų analizė, galbūt jus domina mano и kanalai. Didžioji dalis turinio skirta R kalbai.
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
4.7.
4.8.
4.9.
4.10.
4.11.
4.12.
Nuorodos
Apie kursą
Kursas yra pagrįstas architektūra tidyverse, ir į jį įtrauktos pakuotės: readr, vroom, dplyr, tidyr, ggplot2. Žinoma, R yra ir kitų gerų paketų, kurie, pavyzdžiui, atlieka panašias operacijas data.table, bet sintaksė tidyverse intuityvus, lengvai skaitomas net nepatyrusiam vartotojui, todėl manau, kad geriau pradėti mokytis R kalbos tidyverse.
Kursas padės atlikti visas duomenų analizės operacijas, nuo įkėlimo iki galutinio rezultato vizualizavimo.
Kodėl R, o ne Python? Kadangi R yra funkcinė kalba, Excel vartotojams lengviau ją perjungti, nes nereikia gilintis į tradicinį objektinį programavimą.
Šiuo metu planuojama 12 video pamokų, kurių kiekviena trunka nuo 5 iki 20 minučių.
Pamokos bus atidarytos palaipsniui. Kiekvieną pirmadienį atversiu prieigą prie naujos pamokos savo svetainėje. atskirame grojaraštyje.
Kam skirtas šis kursas?
Manau, kad tai aišku iš pavadinimo, tačiau aprašysiu jį plačiau.
Kursas skirtas tiems, kurie savo darbe aktyviai naudojasi Microsoft Excel ir ten įgyvendina visą savo darbą su duomenimis. Apskritai, jei „Microsoft Excel“ programą atidarote bent kartą per savaitę, tada kursas jums tinka.
Norint baigti kursą nebūtina turėti programavimo įgūdžių, nes... Kursas skirtas pradedantiesiems.
Bet, ko gero, nuo 4 pamokos bus įdomios medžiagos ir aktyviems R vartotojams, nes... pagrindinės tokių paketų funkcijos kaip dplyr и tidyr bus aptarta kiek detaliau.
Kurso programa
1 pamoka: R kalbos ir RStudio kūrimo aplinkos diegimas
Paskelbimo data: Kovo 23 2020
Nuorodos:
Vaizdo įrašas:

Aprašymas:
Įvadinė pamoka, kurios metu atsisiųsime ir įdiegsime reikiamą programinę įrangą, trumpai panagrinėsime RStudio kūrimo aplinkos galimybes ir sąsają.
2 pamoka: pagrindinės duomenų struktūros R
Paskelbimo data: Kovo 30 2020
Nuorodos:
Vaizdo įrašas:

Aprašymas:
Ši pamoka padės suprasti, kokios duomenų struktūros yra prieinamos R kalba. Išsamiai apžvelgsime vektorius, datų rėmus ir sąrašus. Išmokime juos sukurti ir pasiekti atskirus jų elementus.
3 pamoka: duomenų skaitymas iš TSV, CSV, „Excel“ failų ir „Google“ skaičiuoklių
Paskelbimo data: Balandis 6 2020
Nuorodos:
Vaizdo įrašas:

Aprašymas:
Darbas su duomenimis, neatsižvelgiant į įrankį, prasideda nuo jų išgavimo. Pamokos metu naudojami paketai vroom, readxl, googlesheets4 duomenims įkelti į R aplinką iš csv, tsv, Excel failų ir Google skaičiuoklių.
4 pamoka: eilučių filtravimas, stulpelių, vamzdynų pasirinkimas ir pervadinimas R
Paskelbimo data: Balandis 13 2020
Nuorodos:
Vaizdo įrašas:

Aprašymas:
Ši pamoka yra apie paketą dplyr. Jame išsiaiškinsime, kaip filtruoti duomenų rėmelius, pasirinkti reikiamus stulpelius ir juos pervadinti.
Taip pat sužinosime, kas yra vamzdynai ir kaip jie padeda padaryti jūsų R kodą skaitomesnį.
5 pamoka: Apskaičiuotų stulpelių įtraukimas į R lentelę
Paskelbimo data: Balandis 20 2020
Nuorodos:
Vaizdo įrašas:

Aprašymas:
Šiame vaizdo įraše tęsiame pažintį su biblioteka tidyverse ir paketą dplyr.
Pažvelkime į funkcijų šeimą mutate(), ir išmoksime juos naudoti, kad į lentelę įtrauktume naujų apskaičiuotų stulpelių.
6 pamoka: duomenų grupavimas ir apibendrinimas R
Paskelbimo data: Balandis 27 2020
Nuorodos:
Vaizdo įrašas:

Aprašymas:
Ši pamoka skirta vienai iš pagrindinių duomenų analizės, grupavimo ir agregavimo operacijų. Pamokos metu naudosime paketą dplyr ir функции group_by() и summarise().
Apžvelgsime visą funkcijų šeimą summarise()Ty summarise(), summarise_if() и summarise_at().
7 pamoka: vertikalus ir horizontalus lentelių sujungimas R
Paskelbimo data: Gegužės 4 2020
Nuorodos:
Vaizdo įrašas:

Aprašymas:
Ši pamoka padės suprasti lentelių vertikalaus ir horizontalaus sujungimo operacijas.
Vertikali sąjunga yra operacijos UNION atitikmuo SQL užklausos kalba.
Horizontalus sujungimas Excel vartotojams geriau žinomas dėl funkcijos VLOOKUP, SQL tokias operacijas atlieka operatorius JOIN.
Pamokos metu spręsime praktinę problemą, kurios metu naudosime paketus dplyr, readxl, tidyr и stringr.
Pagrindinės funkcijos, kurias mes apsvarstysime:
bind_rows()— vertikalus lentelių sujungimasleft_join()— horizontalus lentelių sujungimassemi_join()- įskaitant sujungimo lentelesanti_join()- išskirtinis stalo sujungimas
8 pamoka: langų funkcijos R
Paskelbimo data: Gegužės 11 2020
Nuorodos:
Aprašymas:
Langų funkcijos yra panašios į agregavimo funkcijas; jos taip pat ima reikšmių masyvą kaip įvestį ir atlieka su jomis aritmetines operacijas, bet nekeičia eilučių skaičiaus išvesties rezultate.
Šioje pamokoje mes toliau nagrinėjame paketą dplyr, ir funkcijos group_by(), mutate(), taip pat naujas cumsum(), lag(), lead() и arrange().
9 pamoka: besisukančios lentelės arba sukamųjų lentelių analogas R
Paskelbimo data: Gegužės 18 2020
Nuorodos:
Aprašymas:
Dauguma „Excel“ vartotojų naudoja suvestines lenteles; tai patogus įrankis, kuriuo per kelias sekundes galite paversti neapdorotų duomenų masyvą į skaitomas ataskaitas.
Šioje pamokoje apžvelgsime, kaip pasukti lenteles R ir konvertuoti jas iš plataus formato į ilgą formatą ir atvirkščiai.
Didžioji pamokos dalis skirta paketui tidyr ir funkcijas pivot_longer() и pivot_wider().
10 pamoka: JSON failų įkėlimas į R ir sąrašų konvertavimas į lenteles
Paskelbimo data: Gegužės 25 2020
Nuorodos:
Aprašymas:
JSON ir XML yra itin populiarūs informacijos saugojimo ir keitimosi formatai, dažniausiai dėl savo kompaktiškumo.
Tačiau tokiais formatais pateiktus duomenis sunku analizuoti, todėl prieš analizę būtina juos pateikti lentelės pavidalu, būtent tai ir sužinosime šiame vaizdo įraše.
Pamoka skirta paketui tidyr, įtrauktas į bibliotekos branduolį tidyverse, ir funkcijos unnest_longer(), unnest_wider() и hoist().
11 pamoka: Greitas braižymas naudojant qplot() funkciją
Paskelbimo data: Birželis 1 2020
Nuorodos:
Aprašymas:
Pakuotė ggplot2 yra vienas populiariausių duomenų vizualizavimo įrankių ne tik R.
Šioje pamokoje išmoksime sudaryti paprastus grafikus naudojant funkciją qplot(), ir išanalizuokime visus jos argumentus.
12 pamoka: Sluoksnių braižymas po sluoksnio naudojant paketą ggplot2
Paskelbimo data: Birželis 8 2020
Nuorodos:
Aprašymas:
Pamoka parodo visą paketo galią ggplot2 o grafų kūrimo sluoksniais į jį gramatika.
Išanalizuosime pagrindines pakuotėje esančias geometrijas ir sužinosime, kaip pritaikyti sluoksnius kuriant grafiką.
išvada
Stengiausi kuo glaustai prieiti prie kurso programos formavimo, išryškinti tik būtiniausią informaciją, kurios prireiks norint žengti pirmuosius žingsnius mokantis tokio galingo duomenų analizės įrankio kaip R kalba.
Kursas nėra išsamus duomenų analizės naudojant R kalbą vadovas, tačiau jis padės suprasti visus reikalingus metodus.
Nors kursų programa skirta 12 savaičių, kiekvieną savaitę pirmadieniais atversiu prieigą prie naujų pamokų, todėl rekomenduoju „YouTube“ kanale, kad nepraleistumėte naujos pamokos paskelbimo.
Šaltinis: www.habr.com
