Jazyk R pre používateľov Excelu (bezplatný video kurz)

Kvôli karanténe mnohí teraz trávia leví podiel svojho času doma a tento čas možno, a dokonca by sme mali, stráviť užitočne.

Na začiatku karantény som sa rozhodol dokončiť niektoré projekty, ktoré som začal pred pár mesiacmi. Jedným z týchto projektov bol video kurz „Jazyk R pre používateľov Excelu“. Týmto kurzom som chcel znížiť bariéru vstupu do R a mierne vyplniť existujúci nedostatok školiacich materiálov na túto tému v ruštine.

Ak sa všetka práca s údajmi v spoločnosti, pre ktorú pracujete, stále vykonáva v Exceli, potom vám navrhujem zoznámiť sa s modernejším a zároveň úplne bezplatným nástrojom na analýzu údajov.

Jazyk R pre používateľov Excelu (bezplatný video kurz)

Obsah

Ak máte záujem o analýzu údajov, mohla by vás zaujímať moja telegram и youtube kanálov. Väčšina obsahu je venovaná jazyku R.

  1. referencie
  2. O kurze
  3. Pre koho je tento kurz určený?
  4. Program kurzu
    4.1. Lekcia 1: Inštalácia jazyka R a vývojového prostredia RStudio
    4.2. Lekcia 2: Základné dátové štruktúry v R
    4.3. Lekcia 3: Čítanie údajov zo súborov TSV, CSV, Excel a Tabuľky Google
    4.4. Lekcia 4: Filtrovanie riadkov, výber a premenovanie stĺpcov, potrubia v R
    4.5. Lekcia 5: Pridanie vypočítaných stĺpcov do tabuľky v R
    4.6. Lekcia 6: Zoskupovanie a agregovanie údajov v R
    4.7. Lekcia 7: Vertikálne a horizontálne spájanie tabuliek v R
    4.8. Lekcia 8: Funkcie okien v R
    4.9. Lekcia 9: Otočné stoly alebo analógy kontingenčných stolov v R
    4.10. Lekcia 10: Načítanie súborov JSON v jazyku R a prevod zoznamov na tabuľky
    4.11. Lekcia 11: Rýchle vykresľovanie pomocou funkcie qplot().
    4.12. Lekcia 12: Vykresľovanie grafov vrstva po vrstve pomocou balíka ggplot2
  5. Záver

referencie

O kurze

Kurz je štruktúrovaný okolo architektúry tidyversea balíčky v ňom zahrnuté: readr, vroom, dplyr, tidyr, ggplot2. Samozrejme, v R sú aj iné dobré balíky, ktoré vykonávajú podobné operácie, napr data.table, ale syntax tidyverse intuitívne, ľahko čitateľné aj pre netrénovaného používateľa, takže si myslím, že je lepšie začať sa učiť jazyk R tidyverse.

Kurz vás prevedie všetkými operáciami analýzy dát, od načítania až po vizualizáciu hotového výsledku.

Prečo R a nie Python? Pretože R je funkčný jazyk, pre používateľov Excelu je jednoduchšie naň prejsť, pretože nie je potrebné ponoriť sa do tradičného objektovo orientovaného programovania.

Momentálne je naplánovaných 12 video lekcií, každá v trvaní od 5 do 20 minút.

Lekcie sa budú otvárať postupne. Každý pondelok otvorím prístup k novej lekcii na mojej webovej stránke. Kanál YouTube v samostatnom zozname skladieb.

Pre koho je tento kurz určený?

Myslím, že z nadpisu je to jasné, popíšem to však podrobnejšie.

Kurz je určený pre tých, ktorí pri svojej práci aktívne využívajú Microsoft Excel a implementujú tam všetku svoju prácu s dátami. Vo všeobecnosti, ak otvoríte aplikáciu Microsoft Excel aspoň raz týždenne, potom je kurz pre vás vhodný.

Na absolvovanie kurzu nie je potrebné mať znalosti programovania, pretože... Kurz je určený pre začiatočníkov.

Ale možno, počnúc lekciou 4, bude zaujímavý materiál aj pre aktívnych používateľov R, pretože... hlavná funkcionalita takých balíkov ako je dplyr и tidyr bude diskutované trochu podrobne.

Program kurzu

Lekcia 1: Inštalácia jazyka R a vývojového prostredia RStudio

Dátum zverejnenia: Marec 23 2020

odkazy:

Video:

Popis:
Úvodná lekcia, počas ktorej si stiahneme a nainštalujeme potrebný softvér a stručne preskúmame možnosti a rozhranie vývojového prostredia RStudio.

Lekcia 2: Základné dátové štruktúry v R

Dátum zverejnenia: Marec 30 2020

odkazy:

Video:

Popis:
Táto lekcia vám pomôže pochopiť, aké dátové štruktúry sú dostupné v jazyku R. Podrobne sa pozrieme na vektory, dátumové rámce a zoznamy. Naučme sa ich vytvárať a pristupovať k ich jednotlivým prvkom.

Lekcia 3: Čítanie údajov zo súborov TSV, CSV, Excel a Tabuľky Google

Dátum zverejnenia: Apríla 6 2020

odkazy:

Video:

Popis:
Práca s údajmi bez ohľadu na nástroj začína ich extrakciou. Balíčky sa využívajú počas vyučovacej hodiny vroom, readxl, googlesheets4 na načítanie údajov do prostredia R zo súborov csv, tsv, Excel a Google Sheets.

Lekcia 4: Filtrovanie riadkov, výber a premenovanie stĺpcov, potrubia v R

Dátum zverejnenia: Apríla 13 2020

odkazy:

Video:

Popis:
Táto lekcia je o balíku dplyr. V ňom zistíme, ako filtrovať dátové rámce, vybrať potrebné stĺpce a premenovať ich.

Dozvieme sa tiež, čo sú pipeline a ako pomáhajú zlepšiť čitateľnosť kódu R.

Lekcia 5: Pridanie vypočítaných stĺpcov do tabuľky v R

Dátum zverejnenia: Apríla 20 2020

odkazy:

Video:

Popis:
V tomto videu pokračujeme v spoznávaní knižnice tidyverse a balík dplyr.
Pozrime sa na rodinu funkcií mutate()a naučíme sa ich používať na pridávanie nových vypočítaných stĺpcov do tabuľky.

Lekcia 6: Zoskupovanie a agregovanie údajov v R

Dátum zverejnenia: Apríla 27 2020

odkazy:

Video:

Popis:
Táto lekcia je venovaná jednej z hlavných operácií analýzy, zoskupovania a agregácie údajov. Počas lekcie využijeme balíček dplyr a funkcie group_by() и summarise().

Pozrieme sa na celú rodinu funkcií summarise(), t.j. summarise(), summarise_if() и summarise_at().

Lekcia 7: Vertikálne a horizontálne spájanie tabuliek v R

Dátum zverejnenia: Máj 4 2020

odkazy:

Video:

Popis:
Táto lekcia vám pomôže pochopiť operácie vertikálneho a horizontálneho spájania stolov.

Vertikálne spojenie je ekvivalentom operácie UNION v dotazovacom jazyku SQL.

Horizontálne spojenie je používateľom Excelu známejšie vďaka funkcii VLOOKUP, v SQL takéto operácie vykonáva operátor JOIN.

Na hodine budeme riešiť praktický problém, počas ktorého využijeme balíčky dplyr, readxl, tidyr и stringr.

Hlavné funkcie, ktoré zvážime:

  • bind_rows() - vertikálne spojenie stolov
  • left_join() — horizontálne spojenie stolov
  • semi_join() - vrátane spojovacích stolov
  • anti_join() - exkluzívne stolové spojenie

Lekcia 8: Funkcie okien v R

Dátum zverejnenia: Máj 11 2020

odkazy:

Popis:
Funkcie okien majú podobný význam ako agregačné; ako vstup tiež berú pole hodnôt a vykonávajú s nimi aritmetické operácie, ale nemenia počet riadkov vo výstupnom výsledku.

V tomto návode pokračujeme v štúdiu balíka dplyra funkcie group_by(), mutate(), ako aj nové cumsum(), lag(), lead() и arrange().

Lekcia 9: Otočné stoly alebo analógy kontingenčných stolov v R

Dátum zverejnenia: Máj 18 2020

odkazy:

Popis:
Väčšina používateľov programu Excel používa kontingenčné tabuľky; ide o pohodlný nástroj, pomocou ktorého môžete v priebehu niekoľkých sekúnd premeniť množstvo nespracovaných údajov na čitateľné zostavy.

V tomto návode sa pozrieme na to, ako otáčať tabuľky v R a konvertovať ich zo širokého na dlhý formát a naopak.

Väčšina lekcie je venovaná balíku tidyr a funkcie pivot_longer() и pivot_wider().

Lekcia 10: Načítanie súborov JSON v jazyku R a prevod zoznamov na tabuľky

Dátum zverejnenia: Máj 25 2020

odkazy:

Popis:
JSON a XML sú mimoriadne obľúbené formáty na ukladanie a výmenu informácií, zvyčajne kvôli ich kompaktnosti.

Je však ťažké analyzovať údaje prezentované v takýchto formátoch, takže pred analýzou je potrebné ich preniesť do tabuľkovej formy, čo je presne to, čo sa dozvieme v tomto videu.

Lekcia je venovaná balíku tidyr, súčasťou jadra knižnice tidyversea funkcie unnest_longer(), unnest_wider() и hoist().

Lekcia 11: Rýchle vykresľovanie pomocou funkcie qplot().

Dátum zverejnenia: Júna 1 2020

odkazy:

Popis:
balíček ggplot2 je jedným z najpopulárnejších nástrojov vizualizácie dát nielen v R.

V tejto lekcii sa naučíme vytvárať jednoduché grafy pomocou funkcie qplot(), a poďme analyzovať všetky jej argumenty.

Lekcia 12: Vykresľovanie grafov vrstva po vrstve pomocou balíka ggplot2

Dátum zverejnenia: Júna 8 2020

odkazy:

Popis:
Lekcia demonštruje plnú silu balíka ggplot2 a gramatika budovania grafov vo vrstvách v nej vložených.

Budeme analyzovať hlavné geometrie, ktoré sú prítomné v balíku, a naučíme sa, ako aplikovať vrstvy na vytvorenie grafu.

Záver

Pokúsil som sa pristúpiť k zostaveniu programu kurzu čo najstručnejšie, zdôrazniť len tie najnutnejšie informácie, ktoré budete potrebovať, aby ste urobili prvé kroky pri učení sa takého silného nástroja na analýzu údajov, akým je jazyk R.

Kurz nie je vyčerpávajúci návod na analýzu údajov pomocou jazyka R, ale pomôže vám pochopiť všetky potrebné techniky na to.

Kým program kurzu je koncipovaný na 12 týždňov, každý týždeň v pondelok otvorím prístup k novým lekciám, takže odporúčam predplatiť na kanáli YouTube, aby ste nezmeškali zverejnenie novej lekcie.

Zdroj: hab.com

Pridať komentár