Karantiini tõttu veedavad paljud nüüd lõviosa oma ajast kodus ning seda aega saab ja isegi tuleks kasulikult veeta.
Karantiini alguses otsustasin lõpetada mõned paar kuud tagasi alustatud projektid. Üks neist projektidest oli videokursus “R keel Exceli kasutajatele”. Selle kursusega soovisin langetada barjääri R-i sisenemisel ja veidi täita olemasolevat venekeelsete selleteemaliste koolitusmaterjalide puudust.
Kui kogu töö andmetega ettevõttes, kus töötate, tehakse ikkagi Excelis, siis soovitan tutvuda moodsama ja samas täiesti tasuta andmeanalüüsi tööriistaga.
Sisu
Kui olete huvitatud andmete analüüsist, võite olla huvitatud minu telegramm и youtube kanalid. Suurem osa sisust on pühendatud R-keelele.
Kursus on üles ehitatud arhitektuurile tidyverseja selles sisalduvad paketid: readr, vroom, dplyr, tidyr, ggplot2. Muidugi on R-s ka teisi häid pakette, mis teevad sarnaseid toiminguid näiteks data.table, vaid süntaks tidyverse intuitiivne, kergesti loetav isegi koolitamata kasutajale, seega arvan, et parem on alustada R-keele õppimist tidyverse.
Kursus juhendab teid läbi kõigi andmeanalüüsi toimingute laadimisest kuni valmis tulemuse visualiseerimiseni.
Miks R ja mitte Python? Kuna R on funktsionaalne keel, on Exceli kasutajatel lihtsam sellele lülituda, kuna pole vaja süveneda traditsioonilisse objektorienteeritud programmeerimisse.
Hetkel on kavas 12 videotundi, igaüks kestusega 5-20 minutit.
Tunnid avatakse järk-järgult. Igal esmaspäeval avan oma veebisaidil juurdepääsu uuele õppetunnile. YouTube'i kanal eraldi esitusloendis.
Kellele see kursus on mõeldud?
Ma arvan, et see selgub pealkirjast, kuid kirjeldan seda üksikasjalikumalt.
Kursus on suunatud neile, kes kasutavad aktiivselt oma töös Microsoft Excelit ja rakendavad seal kogu oma tööd andmetega. Üldjuhul, kui avate Microsoft Exceli rakenduse vähemalt kord nädalas, siis kursus sobib teile.
Kursuse läbimiseks ei nõuta programmeerimisoskust, sest... Kursus on suunatud algajatele.
Aga võib-olla on alates 4. õppetunnist huvitavat materjali ka aktiivsetele R-kasutajatele, sest... selliste pakettide põhifunktsioonid nagu dplyr и tidyr arutatakse üksikasjalikult.
Kursuse programm
1. õppetund: R-keele ja RStudio arenduskeskkonna installimine
Kirjeldus:
Sissejuhatav tund, mille käigus laadime alla ja installime vajaliku tarkvara ning tutvume põgusalt RStudio arenduskeskkonna võimalustega ja liidesega.
Kirjeldus:
See õppetund aitab teil mõista, millised andmestruktuurid on R-keeles saadaval. Vaatleme üksikasjalikult vektoreid, kuupäevaraame ja loendeid. Õpime neid looma ja nende üksikutele elementidele juurde pääsema.
3. õppetund: andmete lugemine TSV-, CSV-, Excel-failidest ja Google'i arvutustabelitest
Kirjeldus:
Töö andmetega, olenemata tööriistast, algab nende ekstraheerimisest. Tunnis kasutatakse pakette vroom, readxl, googlesheets4 andmete laadimiseks R keskkonda csv, tsv, Exceli failidest ja Google Sheetsidest.
4. õppetund: ridade filtreerimine, veergude, torujuhtmete valimine ja ümbernimetamine R-is
Kirjeldus:
Selles videos jätkame tutvust raamatukoguga tidyverse ja pakend dplyr.
Vaatame funktsioonide perekonda mutate()ja õpime, kuidas neid tabelisse uute arvutatud veergude lisamiseks kasutada.
6. õppetund: R-is andmete rühmitamine ja koondamine
Kirjeldus:
See õppetund on pühendatud andmete analüüsi, rühmitamise ja koondamise ühele põhitoimingule. Tunnis kasutame paketti dplyr ja funktsioonid group_by() и summarise().
Vaatleme kogu funktsioonide perekonda summarise()s.t. summarise(), summarise_if() и summarise_at().
7. õppetund: R tabelite vertikaalne ja horisontaalne ühendamine
Kirjeldus:
Aknafunktsioonid on oma tähenduselt sarnased koondamisfunktsioonidele; nad võtavad sisendiks ka väärtuste massiivi ja teevad nendega aritmeetilisi toiminguid, kuid ei muuda väljundtulemuse ridade arvu.
Selles õpetuses jätkame paketi uurimist dplyrja funktsioonid group_by(), mutate(), kui ka uus cumsum(), lag(), lead() и arrange().
9. õppetund: Pöörlevad tabelid või pöördetabelite analoog R-s
Kirjeldus:
Enamik Exceli kasutajaid kasutab pivot-tabeleid; see on mugav tööriist, mille abil saate muuta toorandmete massiivi loetavateks aruanneteks mõne sekundiga.
Selles õpetuses vaatleme, kuidas tabeleid R-vormingus pöörata ja teisendada laiformaadist pikaks ja vastupidi.
Suurem osa tunnist on pühendatud paketile tidyr ja funktsioone pivot_longer() и pivot_wider().
10. õppetund: JSON-failide laadimine R-is ja loendite teisendamine tabeliteks
Kirjeldus:
JSON ja XML on äärmiselt populaarsed vormingud teabe salvestamiseks ja vahetamiseks, tavaliselt nende kompaktsuse tõttu.
Kuid sellistes vormingutes esitatud andmeid on raske analüüsida, nii et enne analüüsi tuleb need viia tabeli kujul, mida me sellest videost täpselt õpime.
Tund on pühendatud paketile tidyr, mis sisaldub raamatukogu tuumas tidyverseja funktsioonid unnest_longer(), unnest_wider() и hoist().
11. õppetund: Kiire joonistamine Funktsiooni qplot() abil
Kirjeldus:
Õppetund demonstreerib paketi kogu võimsust ggplot2 ja sellesse manustatud kihtidena graafikute ehitamise grammatika.
Analüüsime paketis sisalduvaid peamisi geomeetriaid ja õpime, kuidas graafiku koostamiseks kihte rakendada.
Järeldus
Püüdsin läheneda kursuse programmi kujundamisele võimalikult lühidalt, tuua esile vaid kõige vajalikum info, mida läheb vaja, et teha esimesi samme sellise võimsa andmeanalüüsi tööriista nagu R-keele õppimisel.
Kursus ei ole ammendav juhend andmete analüüsiks R-keele abil, kuid see aitab mõista kõiki selleks vajalikke tehnikaid.
Kui kursuse programm on mõeldud 12 nädalaks, siis igal nädalal esmaspäeviti avan juurdepääsu uutele tundidele, seega soovitan tellima YouTube'i kanalil, et mitte jätta ilma uue õppetunni avaldamisest.