På grund af karantæne bruger mange nu broderparten af deres tid derhjemme, og denne tid kan, og bør endda, bruges med fordel.
I begyndelsen af karantænen besluttede jeg at afslutte nogle projekter, som jeg startede for et par måneder siden. Et af disse projekter var videokurset "R-sprog for Excel-brugere". Med dette kursus ønskede jeg at sænke barrieren for adgang til R og lidt udfylde den eksisterende mangel på undervisningsmateriale om dette emne på russisk.
Hvis alt arbejde med data i den virksomhed, du arbejder for, stadig foregår i Excel, så foreslår jeg, at du stifter bekendtskab med et mere moderne, og samtidig helt gratis, dataanalyseværktøj.
Indhold
Hvis du er interesseret i dataanalyse, er du måske interesseret i min telegram и youtube kanaler. Det meste af indholdet er afsat til R-sproget.
Kurset er bygget op omkring arkitektur tidyverse, og pakkerne inkluderet i det: readr, vroom, dplyr, tidyr, ggplot2. Selvfølgelig er der andre gode pakker i R, der udfører lignende operationer, f.eks data.table, men syntaksen tidyverse intuitiv, let at læse selv for en utrænet bruger, så jeg synes, det er bedre at begynde at lære R-sproget med tidyverse.
Kurset vil guide dig gennem alle dataanalyseoperationer, fra indlæsning til visualisering af det færdige resultat.
Hvorfor R og ikke Python? Fordi R er et funktionelt sprog, er det nemmere for Excel-brugere at skifte til det, pga ingen grund til at dykke ned i traditionel objektorienteret programmering.
I øjeblikket er der planlagt 12 videolektioner, der varer fra 5 til 20 minutter hver.
Lektionerne åbner gradvist. Hver mandag åbner jeg adgang til en ny lektion på min hjemmeside. YouTube-kanal i en separat afspilningsliste.
Hvem er dette kursus for?
Jeg synes, det fremgår tydeligt af titlen, men jeg vil beskrive det mere detaljeret.
Kurset henvender sig til dem, der aktivt bruger Microsoft Excel i deres arbejde og implementerer alt deres arbejde med data der. Generelt gælder det, at hvis du åbner Microsoft Excel-applikationen mindst en gang om ugen, så er kurset velegnet til dig.
Det kræves ikke, at du har programmeringsevner for at gennemføre kurset, fordi... Kurset henvender sig til begyndere.
Men måske, fra lektion 4, vil der også være interessant materiale for aktive R-brugere, fordi... hovedfunktionaliteten af sådanne pakker som dplyr и tidyr vil blive diskuteret i detaljer.
Kursusprogram
Lektion 1: Installation af R-sproget og RStudio-udviklingsmiljøet
Beskrivelse:
En introduktionslektion, hvor vi vil downloade og installere den nødvendige software og kort undersøge mulighederne og grænsefladen i RStudio-udviklingsmiljøet.
Beskrivelse:
Denne lektion hjælper dig med at forstå, hvilke datastrukturer der er tilgængelige på sproget R. Vi vil se nærmere på vektorer, datorammer og lister. Lad os lære at oprette dem og få adgang til deres individuelle elementer.
Lektion 3: Læsning af data fra TSV, CSV, Excel-filer og Google Sheets
Beskrivelse:
Arbejde med data, uanset værktøjet, begynder med dets udtræk. Pakker bruges i lektionen vroom, readxl, googlesheets4 til indlæsning af data i R-miljøet fra csv, tsv, Excel-filer og Google Sheets.
Lektion 4: Filtrering af rækker, valg og omdøbning af kolonner, pipelines i R
Beskrivelse:
Denne lektion handler om pakken dplyr. I det vil vi finde ud af, hvordan man filtrerer datarammer, vælger de nødvendige kolonner og omdøber dem.
Vi vil også lære, hvad pipelines er, og hvordan de hjælper med at gøre din R-kode mere læsbar.
Lektion 5: Tilføjelse af beregnede kolonner til en tabel i R
Beskrivelse:
I denne video fortsætter vi vores bekendtskab med biblioteket tidyverse og pakke dplyr.
Lad os se på familien af funktioner mutate(), og vi lærer, hvordan du bruger dem til at tilføje nye beregnede kolonner til tabellen.
Beskrivelse:
Denne lektion er viet til en af hovedoperationerne inden for dataanalyse, gruppering og aggregering. I løbet af lektionen vil vi bruge pakken dplyr og funktioner group_by() и summarise().
Vi vil se på hele familien af funktioner summarise(), dvs. summarise(), summarise_if() и summarise_at().
Lektion 7: Lodret og vandret samling af tabeller i R
Beskrivelse:
Vinduesfunktioner ligner i betydningen aggregerende; de tager også en række værdier som input og udfører aritmetiske operationer på dem, men ændrer ikke antallet af rækker i outputresultatet.
I denne tutorial fortsætter vi med at studere pakken dplyr, og funktioner group_by(), mutate(), samt nye cumsum(), lag(), lead() и arrange().
Lektion 9: Roterende tabeller eller en analog af pivottabeller i R
Beskrivelse:
De fleste Excel-brugere bruger pivottabeller; dette er et praktisk værktøj, hvormed du kan omdanne en række rådata til læsbare rapporter på få sekunder.
I denne tutorial vil vi se på, hvordan man roterer tabeller i R, og konverterer dem fra bredt til langt format og omvendt.
Det meste af lektionen er dedikeret til pakken tidyr og funktioner pivot_longer() и pivot_wider().
Lektion 10: Indlæsning af JSON-filer i R og konvertering af lister til tabeller
Beskrivelse:
JSON og XML er ekstremt populære formater til lagring og udveksling af information, normalt på grund af deres kompakthed.
Men det er svært at analysere data præsenteret i sådanne formater, så før analyse er det nødvendigt at bringe det i en tabelform, hvilket er præcis, hvad vi vil lære i denne video.
Lektionen er dedikeret til pakken tidyr, inkluderet i kernen af biblioteket tidyverse, og funktioner unnest_longer(), unnest_wider() и hoist().
Lektion 11: Plot hurtigt ved hjælp af qplot()-funktionen
Beskrivelse:
Lektionen demonstrerer pakkens fulde kraft ggplot2 og grammatikken for at bygge grafer i lag indlejret i den.
Vi vil analysere de vigtigste geometrier, der er til stede i pakken, og lære, hvordan man anvender lag til at bygge en graf.
Konklusion
Jeg forsøgte at nærme mig dannelsen af kursusprogrammet så kortfattet som muligt, for kun at fremhæve den mest nødvendige information, som du har brug for for at tage de første skridt til at lære et så kraftfuldt dataanalyseværktøj som R-sproget.
Kurset er ikke en udtømmende guide til dataanalyse ved brug af R-sproget, men det vil hjælpe dig med at forstå alle de nødvendige teknikker til dette.
Mens kursusprogrammet er designet til 12 uger, åbner jeg hver uge om mandagen adgang til nye lektioner, så jeg anbefaler abonnere på YouTube-kanalen for ikke at gå glip af offentliggørelsen af en ny lektion.