R-sprog for Excel-brugere (gratis videokursus)

På grund af karantæne bruger mange nu broderparten af ​​deres tid derhjemme, og denne tid kan, og bør endda, bruges med fordel.

I begyndelsen af ​​karantænen besluttede jeg at afslutte nogle projekter, som jeg startede for et par måneder siden. Et af disse projekter var videokurset "R-sprog for Excel-brugere". Med dette kursus ønskede jeg at sænke barrieren for adgang til R og lidt udfylde den eksisterende mangel på undervisningsmateriale om dette emne på russisk.

Hvis alt arbejde med data i den virksomhed, du arbejder for, stadig foregår i Excel, så foreslår jeg, at du stifter bekendtskab med et mere moderne, og samtidig helt gratis, dataanalyseværktøj.

R-sprog for Excel-brugere (gratis videokursus)

Indhold

Hvis du er interesseret i dataanalyse, er du måske interesseret i min telegram и youtube kanaler. Det meste af indholdet er afsat til R-sproget.

  1. RЎSЃS <P "RєRё
  2. Om kurset
  3. Hvem er dette kursus for?
  4. Kursusprogram
    4.1. Lektion 1: Installation af R-sproget og RStudio-udviklingsmiljøet
    4.2. Lektion 2: Grundlæggende datastrukturer i R
    4.3. Lektion 3: Læsning af data fra TSV, CSV, Excel-filer og Google Sheets
    4.4. Lektion 4: Filtrering af rækker, valg og omdøbning af kolonner, pipelines i R
    4.5. Lektion 5: Tilføjelse af beregnede kolonner til en tabel i R
    4.6. Lektion 6: Gruppering og aggregering af data i R
    4.7. Lektion 7: Lodret og vandret samling af tabeller i R
    4.8. Lektion 8: Vinduesfunktioner i R
    4.9. Lektion 9: Roterende tabeller eller en analog af pivottabeller i R
    4.10. Lektion 10: Indlæsning af JSON-filer i R og konvertering af lister til tabeller
    4.11. Lektion 11: Plot hurtigt ved hjælp af qplot()-funktionen
    4.12. Lektion 12: Plot lag for lag plots ved hjælp af ggplot2-pakken
  5. Konklusion

RЎSЃS <P "RєRё

Om kurset

Kurset er bygget op omkring arkitektur tidyverse, og pakkerne inkluderet i det: readr, vroom, dplyr, tidyr, ggplot2. Selvfølgelig er der andre gode pakker i R, der udfører lignende operationer, f.eks data.table, men syntaksen tidyverse intuitiv, let at læse selv for en utrænet bruger, så jeg synes, det er bedre at begynde at lære R-sproget med tidyverse.

Kurset vil guide dig gennem alle dataanalyseoperationer, fra indlæsning til visualisering af det færdige resultat.

Hvorfor R og ikke Python? Fordi R er et funktionelt sprog, er det nemmere for Excel-brugere at skifte til det, pga ingen grund til at dykke ned i traditionel objektorienteret programmering.

I øjeblikket er der planlagt 12 videolektioner, der varer fra 5 til 20 minutter hver.

Lektionerne åbner gradvist. Hver mandag åbner jeg adgang til en ny lektion på min hjemmeside. YouTube-kanal i en separat afspilningsliste.

Hvem er dette kursus for?

Jeg synes, det fremgår tydeligt af titlen, men jeg vil beskrive det mere detaljeret.

Kurset henvender sig til dem, der aktivt bruger Microsoft Excel i deres arbejde og implementerer alt deres arbejde med data der. Generelt gælder det, at hvis du åbner Microsoft Excel-applikationen mindst en gang om ugen, så er kurset velegnet til dig.

Det kræves ikke, at du har programmeringsevner for at gennemføre kurset, fordi... Kurset henvender sig til begyndere.

Men måske, fra lektion 4, vil der også være interessant materiale for aktive R-brugere, fordi... hovedfunktionaliteten af ​​sådanne pakker som dplyr и tidyr vil blive diskuteret i detaljer.

Kursusprogram

Lektion 1: Installation af R-sproget og RStudio-udviklingsmiljøet

Dato for offentliggørelse: March 23 2020

referencer:

Video:

Beskrivelse:
En introduktionslektion, hvor vi vil downloade og installere den nødvendige software og kort undersøge mulighederne og grænsefladen i RStudio-udviklingsmiljøet.

Lektion 2: Grundlæggende datastrukturer i R

Dato for offentliggørelse: March 30 2020

referencer:

Video:

Beskrivelse:
Denne lektion hjælper dig med at forstå, hvilke datastrukturer der er tilgængelige på sproget R. Vi vil se nærmere på vektorer, datorammer og lister. Lad os lære at oprette dem og få adgang til deres individuelle elementer.

Lektion 3: Læsning af data fra TSV, CSV, Excel-filer og Google Sheets

Dato for offentliggørelse: April 6 2020

referencer:

Video:

Beskrivelse:
Arbejde med data, uanset værktøjet, begynder med dets udtræk. Pakker bruges i lektionen vroom, readxl, googlesheets4 til indlæsning af data i R-miljøet fra csv, tsv, Excel-filer og Google Sheets.

Lektion 4: Filtrering af rækker, valg og omdøbning af kolonner, pipelines i R

Dato for offentliggørelse: April 13 2020

referencer:

Video:

Beskrivelse:
Denne lektion handler om pakken dplyr. I det vil vi finde ud af, hvordan man filtrerer datarammer, vælger de nødvendige kolonner og omdøber dem.

Vi vil også lære, hvad pipelines er, og hvordan de hjælper med at gøre din R-kode mere læsbar.

Lektion 5: Tilføjelse af beregnede kolonner til en tabel i R

Dato for offentliggørelse: April 20 2020

referencer:

Video:

Beskrivelse:
I denne video fortsætter vi vores bekendtskab med biblioteket tidyverse og pakke dplyr.
Lad os se på familien af ​​funktioner mutate(), og vi lærer, hvordan du bruger dem til at tilføje nye beregnede kolonner til tabellen.

Lektion 6: Gruppering og aggregering af data i R

Dato for offentliggørelse: April 27 2020

referencer:

Video:

Beskrivelse:
Denne lektion er viet til en af ​​hovedoperationerne inden for dataanalyse, gruppering og aggregering. I løbet af lektionen vil vi bruge pakken dplyr og funktioner group_by() и summarise().

Vi vil se på hele familien af ​​funktioner summarise(), dvs. summarise(), summarise_if() и summarise_at().

Lektion 7: Lodret og vandret samling af tabeller i R

Dato for offentliggørelse: May 4 2020

referencer:

Video:

Beskrivelse:
Denne lektion vil hjælpe dig med at forstå operationerne ved lodret og vandret sammenføjning af tabeller.

En vertikal union svarer til UNION-operationen i SQL-forespørgselssproget.

Horisontal joinforbindelse er bedre kendt for Excel-brugere takket være VLOOKUP-funktionen; i SQL udføres sådanne operationer af JOIN-operatøren.

I løbet af lektionen vil vi løse et praktisk problem, hvor vi vil bruge pakker dplyr, readxl, tidyr и stringr.

De vigtigste funktioner, som vi vil overveje:

  • bind_rows() - lodret sammenføjning af borde
  • left_join() — vandret sammenføjning af borde
  • semi_join() - herunder sammenføjning af borde
  • anti_join() - eksklusiv bordforbindelse

Lektion 8: Vinduesfunktioner i R

Dato for offentliggørelse: May 11 2020

referencer:

Beskrivelse:
Vinduesfunktioner ligner i betydningen aggregerende; de ​​tager også en række værdier som input og udfører aritmetiske operationer på dem, men ændrer ikke antallet af rækker i outputresultatet.

I denne tutorial fortsætter vi med at studere pakken dplyr, og funktioner group_by(), mutate(), samt nye cumsum(), lag(), lead() и arrange().

Lektion 9: Roterende tabeller eller en analog af pivottabeller i R

Dato for offentliggørelse: May 18 2020

referencer:

Beskrivelse:
De fleste Excel-brugere bruger pivottabeller; dette er et praktisk værktøj, hvormed du kan omdanne en række rådata til læsbare rapporter på få sekunder.

I denne tutorial vil vi se på, hvordan man roterer tabeller i R, og konverterer dem fra bredt til langt format og omvendt.

Det meste af lektionen er dedikeret til pakken tidyr og funktioner pivot_longer() и pivot_wider().

Lektion 10: Indlæsning af JSON-filer i R og konvertering af lister til tabeller

Dato for offentliggørelse: May 25 2020

referencer:

Beskrivelse:
JSON og XML er ekstremt populære formater til lagring og udveksling af information, normalt på grund af deres kompakthed.

Men det er svært at analysere data præsenteret i sådanne formater, så før analyse er det nødvendigt at bringe det i en tabelform, hvilket er præcis, hvad vi vil lære i denne video.

Lektionen er dedikeret til pakken tidyr, inkluderet i kernen af ​​biblioteket tidyverse, og funktioner unnest_longer(), unnest_wider() и hoist().

Lektion 11: Plot hurtigt ved hjælp af qplot()-funktionen

Dato for offentliggørelse: Juni 1 2020

referencer:

Beskrivelse:
pakke ggplot2 er et af de mest populære datavisualiseringsværktøjer, ikke kun i R.

I denne lektion lærer vi, hvordan man bygger simple grafer ved hjælp af funktionen qplot(), og lad os analysere alle hendes argumenter.

Lektion 12: Plot lag for lag plots ved hjælp af ggplot2-pakken

Dato for offentliggørelse: Juni 8 2020

referencer:

Beskrivelse:
Lektionen demonstrerer pakkens fulde kraft ggplot2 og grammatikken for at bygge grafer i lag indlejret i den.

Vi vil analysere de vigtigste geometrier, der er til stede i pakken, og lære, hvordan man anvender lag til at bygge en graf.

Konklusion

Jeg forsøgte at nærme mig dannelsen af ​​kursusprogrammet så kortfattet som muligt, for kun at fremhæve den mest nødvendige information, som du har brug for for at tage de første skridt til at lære et så kraftfuldt dataanalyseværktøj som R-sproget.

Kurset er ikke en udtømmende guide til dataanalyse ved brug af R-sproget, men det vil hjælpe dig med at forstå alle de nødvendige teknikker til dette.

Mens kursusprogrammet er designet til 12 uger, åbner jeg hver uge om mandagen adgang til nye lektioner, så jeg anbefaler abonnere på YouTube-kanalen for ikke at gå glip af offentliggørelsen af ​​en ny lektion.

Kilde: www.habr.com

Tilføj en kommentar