På grunn av karantene tilbringer mange nå brorparten av tiden sin hjemme, og denne tiden kan, og bør til og med, brukes nyttig.
I begynnelsen av karantenen bestemte jeg meg for å fullføre noen prosjekter som jeg startet for noen måneder siden. Et av disse prosjektene var videokurset «R Language for Excel-brukere». Med dette kurset ønsket jeg å senke barrieren for å komme inn i R, og litt fylle den eksisterende mangelen på opplæringsmateriell om dette emnet på russisk.
Hvis alt arbeid med data i bedriften du jobber for fortsatt gjøres i Excel, så foreslår jeg at du setter deg inn i et mer moderne, og samtidig helt gratis, dataanalyseverktøy.
Innhold
Hvis du er interessert i dataanalyse, kan du være interessert i min telegram и youtube kanaler. Det meste av innholdet er dedikert til R-språket.
Kurset er bygget opp rundt arkitektur tidyverse, og pakkene som er inkludert i den: readr, vroom, dplyr, tidyr, ggplot2. Selvfølgelig er det andre gode pakker i R som utfører lignende operasjoner, for eksempel data.table, men syntaksen tidyverse intuitivt, lett å lese selv for en utrent bruker, så jeg tror det er bedre å begynne å lære R-språket med tidyverse.
Kurset vil guide deg gjennom alle dataanalyseoperasjoner, fra lasting til visualisering av det ferdige resultatet.
Hvorfor R og ikke Python? Fordi R er et funksjonelt språk, er det lettere for Excel-brukere å bytte til det, fordi ingen grunn til å fordype seg i tradisjonell objektorientert programmering.
For øyeblikket er det planlagt 12 videotimer, som varer fra 5 til 20 minutter hver.
Leksjonene vil åpne gradvis. Hver mandag åpner jeg tilgang til en ny leksjon på nettsiden min. YouTube-kanal i en egen spilleliste.
Hvem er dette kurset for?
Jeg tror dette er klart av tittelen, men jeg vil beskrive det mer detaljert.
Kurset retter seg mot de som aktivt bruker Microsoft Excel i sitt arbeid og implementerer alt sitt arbeid med data der. Generelt, hvis du åpner Microsoft Excel-applikasjonen minst en gang i uken, så passer kurset for deg.
Det kreves ikke at du har programmeringskunnskaper for å fullføre kurset, fordi... Kurset er rettet mot nybegynnere.
Men kanskje, fra og med leksjon 4, vil det også være interessant materiale for aktive R-brukere, fordi... hovedfunksjonaliteten til slike pakker som dplyr и tidyr vil bli diskutert i detalj.
Kursprogram
Leksjon 1: Installere R-språket og RStudio-utviklingsmiljøet
Beskrivelse:
En introduksjonsleksjon der vi vil laste ned og installere nødvendig programvare, og kort undersøke mulighetene og grensesnittet til RStudio-utviklingsmiljøet.
Beskrivelse:
Denne leksjonen vil hjelpe deg å forstå hvilke datastrukturer som er tilgjengelige på språket R. Vi vil se i detalj på vektorer, datorammer og lister. La oss lære hvordan du lager dem og får tilgang til deres individuelle elementer.
Leksjon 3: Lese data fra TSV, CSV, Excel-filer og Google Sheets
Beskrivelse:
Arbeid med data, uavhengig av verktøyet, begynner med uttrekket. Pakker brukes i timen vroom, readxl, googlesheets4 for å laste data inn i R-miljøet fra csv, tsv, Excel-filer og Google Sheets.
Leksjon 4: Filtrere rader, velge og gi nytt navn til kolonner, rørledninger i R
Beskrivelse:
Denne leksjonen handler om pakken dplyr. I den vil vi finne ut hvordan du filtrerer datarammer, velger de nødvendige kolonnene og gir dem nytt navn.
Vi vil også lære hva rørledninger er og hvordan de bidrar til å gjøre R-koden din mer lesbar.
Leksjon 5: Legge til beregnede kolonner i en tabell i R
Beskrivelse:
I denne videoen fortsetter vi vårt bekjentskap med biblioteket tidyverse og pakke dplyr.
La oss se på funksjonsfamilien mutate(), og vi vil lære hvordan du bruker dem til å legge til nye beregnede kolonner i tabellen.
Beskrivelse:
Denne leksjonen er viet en av hovedoperasjonene for dataanalyse, gruppering og aggregering. I løpet av timen vil vi bruke pakken dplyr og funksjoner group_by() и summarise().
Vi vil se på hele familien av funksjoner summarise(), dvs. summarise(), summarise_if() и summarise_at().
Leksjon 7: Vertikal og horisontal sammenføyning av tabeller i R
Beskrivelse:
Vindusfunksjoner ligner i betydningen aggregeringsfunksjoner; de tar også en rekke verdier som input og utfører aritmetiske operasjoner på dem, men endrer ikke antall rader i utdataresultatet.
I denne opplæringen fortsetter vi å studere pakken dplyr, og funksjoner group_by(), mutate(), samt nye cumsum(), lag(), lead() и arrange().
Leksjon 9: Roterende tabeller eller en analog av pivottabeller i R
Beskrivelse:
De fleste Excel-brukere bruker pivottabeller; dette er et praktisk verktøy som du kan gjøre om en rekke rådata til lesbare rapporter i løpet av sekunder.
I denne opplæringen skal vi se på hvordan du roterer tabeller i R, og konverterer dem fra bredt til langt format og omvendt.
Det meste av leksjonen er dedikert til pakken tidyr og funksjoner pivot_longer() и pivot_wider().
Leksjon 10: Laste JSON-filer i R og konvertere lister til tabeller
Beskrivelse:
JSON og XML er ekstremt populære formater for lagring og utveksling av informasjon, vanligvis på grunn av deres kompakthet.
Men det er vanskelig å analysere data presentert i slike formater, så før analyse er det nødvendig å bringe det inn i en tabellform, som er nøyaktig det vi vil lære i denne videoen.
Leksjonen er dedikert til pakken tidyr, inkludert i kjernen av biblioteket tidyverse, og funksjoner unnest_longer(), unnest_wider() и hoist().
Leksjon 11: Plotte raskt ved å bruke qplot()-funksjonen
Beskrivelse:
Leksjonen demonstrerer pakkens fulle kraft ggplot2 og grammatikken for å bygge grafer i lag innebygd i den.
Vi vil analysere hovedgeometriene som er tilstede i pakken og lære hvordan du bruker lag for å bygge en graf.
Konklusjon
Jeg prøvde å nærme meg dannelsen av kursprogrammet så konsist som mulig, for å fremheve kun den mest nødvendige informasjonen du trenger for å ta de første skrittene i å lære et så kraftig dataanalyseverktøy som R-språket.
Kurset er ikke en uttømmende guide til dataanalyse ved bruk av R-språket, men det vil hjelpe deg å forstå alle nødvendige teknikker for dette.
Mens kursprogrammet er utformet for 12 uker, vil jeg hver uke på mandager åpne tilgang til nye leksjoner, så jeg anbefaler abonnere på YouTube-kanalen for ikke å gå glipp av publiseringen av en ny leksjon.