R language para sa mga user ng Excel (libreng video course)

Dahil sa quarantine, marami ngayon ang gumugugol ng malaking bahagi ng kanilang oras sa bahay, at ang oras na ito ay maaari, at kahit na dapat, gugulin nang kapaki-pakinabang.

Sa simula ng quarantine, nagpasya akong tapusin ang ilang proyekto na sinimulan ko ilang buwan na ang nakakaraan. Isa sa mga proyektong ito ay ang video course na "R Language para sa Excel Users". Sa kursong ito, nais kong babaan ang hadlang sa pagpasok sa R, at bahagyang punan ang kasalukuyang kakulangan ng mga materyales sa pagsasanay sa paksang ito sa Russian.

Kung ang lahat ng gumagana sa data sa kumpanyang pinagtatrabahuhan mo ay ginagawa pa rin sa Excel, iminumungkahi kong pamilyar ka sa isang mas moderno, at sa parehong oras ay ganap na libre, tool sa pagsusuri ng data.

R language para sa mga user ng Excel (libreng video course)

nilalaman

Kung interesado ka sa pagsusuri ng data, maaaring interesado ka sa aking telegram ΠΈ youtube mga channel. Karamihan sa nilalaman ay nakatuon sa wikang R.

  1. sanggunian
  2. Tungkol sa kurso
  3. Para kanino ang kursong ito?
  4. Programa ng kurso
    4.1. Aralin 1: Pag-install ng wikang R at ang kapaligiran ng pagbuo ng RStudio
    4.2. Aralin 2: Mga Pangunahing Istruktura ng Data sa R
    4.3. Aralin 3: Pagbabasa ng data mula sa TSV, CSV, Excel file at Google Sheets
    4.4. Aralin 4: Pag-filter ng mga hilera, pagpili at pagpapalit ng pangalan ng mga column, mga pipeline sa R
    4.5. Aralin 5: Pagdaragdag ng Mga Nakalkulang Hanay sa isang Talahanayan sa R
    4.6. Aralin 6: Pagpapangkat at Pagsasama-sama ng Datos sa R
    4.7. Aralin 7: Vertical at Horizontal na Pagsasama ng mga Table sa R
    4.8. Aralin 8: Mga Pag-andar ng Window sa R
    4.9. Aralin 9: Umiikot na mga talahanayan o isang analogue ng mga pivot table sa R
    4.10. Aralin 10: Nilo-load ang mga JSON File sa R ​​at Pag-convert ng mga Listahan sa Mga Talahanayan
    4.11. Aralin 11: Mabilis na Pag-plot Gamit ang qplot() Function
    4.12. Aralin 12: Pag-plot ng layer by layer plot gamit ang ggplot2 package
  5. Konklusyon

sanggunian

Tungkol sa kurso

Ang kurso ay nakabalangkas sa paligid ng arkitektura tidyverse, at ang mga pakete na kasama dito: readr, vroom, dplyr, tidyr, ggplot2. Siyempre, may iba pang magagandang pakete sa R ​​na nagsasagawa ng mga katulad na operasyon, halimbawa data.table, ngunit ang syntax tidyverse intuitive, madaling basahin kahit para sa isang hindi sanay na gumagamit, kaya sa palagay ko mas mabuting simulan ang pag-aaral ng wikang R gamit ang tidyverse.

Gagabayan ka ng kurso sa lahat ng mga operasyon sa pagsusuri ng data, mula sa pag-load hanggang sa pag-visualize sa natapos na resulta.

Bakit R at hindi Python? Dahil ang R ay isang functional na wika, mas madali para sa mga gumagamit ng Excel na lumipat dito, dahil hindi na kailangang bungkalin ang tradisyonal na object-oriented programming.

Sa ngayon, 12 video lesson ang pinaplano, na tumatagal mula 5 hanggang 20 minuto bawat isa.

Unti-unting magbubukas ang mga aralin. Tuwing Lunes magbubukas ako ng access sa isang bagong aralin sa aking website. Channel sa YouTube sa isang hiwalay na playlist.

Para kanino ang kursong ito?

Sa tingin ko ito ay malinaw mula sa pamagat, gayunpaman, ilalarawan ko ito nang mas detalyado.

Ang kurso ay naglalayong sa mga aktibong gumagamit ng Microsoft Excel sa kanilang trabaho at nagpapatupad ng lahat ng kanilang trabaho na may data doon. Sa pangkalahatan, kung bubuksan mo ang application ng Microsoft Excel nang hindi bababa sa isang beses sa isang linggo, kung gayon ang kurso ay angkop para sa iyo.

Hindi mo kailangang magkaroon ng mga kasanayan sa programming para makumpleto ang kurso, dahil... Ang kurso ay naglalayong sa mga nagsisimula.

Ngunit, marahil, simula sa aralin 4, magkakaroon din ng kawili-wiling materyal para sa mga aktibong gumagamit ng R, dahil... ang pangunahing pag-andar ng naturang mga pakete bilang dplyr ΠΈ tidyr ay tatalakayin sa ilang detalye.

Programa ng kurso

Aralin 1: Pag-install ng wikang R at ang kapaligiran ng pagbuo ng RStudio

Petsa ng publikasyon: Marso 23 2020

Link:

Video:

Paglalarawan:
Isang panimulang aralin kung saan kami ay magda-download at mag-i-install ng kinakailangang software, at maikling suriin ang mga kakayahan at interface ng kapaligiran ng pag-unlad ng RStudio.

Aralin 2: Mga Pangunahing Istruktura ng Data sa R

Petsa ng publikasyon: Marso 30 2020

Link:

Video:

Paglalarawan:
Tutulungan ka ng araling ito na maunawaan kung anong mga istruktura ng data ang magagamit sa wikang R. Titingnan namin nang detalyado ang mga vector, mga frame ng petsa at mga listahan. Alamin natin kung paano gawin ang mga ito at i-access ang kanilang mga indibidwal na elemento.

Aralin 3: Pagbabasa ng data mula sa TSV, CSV, Excel file at Google Sheets

Petsa ng publikasyon: Abril 6 2020

Link:

Video:

Paglalarawan:
Ang pagtatrabaho sa data, anuman ang tool, ay nagsisimula sa pagkuha nito. Ang mga pakete ay ginagamit sa panahon ng aralin vroom, readxl, googlesheets4 para sa paglo-load ng data sa R ​​environment mula sa csv, tsv, Excel file at Google Sheets.

Aralin 4: Pag-filter ng mga hilera, pagpili at pagpapalit ng pangalan ng mga column, mga pipeline sa R

Petsa ng publikasyon: Abril 13 2020

Link:

Video:

Paglalarawan:
Ang araling ito ay tungkol sa pakete dplyr. Sa loob nito ay malalaman natin kung paano i-filter ang mga dataframe, piliin ang mga kinakailangang hanay at palitan ang pangalan ng mga ito.

Malalaman din namin kung ano ang mga pipeline at kung paano nakakatulong ang mga ito na gawing mas nababasa ang iyong R code.

Aralin 5: Pagdaragdag ng Mga Nakalkulang Hanay sa isang Talahanayan sa R

Petsa ng publikasyon: Abril 20 2020

Link:

Video:

Paglalarawan:
Sa video na ito ay ipinagpatuloy natin ang ating pakikipagkilala sa aklatan tidyverse at pakete dplyr.
Tingnan natin ang pamilya ng mga function mutate(), at matututunan natin kung paano gamitin ang mga ito upang magdagdag ng mga bagong nakalkulang column sa talahanayan.

Aralin 6: Pagpapangkat at Pagsasama-sama ng Datos sa R

Petsa ng publikasyon: Abril 27 2020

Link:

Video:

Paglalarawan:
Ang araling ito ay nakatuon sa isa sa mga pangunahing operasyon ng pagsusuri ng data, pagpapangkat at pagsasama-sama. Sa panahon ng aralin gagamitin natin ang pakete dplyr at mga tampok group_by() ΠΈ summarise().

Titingnan natin ang buong pamilya ng mga function summarise()Ie summarise(), summarise_if() ΠΈ summarise_at().

Aralin 7: Vertical at Horizontal na Pagsasama ng mga Table sa R

Petsa ng publikasyon: Mayo 4 2020

Link:

Video:

Paglalarawan:
Tutulungan ka ng araling ito na maunawaan ang mga operasyon ng patayo at pahalang na pagsasama ng mga talahanayan.

Ang isang patayong unyon ay ang katumbas ng operasyon ng UNION sa wika ng query sa SQL.

Ang pahalang na pagsali ay mas kilala sa mga gumagamit ng Excel salamat sa VLOOKUP function; sa SQL, ang mga naturang operasyon ay ginagawa ng JOIN operator.

Sa panahon ng aralin, malulutas natin ang isang praktikal na problema kung saan gagamit tayo ng mga pakete dplyr, readxl, tidyr ΠΈ stringr.

Ang mga pangunahing pag-andar na isasaalang-alang namin:

  • bind_rows() - patayong pagdugtong ng mga talahanayan
  • left_join() β€” pahalang na pagdugtong ng mga talahanayan
  • semi_join() - kabilang ang pagsali sa mga talahanayan
  • anti_join() - eksklusibong pagsali sa mesa

Aralin 8: Mga Pag-andar ng Window sa R

Petsa ng publikasyon: Mayo 11 2020

Link:

Paglalarawan:
Ang mga function ng window ay katulad ng kahulugan sa pinagsama-samang mga; kumukuha din sila ng isang hanay ng mga halaga bilang input at nagsasagawa ng mga operasyon ng aritmetika sa mga ito, ngunit hindi binabago ang bilang ng mga hilera sa resulta ng output.

Sa tutorial na ito ay patuloy naming pinag-aaralan ang package dplyr, at mga function group_by(), mutate(), pati na rin ang bago cumsum(), lag(), lead() ΠΈ arrange().

Aralin 9: Umiikot na mga talahanayan o isang analogue ng mga pivot table sa R

Petsa ng publikasyon: Mayo 18 2020

Link:

Paglalarawan:
Karamihan sa mga user ng Excel ay gumagamit ng mga pivot table; ito ay isang maginhawang tool kung saan maaari mong gawing mga nababasang ulat ang isang array ng raw data sa loob ng ilang segundo.

Sa tutorial na ito, titingnan natin kung paano paikutin ang mga talahanayan sa R, at i-convert ang mga ito mula sa malawak hanggang sa mahabang format at vice versa.

Karamihan sa aralin ay nakatuon sa pakete tidyr at mga function pivot_longer() ΠΈ pivot_wider().

Aralin 10: Nilo-load ang mga JSON File sa R ​​at Pag-convert ng mga Listahan sa Mga Talahanayan

Petsa ng publikasyon: Mayo 25 2020

Link:

Paglalarawan:
Ang JSON at XML ay napakasikat na mga format para sa pag-iimbak at pagpapalitan ng impormasyon, kadalasan dahil sa pagiging compact ng mga ito.

Ngunit mahirap pag-aralan ang data na ipinakita sa naturang mga format, kaya bago ang pagsusuri ay kinakailangan na dalhin ito sa isang tabular form, na kung ano mismo ang matututunan natin sa video na ito.

Ang aralin ay nakatuon sa pakete tidyr, kasama sa core ng library tidyverse, at mga function unnest_longer(), unnest_wider() ΠΈ hoist().

Aralin 11: Mabilis na Pag-plot Gamit ang qplot() Function

Petsa ng publikasyon: Hunyo 1 2020

Link:

Paglalarawan:
Package ggplot2 ay isa sa mga pinakasikat na tool sa visualization ng data hindi lamang sa R.

Sa araling ito matututunan natin kung paano bumuo ng mga simpleng graph gamit ang function qplot(), at suriin natin ang lahat ng kanyang mga argumento.

Aralin 12: Pag-plot ng layer by layer plot gamit ang ggplot2 package

Petsa ng publikasyon: Hunyo 8 2020

Link:

Paglalarawan:
Ang aralin ay nagpapakita ng buong kapangyarihan ng pakete ggplot2 at ang grammar ng pagbuo ng mga graph sa mga layer na naka-embed dito.

Susuriin namin ang mga pangunahing geometry na naroroon sa package at matutunan kung paano mag-apply ng mga layer upang bumuo ng isang graph.

Konklusyon

Sinubukan kong lapitan ang pagbuo ng programa ng kurso nang maikli hangga't maaari, upang i-highlight lamang ang pinaka-kinakailangang impormasyon na kakailanganin mo upang magawa ang mga unang hakbang sa pag-aaral ng napakalakas na tool sa pagsusuri ng data gaya ng wikang R.

Ang kurso ay hindi isang kumpletong gabay sa pagsusuri ng data gamit ang wikang R, ngunit makakatulong ito sa iyo na maunawaan ang lahat ng kinakailangang mga diskarte para dito.

Habang ang programa ng kurso ay idinisenyo para sa 12 linggo, bawat linggo tuwing Lunes ay magbubukas ako ng access sa mga bagong aralin, kaya inirerekomenda ko mag-subscribe sa YouTube channel upang hindi makaligtaan ang paglalathala ng bagong aralin.

Pinagmulan: www.habr.com

Magdagdag ng komento