由於隔離,許多人現在大部分時間都待在家裡,而這段時間可以、甚至應該有用地度過。
隔離開始時,我決定完成幾個月前開始的一些專案。 其中一個項目是影片課程「Excel 使用者的 R 語言」。 透過這門課程,我想降低進入 R 的門檻,並稍微填補現有的俄語培訓材料的短缺。
如果您所在公司的所有資料處理工作仍然在 Excel 中完成,那麼我建議您熟悉一種更現代、同時完全免費的資料分析工具。
Содержание
如果您對數據分析感興趣,您可能會對我的文章感興趣
引用 關於課程 這門課程適合誰? 課程計劃
4.1.第1課:安裝R語言和RStudio開發環境
4.2.第 2 課:R 中的基本資料結構
4.3.第 3 課:從 TSV、CSV、Excel 檔案和 Google Sheets 讀取數據
4.4.第 4 課:在 R 中過濾行、選擇和重新命名列、管道
4.5.第 5 課:將計算列加入到 R 中的表中
4.6.第 6 課:R 中的資料分組與聚合
4.7.第 7 課:R 中表格的垂直和水平連接
4.8.第 8 課:R 中的視窗函數
4.9.第 9 課:R 中的旋轉表或類似的資料透視表
4.10.第 10 課:在 R 中載入 JSON 檔案並將清單轉換為表格
4.11.第 11 課:使用 qplot() 函數快速繪圖
4.12.第 12 課:使用 ggplot2 套件逐層繪製圖 結論
引用
關於課程
該課程圍繞建築學構建 tidyverse
,以及其中包含的包: readr
, vroom
, dplyr
, tidyr
, ggplot2
。 當然,R 中還有其他很好的套件可以執行類似的操作,例如 data.table
,但是語法 tidyverse
直觀,即使對於未經培訓的用戶來說也易於閱讀,所以我認為最好從以下內容開始學習 R 語言 tidyverse
.
本課程將引導您完成所有資料分析操作,從載入到視覺化最終結果。
為什麼是 R 而不是 Python? 由於 R 是一種函數式語言,Excel 使用者更容易切換到它,因為無需深入研究傳統的物件導向程式設計。
目前計劃安排 12 個視訊課程,每節持續 5 至 20 分鐘。
課程將逐步開放。 每個星期一我都會在我的網站上開放新課程的訪問。
這門課程適合誰?
我認為從標題中可以清楚地看出這一點,但是,我將更詳細地描述它。
該課程是為那些在工作中積極使用 Microsoft Excel 並使用其中的數據來實施所有工作的人。 一般來說,如果您每周至少打開一次 Microsoft Excel 應用程序,那麼該課程就適合您。
您不需要具備程式設計技能來完成課程,因為... 該課程針對初學者。
但是,也許從第 4 課開始,也會為活躍的 R 用戶提供有趣的材料,因為… 此類軟體包的主要功能為 dplyr
и tidyr
將進行更詳細的討論。
課程計劃
第1課:安裝R語言和RStudio開發環境
出版日期: 三月23 2020
引用:
視頻:
說明:
在介紹課程中,我們將下載並安裝必要的軟體,並簡要檢查 RStudio 開發環境的功能和介面。
第 2 課:R 中的基本資料結構
出版日期: 三月30 2020
引用:
視頻:
說明:
本課程將幫助您了解 R 語言中可用的資料結構。我們將詳細介紹向量、日期框架和清單。 讓我們學習如何創建它們並存取它們的各個元素。
第 3 課:從 TSV、CSV、Excel 檔案和 Google Sheets 讀取數據
出版日期: 四月6 2020
引用:
視頻:
說明:
無論使用什麼工具,處理資料都是從提取資料開始的。 課程期間使用包 vroom
, readxl
, googlesheets4
用於將資料從 csv、tsv、Excel 檔案和 Google Sheets 載入到 R 環境中。
第 4 課:在 R 中過濾行、選擇和重新命名列、管道
出版日期: 四月13 2020
引用:
視頻:
說明:
本課是關於包包的 dplyr
。 在其中我們將了解如何過濾資料框、選擇必要的列並重新命名它們。
我們還將了解什麼是管道以及它們如何幫助您的 R 程式碼更具可讀性。
第 5 課:將計算列加入到 R 中的表中
出版日期: 四月20 2020
引用:
視頻:
說明:
在這段影片中我們繼續認識圖書館 tidyverse
和包裝 dplyr
.
讓我們看看函數族 mutate()
,我們將學習如何使用它們向表中新增新的計算列。
第 6 課:R 中的資料分組與聚合
出版日期: 四月27 2020
引用:
視頻:
說明:
本課致力於資料分析、分組和聚合的主要操作之一。 在課程中我們將使用該包 dplyr
和特點 group_by()
и summarise()
.
我們將看看整個函數系列 summarise()
即 summarise()
, summarise_if()
и summarise_at()
.
第 7 課:R 中表格的垂直和水平連接
出版日期: 4 2020五月
引用:
視頻:
說明:
本課程將幫助您了解垂直和水平連接表格的操作。
垂直聯合相當於SQL查詢語言中的UNION操作。
由於 VLOOKUP 函數,Excel 使用者更熟悉水平聯結;在 SQL 中,此類操作由 JOIN 運算子執行。
在課程中,我們將解決一個實際問題,在此過程中我們將使用包 dplyr
, readxl
, tidyr
и stringr
.
我們將考慮的主要功能:
bind_rows()
- 表格的垂直連接left_join()
— 表的水平連接semi_join()
- 包括連接表anti_join()
- 獨佔表連接
第 8 課:R 中的視窗函數
出版日期: 11 2020五月
引用:
說明:
視窗函數的含義與聚合函數類似;它們也將一組值作為輸入並對它們執行算術運算,但不會更改輸出結果中的行數。
在本教程中我們繼續研究包 dplyr
、和函數 group_by()
, mutate()
,以及新的 cumsum()
, lag()
, lead()
и arrange()
.
第 9 課:R 中的旋轉表或類似的資料透視表
出版日期: 18 2020五月
引用:
說明:
大多數 Excel 使用者都使用資料透視表;這是一個方便的工具,您可以使用它在幾秒鐘內將一組原始資料轉換為可讀的報告。
在本教程中,我們將了解如何在 R 中旋轉表格,並將其從寬格式轉換為長格式,反之亦然。
本課的大部分內容都是關於包的 tidyr
和功能 pivot_longer()
и pivot_wider()
.
第 10 課:在 R 中載入 JSON 檔案並將清單轉換為表格
出版日期: 25 2020五月
引用:
說明:
JSON 和 XML 是非常受歡迎的儲存和交換資訊格式,通常是因為它們的緊湊性。
但分析以這種格式呈現的數據很困難,因此在分析之前有必要將其轉換為表格形式,這正是我們將在本影片中學到的內容。
本課程專門討論包 tidyr
,包含在庫的核心中 tidyverse
、和函數 unnest_longer()
, unnest_wider()
и hoist()
.
第 11 課:使用 qplot() 函數快速繪圖
出版日期: 1 2020月
引用:
說明:
包 ggplot2
不僅是 R 中最受歡迎的資料視覺化工具之一。
在本課中,我們將學習如何使用函數建立簡單的圖表 qplot()
,讓我們來分析一下她的所有論點。
第 12 課:使用 ggplot2 套件逐層繪製圖
出版日期: 8 2020月
引用:
說明:
本課程展示了該軟體包的全部功能 ggplot2
以及在嵌入其中的層中建立圖的語法。
我們將分析套件中存在的主要幾何圖形,並學習如何應用圖層來建立圖形。
結論
我嘗試盡可能簡潔地制定課程計劃,僅突出顯示您需要的最必要的信息,以便邁出學習 R 語言這樣強大的數據分析工具的第一步。
本課程並不是使用 R 語言進行資料分析的詳盡指南,但它將幫助您了解所有必要的技術。
雖然課程計畫設計為 12 週,但每週一我都會開放新課程,所以我建議
來源: www.habr.com