由于隔离,许多人现在大部分时间都呆在家里,而这段时间可以、甚至应该有用地度过。
隔离开始时,我决定完成几个月前开始的一些项目。 其中一个项目是视频课程“Excel 用户的 R 语言”。 通过这门课程,我想降低进入 R 的门槛,并稍微填补现有的俄语培训材料的短缺。
如果您所在公司的所有数据处理工作仍然在 Excel 中完成,那么我建议您熟悉一种更现代、同时完全免费的数据分析工具。
内容
如果您对数据分析感兴趣,您可能会对我的文章感兴趣
引用 关于课程 这门课程适合谁? 课程计划
4.1.第1课:安装R语言和RStudio开发环境
4.2.第 2 课:R 中的基本数据结构
4.3.第 3 课:从 TSV、CSV、Excel 文件和 Google Sheets 读取数据
4.4.第 4 课:在 R 中过滤行、选择和重命名列、管道
4.5.第 5 课:将计算列添加到 R 中的表中
4.6.第 6 课:R 中的数据分组和聚合
4.7.第 7 课:R 中表格的垂直和水平连接
4.8.第 8 课:R 中的窗口函数
4.9.第 9 课:R 中的旋转表或类似的数据透视表
4.10.第 10 课:在 R 中加载 JSON 文件并将列表转换为表格
4.11.第 11 课:使用 qplot() 函数快速绘图
4.12.第 12 课:使用 ggplot2 包逐层绘制图 结论
引用
关于课程
该课程围绕建筑学构建 tidyverse
,以及其中包含的包: readr
, vroom
, dplyr
, tidyr
, ggplot2
。 当然,R 中还有其他很好的包可以执行类似的操作,例如 data.table
,但是语法 tidyverse
直观,即使对于未经培训的用户来说也易于阅读,所以我认为最好从以下内容开始学习 R 语言 tidyverse
.
本课程将指导您完成所有数据分析操作,从加载到可视化最终结果。
为什么是 R 而不是 Python? 由于 R 是一种函数式语言,Excel 用户更容易切换到它,因为无需深入研究传统的面向对象编程。
目前计划安排 12 节视频课程,每节持续 5 至 20 分钟。
课程将逐步开放。 每个星期一我都会在我的网站上开放新课程的访问。
这门课程适合谁?
我认为从标题中可以清楚地看出这一点,但是,我将更详细地描述它。
该课程面向那些在工作中积极使用 Microsoft Excel 并使用其中的数据实施所有工作的人员。 一般来说,如果您每周至少打开一次 Microsoft Excel 应用程序,那么该课程就适合您。
您不需要具备编程技能来完成课程,因为...... 该课程针对初学者。
但是,也许从第 4 课开始,也会为活跃的 R 用户提供有趣的材料,因为…… 此类软件包的主要功能为 dplyr
и tidyr
将进行更详细的讨论。
课程计划
第1课:安装R语言和RStudio开发环境
出版日期: 三月23 2020
参考文献:
视频:
说明:
在介绍性课程中,我们将下载并安装必要的软件,并简要检查 RStudio 开发环境的功能和界面。
第 2 课:R 中的基本数据结构
出版日期: 三月30 2020
参考文献:
视频:
说明:
本课程将帮助您了解 R 语言中可用的数据结构。我们将详细介绍向量、日期框架和列表。 让我们学习如何创建它们并访问它们的各个元素。
第 3 课:从 TSV、CSV、Excel 文件和 Google Sheets 读取数据
出版日期: 6月2020
参考文献:
视频:
说明:
无论使用什么工具,处理数据都是从提取数据开始的。 课程期间使用包 vroom
, readxl
, googlesheets4
用于将数据从 csv、tsv、Excel 文件和 Google Sheets 加载到 R 环境中。
第 4 课:在 R 中过滤行、选择和重命名列、管道
出版日期: 13月2020
参考文献:
视频:
说明:
本课是关于包的 dplyr
。 在其中我们将了解如何过滤数据框、选择必要的列并重命名它们。
我们还将了解什么是管道以及它们如何帮助您的 R 代码更具可读性。
第 5 课:将计算列添加到 R 中的表中
出版日期: 20月2020
参考文献:
视频:
说明:
在这段视频中我们继续认识图书馆 tidyverse
和包装 dplyr
.
让我们看看函数族 mutate()
,我们将学习如何使用它们向表中添加新的计算列。
第 6 课:R 中的数据分组和聚合
出版日期: 27月2020
参考文献:
视频:
说明:
本课致力于数据分析、分组和聚合的主要操作之一。 在课程中我们将使用该包 dplyr
和特点 group_by()
и summarise()
.
我们将看看整个函数系列 summarise()
即 summarise()
, summarise_if()
и summarise_at()
.
第 7 课:R 中表格的垂直和水平连接
出版日期: 4 2020五月
参考文献:
视频:
说明:
本课将帮助您了解垂直和水平连接表格的操作。
垂直联合相当于SQL查询语言中的UNION操作。
由于 VLOOKUP 函数,Excel 用户更熟悉水平联接;在 SQL 中,此类操作由 JOIN 运算符执行。
在课程中,我们将解决一个实际问题,在此过程中我们将使用包 dplyr
, readxl
, tidyr
и stringr
.
我们将考虑的主要功能:
bind_rows()
— 表的垂直连接left_join()
— 表的水平连接semi_join()
- 包括连接表anti_join()
- 独占表连接
第 8 课:R 中的窗口函数
出版日期: 11 2020五月
参考文献:
说明:
窗口函数的含义与聚合函数类似;它们也将一组值作为输入并对它们执行算术运算,但不会更改输出结果中的行数。
在本教程中我们继续研究包 dplyr
、和函数 group_by()
, mutate()
,以及新的 cumsum()
, lag()
, lead()
и arrange()
.
第 9 课:R 中的旋转表或类似的数据透视表
出版日期: 18 2020五月
参考文献:
说明:
大多数 Excel 用户都使用数据透视表;这是一个方便的工具,您可以使用它在几秒钟内将一组原始数据转换为可读的报告。
在本教程中,我们将了解如何在 R 中旋转表格,并将其从宽格式转换为长格式,反之亦然。
本课的大部分内容都是关于包的 tidyr
和功能 pivot_longer()
и pivot_wider()
.
第 10 课:在 R 中加载 JSON 文件并将列表转换为表格
出版日期: 25 2020五月
参考文献:
说明:
JSON 和 XML 是非常流行的存储和交换信息格式,通常是因为它们的紧凑性。
但分析以这种格式呈现的数据很困难,因此在分析之前有必要将其转换为表格形式,这正是我们将在本视频中学到的内容。
本课程专门讨论包 tidyr
,包含在库的核心中 tidyverse
、和函数 unnest_longer()
, unnest_wider()
и hoist()
.
第 11 课:使用 qplot() 函数快速绘图
出版日期: 1 2020月
参考文献:
说明:
包 ggplot2
不仅是 R 中最流行的数据可视化工具之一。
在本课中,我们将学习如何使用函数构建简单的图表 qplot()
,让我们分析一下她的所有论点。
第 12 课:使用 ggplot2 包逐层绘制图
出版日期: 8 2020月
参考文献:
说明:
本课程展示了该软件包的全部功能 ggplot2
以及在嵌入其中的层中构建图的语法。
我们将分析包中存在的主要几何图形,并学习如何应用图层来构建图形。
结论
我尝试尽可能简洁地制定课程计划,仅突出显示您需要的最必要的信息,以便迈出学习 R 语言这样强大的数据分析工具的第一步。
本课程并不是使用 R 语言进行数据分析的详尽指南,但它将帮助您了解所有必要的技术。
虽然课程计划设计为 12 周,但每周一我都会开放新课程,所以我建议
来源: habr.com