提高数据科学技能的 14 个开源项目(简单、普通、困难)

初学者数据科学

1.情感分析(通过文本进行情绪分析)

提高数据科学技能的 14 个开源项目(简单、普通、困难)

使用源代码查看数据科学项目的完整实施 - R中的情感分析项目.

情感分析是对词语进行分析,以识别情感和观点,可以是正面的,也可以是负面的。 这是一种分类类型,其中类可以是二元的(正面和负面)或复数的(快乐、愤怒、悲伤、讨厌……)。 我们将在 R 中实施此数据科学项目,并将使用“janeaustenR”包中的数据集。 我们将使用 AFINN、bing 和 loughran 等通用词典,进行内部连接,最后我们将创建一个词云来显示结果。

语言: R
数据集/包: 珍妮丝

提高数据科学技能的 14 个开源项目(简单、普通、困难)

这篇文章是在爱迪生软件的支持下翻译的,它 为多品牌商店制作虚拟试衣间测试软件.

2.假新闻检测

通过为初学者开展数据科学项目,将您的技能提升到一个新的水平 - 用 Python 检测假新闻.

提高数据科学技能的 14 个开源项目(简单、普通、困难)

假新闻是通过社交媒体和其他网络媒体传播的虚假信息,以达到政治目的。 在这个数据科学项目构想中,我们将使用 Python 构建一个模型,可以准确判断新闻是真是假。 我们将创建一个 TfidfVectorizer 并使用 PassiveAggressiveClassifier 将新闻分类为“真实”和“虚假”。 我们将使用 7796×4 形状数据集并在 Jupyter Lab 中完成所有操作。

语言: 蟒蛇

数据集/包: 新闻.csv

3. 检测帕金森病

通过研究数据科学项目理念向前推进 - 使用 XGBoost 检测帕金森病.

提高数据科学技能的 14 个开源项目(简单、普通、困难)

我们已经开始使用数据科学来改善医疗保健和服务——如果我们能够在早期预测疾病,那么我们将有很多优势。 因此,在这个数据科学项目构想中,我们将学习如何使用 Python 检测帕金森病。 它是中枢神经系统的一种神经退行性进行性疾病,会影响运动并导致颤抖和僵硬。 它会影响大脑中产生多巴胺的神经元,每年影响印度超过 1 万人。

语言: 蟒蛇

数据集/包: UCI ML 帕金森数据集

中等复杂度的数据科学项目

4. 语音情感识别

查看数据科学示例项目的完整实施 - 使用 Librosa 进行语音识别.

提高数据科学技能的 14 个开源项目(简单、普通、困难)

现在让我们学习如何使用不同的库。 这个数据科学项目使用 librosa 进行语音识别。 SER 是从语音中识别人类情绪和情感状态的过程。 因为我们使用音调和音调来用声音表达情感,所以 SER 是相关的。 但由于情绪是主观的,音频注释是一项艰巨的任务。 我们将使用 mfcc、chroma 和 mel 函数,并使用 RAVDESS 数据集进行情绪识别。 我们将为这个模型创建一个 MLPC 分类器。

语言: 蟒蛇

数据集/包: RAVDESS 数据集

5.性别和年龄检测

用最新的数据科学项目给雇主留下深刻印象 - 使用 OpenCV 进行性别和年龄检测.

提高数据科学技能的 14 个开源项目(简单、普通、困难)

这是一个有趣的 Python 数据科学。 仅使用一张图像,您将学习如何预测一个人的性别和年龄。 在此,我们将向您介绍计算机视觉及其原理。 我们将建造 卷积神经网络 并将使用 Tal Hassner 和 Gil Levy 在 Adience 数据集上训练的模型。 在此过程中,我们将使用一些 .pb、.pbtxt、.prototxt 和 .caffemodel 文件。

语言: 蟒蛇

数据集/包: 听众

6.优步数据分析

使用源代码查看数据科学项目的完整实现 - R 中的 Uber 数据分析项目.

提高数据科学技能的 14 个开源项目(简单、普通、困难)

这是一个使用 ggplot2 的数据可视化项目,我们将在其中使用 R 及其库并分析各种参数。 我们将使用 Uber Pickups New York 数据集并为一年中的不同时间范围创建可视化。 这告诉我们时间如何影响客户旅程。

语言: R

数据集/包: 纽约市数据集中的 Uber Pickups

7. 驾驶员困倦检测

通过参与顶级数据科学项目来提升您的技能 - 使用 OpenCV 和 Keras 的困倦检测系统.

提高数据科学技能的 14 个开源项目(简单、普通、困难)

昏昏欲睡的驾驶极其危险,每年约有上千起事故是由于司机在驾驶时打瞌睡造成的。 在这个 Python 项目中,我们将构建一个系统,该系统可以检测困倦的司机并通过蜂鸣声提醒他们。

本项目使用 Keras 和 OpenCV 实现。 我们将使用 OpenCV 检测面部和眼睛,并在 Keras 的帮助下,使用深度神经网络方法对眼睛的状态(睁开或闭合)进行分类。

8.聊天机器人

用 Python 构建一个聊天机器人,在你的职业生涯中更进一步 - 使用 NLTK 和 Keras 的聊天机器人.

提高数据科学技能的 14 个开源项目(简单、普通、困难)

聊天机器人是业务不可或缺的一部分。 许多企业要为他们的客户提供服务,需要大量的人力、时间和精力来为他们服务。 聊天机器人可以通过回答客户提出的一些常见问题来自动化大部分客户交互。 基本上有两种类型的聊天机器人:特定领域和开放领域。 特定领域的聊天机器人通常用于解决特定问题。 因此,您需要自定义它以在您的领域有效工作。 可以向开放域聊天机器人提出任何问题,因此训练它们需要大量数据。

数据集: 意图 json 文件

语言: 蟒蛇

高级数据科学项目

9. 图片说明生成器

使用源代码查看完整的项目实现 - 带有 CNN 和 LSTM 的图像字幕生成器.

提高数据科学技能的 14 个开源项目(简单、普通、困难)

描述图像中的内容对于人类来说是一项简单的任务,但对于计算机而言,图像只是代表每个像素颜色值的数字集合。 这对计算机来说是一项艰巨的任务。 了解图像中的内容然后创建自然语言描述(例如英语)是另一项艰巨的任务。 该项目使用深度学习技术,在该技术中,我们使用循环神经网络 (LSTM) 实现卷积神经网络 (CNN) 来创建图像描述生成器。

数据集: 8K

语言: 蟒蛇

框架: Keras

10. 信用卡欺诈检测

通过研究数据科学项目构想来尽力而为 - 使用机器学习的信用卡欺诈检测.

提高数据科学技能的 14 个开源项目(简单、普通、困难)

到目前为止,您已经开始了解这些方法和概念。 让我们继续进行一些高级数据科学项目。 在这个项目中,我们将使用 R 语言和算法,例如 决策树、逻辑回归、人工神经网络和梯度提升分类器。 我们将使用卡交易数据集将信用卡交易分类为欺诈交易和真实交易。 我们将为他们选择不同的模型并构建性能曲线。

语言: R

数据集/包: 卡交易数据集

11.电影推荐系统

使用源代码探索最佳数据科学项目的实施 - R中的电影推荐系统

提高数据科学技能的 14 个开源项目(简单、普通、困难)

在这个数据科学项目中,我们将使用 R 通过机器学习来执行电影的推荐。 推荐系统通过基于其他用户的偏好和浏览历史的过滤过程向用户发送建议。 如果 A 和 B 喜欢 Home Alone,而 B 喜欢 Mean Girls,那么你可以推荐 A - 他们可能也会喜欢。 这允许客户与平台进行交互。

语言: R

数据集/包: MovieLens 数据集

12.客户细分

用数据科学项目(包括源代码)给雇主留下深刻印象 - 通过机器学习进行客户细分.

提高数据科学技能的 14 个开源项目(简单、普通、困难)

买家细分是一种流行的应用 无监督学习. 使用聚类,公司可以定义客户群以与潜在用户群合作。 他们根据性别、年龄、兴趣、消费习惯等共同特征将顾客分组,以便有效地向每个群体推销自己的产品。 我们将使用 K均值聚类,以及按性别和年龄可视化分布。 然后我们分析他们的年度收入和支出水平。

语言: R

数据集/包: Mall_Customers 数据集

13. 乳腺癌分类

查看 Python 中数据科学项目的完整实施 - 使用深度学习进行乳腺癌分类.

提高数据科学技能的 14 个开源项目(简单、普通、困难)

回到数据科学对医学的贡献,让我们学习如何使用 Python 检测乳腺癌。 我们将使用 IDC_regular 数据集来检测浸润性导管癌,这是最常见的乳腺癌形式。 它在乳管中发育,渗透到导管外乳腺的纤维或脂肪组织中。 在这个数据收集科学项目的想法中,我们将使用 深度学习 和用于分类的 Keras 库。

语言: 蟒蛇

数据集/包: IDC_常规

14.交通标志识别

通过数据科学项目实现自动驾驶汽车技术的精确性 使用 CNN 进行交通标志识别 开源。

提高数据科学技能的 14 个开源项目(简单、普通、困难)

道路标志和交通规则对于每个司机避免事故都是非常重要的。 要遵守规则,您首先需要了解路标的外观。 一个人在被授予驾驶任何车辆的权利之前必须学习所有的路标。 但现在自动驾驶汽车的数量越来越多,在不久的将来,一个人将不再独自驾驶汽车。 在路标识别项目中,您将了解程序如何通过将图像作为输入来识别一种路标。 德国道路标志识别参考数据集 (GTSRB) 用于构建深度神经网络以识别交通标志所属的类别。 我们还创建了一个简单的 GUI 来与应用程序交互。

语言: 蟒蛇

数据集: GTRB(德国交通标志识别基准)

阅读更多

来源: habr.com

添加评论