14 個提高數據科學技能的開源項目(簡單、普通、困難)

數據科學初學者

1. 情緒分析(透過文本進行情緒分析)

14 個提高數據科學技能的開源項目(簡單、普通、困難)

使用原始程式碼查看完整的資料科學專案實作 - R 中的情緒分析項目.

情感分析是透過分析字詞來確定情緒和觀點,可以是正面的或負面的。 這是一種分類類型,其中類別可以是二元(正面和負面)或複數(快樂、憤怒、悲傷、討厭...)。 我們將在 R 中實作這個資料科學項目,並將使用「janeaustenR」套件中的資料集。 我們將使用通用字典,例如 AFINN、bing 和 loughran,執行內連接,最後我們將建立一個詞雲來顯示結果。

語言: R
資料集/包: 亞諾斯坦R

14 個提高數據科學技能的開源項目(簡單、普通、困難)

本文的翻譯得到了 EDISON Software 的支持, 為多品牌商店製作虛擬試衣間測試軟體.

2. 假新聞檢測

透過為初學者開展數據科學項目,將您的技能提升到一個新的水平 - 使用 Python 檢測假新聞.

14 個提高數據科學技能的開源項目(簡單、普通、困難)

假新聞是透過社群媒體和其他網路媒體傳播的虛假訊息,以實現政治目標。 在這個資料科學專案想法中,我們將使用 Python 建立一個模型,可以準確地確定新聞報導的真假。 我們將建立一個 TfidfVectorizer 並使用 PassiveAggressiveClassifier 將新聞分類為「真實」和「虛假」。 我們將使用形狀為 7796×4 的資料集並在 Jupyter Lab 中運行所有內容。

語言: 蟒蛇

資料集/包: 新聞.csv

3. 檢測帕金森氏症

繼續推進您的數據科學專案構想 - 使用 XGBoost 檢測帕金森氏症.

14 個提高數據科學技能的開源項目(簡單、普通、困難)

我們已經開始使用數據科學來改善醫療保健和服務——如果我們能夠在早期階段預測疾病,那麼我們將擁有許多優勢。 因此,在這個資料科學專案想法中,我們將學習如何使用 Python 檢測帕金森氏症。 它是一種神經退化性、進行性中樞神經系統疾病,影響運動並導致震顫和僵硬。 它影響大腦中產生多巴胺的神經元,每年影響印度超過 1 萬人。

語言: 蟒蛇

資料集/包: UCI ML 帕金森資料集

中等複雜度的數據科學項目

4. 語音情緒識別

查看數據科學範例專案的完整實施 - 使用 Librosa 進行語音識別.

14 個提高數據科學技能的開源項目(簡單、普通、困難)

現在讓我們學習如何使用不同的函式庫。 此數據科學計畫使用 librosa 進行語音辨識。 SER 是從言語中辨識人類情緒和情緒狀態的過程。 由於我們使用語氣和音調來用聲音表達情感,因此 SER 是相關的。 但由於情感是主觀的,音頻註解是一項具有挑戰性的任務。 我們將使用 mfcc、chroma 和 mel 函數,並使用 RAVDESS 資料集進行情緒辨識。 我們將為該模型建立一個 MLPC 分類器。

語言: 蟒蛇

資料集/包: RAVDESS資料集

5. 性別和年齡檢測

透過最新的數據科學專案給雇主留下深刻印象 - 使用 OpenCV 確定性別和年齡.

14 個提高數據科學技能的開源項目(簡單、普通、困難)

這是一個有趣的 Python 資料科學。 僅使用一張圖像,您將學會預測一個人的性別和年齡。 在本文中,我們將向您介紹電腦視覺及其原理。 我們將建設 卷積神經網絡 並將使用 Tal Hassner 和 Gil Levy 在 Adience 資料集上訓練的模型。 在此過程中,我們將使用一些 .pb、.pbtxt、.prototxt 和 .caffemodel 檔案。

語言: 蟒蛇

資料集/包: 阿迪恩斯

6. Uber數據分析

使用原始程式碼查看完整的資料科學專案實作 - R 中的 Uber 數據分析項目.

14 個提高數據科學技能的開源項目(簡單、普通、困難)

這是一個使用 ggplot2 的資料視覺化項目,我們將使用 R 及其函式庫並分析各種參數。 我們將使用 Uber Pickups New York City 資料集並為一年中的不同時間範圍建立視覺化效果。 這告訴我們時間如何影響客戶的出行。

語言: R

資料集/包: 紐約市資料集中的 Uber 接送服務

7. 駕駛員困倦檢測

透過參與頂級數據科學專案來提高您的技能 - 使用 OpenCV 和 Keras 的睡意偵測系統.

14 個提高數據科學技能的開源項目(簡單、普通、困難)

疲勞駕駛極度危險,每年因駕駛時打瞌睡而發生的事故近千起。 在這個 Python 專案中,我們將創建一個系統,可以偵測昏昏欲睡的駕駛員,並透過音訊訊號提醒他們。

該專案是使用Keras和OpenCV實現的。 我們將使用 OpenCV 進行臉部和眼睛偵測,並透過 Keras 我們將使用深度神經網路技術對眼睛狀態(開啟或關閉)進行分類。

8.聊天機器人

使用 Python 創建聊天機器人並在您的職業生涯中向前邁進一步 - 使用 NLTK 和 Keras 的聊天機器人.

14 個提高數據科學技能的開源項目(簡單、普通、困難)

聊天機器人是業務不可或缺的一部分。 許多企業要為客戶提供服務,需要花費大量的人力、時間和精力來為他們服務。 聊天機器人可以透過回答客戶提出的一些常見問題來自動化大部分客戶互動。 聊天機器人基本上有兩種類型:特定網域和開放域。 特定領域的聊天機器人通常用於解決特定問題。 因此,您需要對其進行定制,以便在您的領域中有效地工作。 開放域聊天機器人可以被問到任何問題,因此訓練它們需要大量資料。

數據集: 意圖 json 文件

語言: 蟒蛇

高級數據科學項目

9. 圖像標題產生器

使用原始碼查看專案的完整實作 - 使用 CNN 和 LSTM 的圖像字幕產生器.

14 個提高數據科學技能的開源項目(簡單、普通、困難)

描述影像中的內容對於人類來說是一項容易的任務,但對於電腦來說,影像只是一系列代表每個像素顏色值的數字。 這對計算機來說是一項艱鉅的任務。 理解圖像中的內容,然後用自然語言(例如英語)創建描述是另一個艱鉅的任務。 該專案使用深度學習技術,其中我們使用循環神經網路(LSTM)實現卷積神經網路(CNN)來創建圖像描述生成器。

數據集: 8K

語言: 蟒蛇

框架: 凱拉斯

10. 信用卡詐欺偵測

在實現數據科學專案構想時盡力而為 - 使用機器學習偵測信用卡欺詐.

14 個提高數據科學技能的開源項目(簡單、普通、困難)

現在您已經開始理解這些技術和概念。 讓我們繼續討論一些高級資料科學專案。 在這個專案中,我們將使用 R 語言和演算法,例如 決策樹、邏輯回歸、人工神經網路和梯度增強分類器。 我們將使用卡片交易資料集將信用卡交易分類為詐欺或真實。 我們將為它們選擇不同的模型並建立效能曲線。

語言: R

資料集/包: 卡交易資料集

11. 電影推薦系統

使用原始碼研究最佳資料科學專案的實施 - R語言電影推薦系統

14 個提高數據科學技能的開源項目(簡單、普通、困難)

在這個資料科學專案中,我們將使用 R 透過機器學習來實現電影的推薦。 推薦系​​統透過基於其他使用者的偏好和瀏覽歷史的過濾過程向使用者發送建議。 如果 A 和 B 喜歡小鬼當家,而 B 喜歡《賤女孩》,那麼你可以推薦 A - 他們可能也會喜歡。 這允許客戶與平台互動。

語言: R

資料集/包: MovieLens 數據集

12. 客戶細分

透過數據科學計畫(包括原始碼)給雇主留下深刻印象 - 使用機器學習進行客戶細分.

14 個提高數據科學技能的開源項目(簡單、普通、困難)

買家細分是一種流行的應用 無監督學習。 使用集群,公司可以識別客戶群以瞄準潛在的用戶群。 他們根據性別、年齡、興趣和消費習慣等共同特徵將顧客分為不同的群體,以便他們能夠有效地向每個群體推銷他們的產品。 我們將使用 K均值聚類,以及依性別和年齡可視化分佈。 然後我們將分析他們的年收入和支出水準。

語言: R

資料集/包: Mall_Customers 資料集

13. 乳癌分類

查看 Python 中資料科學專案的完整實作 - 使用深度學習對乳癌進行分類.

14 個提高數據科學技能的開源項目(簡單、普通、困難)

回到資料科學的醫學貢獻,讓我們學習如何使用 Python 檢測乳癌。 我們將使用 IDC_regular 資料集來識別浸潤性乳管癌,這是最常見的乳癌形式。 它在乳管中發育,鑽入乳管外的纖維或脂肪乳腺組織。 在這個數據收集科學項目想法中,我們將使用 深度學習 和 Keras 函式庫進行分類。

語言: 蟒蛇

資料集/包: IDC_常規

14.交通標誌識別

透過數據科學專案實現自動駕駛技術的精確性 使用 CNN 進行交通標誌識別 開源。

14 個提高數據科學技能的開源項目(簡單、普通、困難)

道路標誌和交通規則對於每個駕駛員來說都非常重要,以避免發生事故。 要遵守規則,您首先需要了解路標的外觀。 一個人在獲得駕駛任何車輛的執照之前必須了解所有路標。 但現在自動駕駛汽車的數量正在增長,在不久的將來,一個人將不再獨立駕駛汽車。 在道路標誌識別項目中,您將了解程式如何透過將圖像作為輸入來識別道路標誌的類型。 德國交通標誌識別基準(GTSRB)資料集用於建立深度神經網路來識別交通標誌所屬的類別。 我們還創建了一個簡單的 GUI 來與應用程式互動。

語言: 蟒蛇

數據集: GTSRB(德國交通標誌識別基準)

閱讀更多

來源: www.habr.com

添加評論