Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Başlayanlar üçün Məlumat Elmi

1. Sentiment Analizi (Mətn vasitəsilə Sentiment Analizi)

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Mənbə kodundan istifadə edərək Data Science layihəsinin tam icrasını yoxlayın - R-də Hisslərin Təhlili Layihəsi.

Sentiment Analizi müsbət və ya mənfi ola biləcək hissləri və fikirləri müəyyən etmək üçün sözlərin təhlilidir. Bu, siniflərin ikili (müsbət və mənfi) və ya cəm (xoşbəxt, qəzəbli, kədərli, pis...) ola biləcəyi təsnifat növüdür. Biz bu Data Science layihəsini R-də həyata keçirəcəyik və verilənlər bazasını "janeaustenR" paketində istifadə edəcəyik. AFINN, bing və loughran kimi ümumi təyinatlı lüğətlərdən istifadə edəcəyik, daxili birləşmə həyata keçirəcəyik və sonda nəticəni göstərmək üçün söz buludunu yaradacağıq.

Language: R
Dataset/Paket: JaneaustenR

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Məqalə EDISON Software şirkətinin dəstəyi ilə tərcümə edilmişdir multi-brend mağazalar üçün virtual uyğun otaqlar hazırlayırproqram təminatını sınaqdan keçirir.

2. Saxta xəbərlərin aşkarlanması

Başlayanlar üçün Data Science layihəsi üzərində işləməklə bacarıqlarınızı növbəti səviyyəyə daşıyın - Python ilə saxta xəbərlərin aşkarlanması.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Saxta xəbərlər siyasi məqsədlərə çatmaq üçün sosial media və digər onlayn media vasitəsilə yayılan yalan məlumatdır. Bu Data Science layihəsi ideyasında biz Python-dan bir xəbərin real və ya saxta olduğunu dəqiq müəyyən edə biləcək bir model qurmaq üçün istifadə edəcəyik. Biz TfidfVectorizer yaradacağıq və xəbərləri "real" və "saxta" olaraq təsnif etmək üçün PassiveAggressiveClassifier istifadə edəcəyik. Biz 7796×4 formalı verilənlər bazasından istifadə edəcəyik və hər şeyi Jupyter Lab-da işlədəcəyik.

Language: Python

Dataset/Paket: news.csv

3. Parkinson xəstəliyinin aşkarlanması

Data Science Layihə İdeyanızla irəliləyin - XGBoost istifadə edərək Parkinson xəstəliyinin aşkarlanması.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Biz səhiyyə və xidmətləri təkmilləşdirmək üçün Data Science-dan istifadə etməyə başlamışıq - əgər biz xəstəliyi erkən mərhələdə proqnozlaşdıra bilsək, onda bir çox üstünlüklərimiz olacaq. Beləliklə, bu Data Science layihəsi ideyasında biz Python istifadə edərək Parkinson xəstəliyini necə aşkar etməyi öyrənəcəyik. Bu, mərkəzi sinir sisteminin neyrodegenerativ, mütərəqqi bir xəstəliyidir, hərəkətə təsir göstərir və titrəmə və sərtliyə səbəb olur. Beyində dopamin istehsal edən neyronlara təsir edir və hər il Hindistanda 1 milyondan çox insana təsir edir.

Language: Python

Dataset/Paket: UCI ML Parkinsons məlumat dəsti

Orta mürəkkəblikdə Data Science layihələri

4. Nitq Emosiyasının Tanınması

Data Science nümunə layihəsinin tam icrasını yoxlayın - Librosa istifadə edərək nitqin tanınması.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

İndi müxtəlif kitabxanalardan necə istifadə edəcəyimizi öyrənək. Bu Data Science layihəsi nitqin tanınması üçün librosa-dan istifadə edir. SER nitqdən insan emosiyalarının və affektiv vəziyyətlərinin müəyyən edilməsi prosesidir. Səslərimizlə emosiyaları ifadə etmək üçün tondan və yüksəkdən istifadə etdiyimiz üçün SER aktualdır. Amma emosiyalar subyektiv olduğundan, audio annotasiya çətin işdir. Biz mfcc, chroma və mel funksiyalarından istifadə edəcəyik və emosiyaların tanınması üçün RAVDESS məlumat dəstindən istifadə edəcəyik. Bu model üçün MLPC təsnifatı yaradacağıq.

Language: Python

Dataset/Paket: RAVDESS məlumat dəsti

5. Cins və Yaşın Aşkarlanması

Ən son Data Science layihəsi ilə işəgötürənləri heyran edin - OpenCV istifadə edərək cinsin və yaşın müəyyən edilməsi.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Bu, Python ilə maraqlı bir məlumat elmidir. Yalnız bir şəkil istifadə edərək, bir insanın cinsini və yaşını proqnozlaşdırmağı öyrənəcəksiniz. Bu yazıda sizi Computer Vision və onun prinsipləri ilə tanış edəcəyik. tikəcəyik konvolyusiya neyron şəbəkəsi və Tal Hassner və Gil Levy tərəfindən Adience verilənlər bazasında təlim keçmiş modellərdən istifadə edəcək. Yolda bəzi .pb, .pbtxt, .prototxt və .caffemodel fayllarından istifadə edəcəyik.

Language: Python

Dataset/Paket: Adience

6. Uber Data Analizi

Mənbə kodu ilə Data Science layihəsinin tam icrasını yoxlayın - R-də Uber Data Analizi Layihəsi.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Bu, R və onun kitabxanalarından istifadə edəcəyimiz və müxtəlif parametrləri təhlil edəcəyimiz ggplot2 ilə verilənlərin vizuallaşdırılması layihəsidir. Biz Uber Pickups New York City məlumat dəstindən istifadə edəcəyik və ilin müxtəlif vaxt çərçivələri üçün vizuallaşdırmalar yaradacağıq. Bu bizə vaxtın müştəri səyahətinə necə təsir etdiyini izah edir.

Language: R

Dataset/Paket: Nyu Yorkdakı Uber Pikapları məlumat dəsti

7. Sürücünün yuxululuğunun aşkarlanması

Top Data Science Layihəsi üzərində işləyərək bacarıqlarınızı təkmilləşdirin - OpenCV & Keras ilə yuxululuq aşkarlama sistemi.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Yuxulu sürücülük son dərəcə təhlükəlidir və hər il sürücülərin maşın sürərkən yuxuya getməsi səbəbindən minə yaxın qəza baş verir. Bu Python layihəsində biz yuxulu sürücüləri aşkarlaya bilən və həmçinin onları səs siqnalı ilə xəbərdar edə bilən sistem yaradacağıq.

Bu layihə Keras və OpenCV istifadə edərək həyata keçirilir. Biz üz və göz aşkarlanması üçün OpenCV-dən istifadə edəcəyik və Keras ilə dərin neyron şəbəkə üsullarından istifadə edərək göz vəziyyətini (Açıq və ya Qapalı) təsnif edəcəyik.

8. Çatbot

Python ilə Chatbot yaradın və karyeranızda bir addım atın - NLTK və Keras ilə söhbət robotu.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Chatbotlar biznesin ayrılmaz hissəsidir. Bir çox müəssisələr öz müştərilərinə xidmətlər təklif etmək məcburiyyətindədirlər və onlara xidmət göstərmək çoxlu işçi qüvvəsi, vaxt və səy tələb edir. Çatbotlar müştərilərin verdiyi bəzi ümumi suallara cavab verməklə müştərilərlə qarşılıqlı əlaqənizin çox hissəsini avtomatlaşdıra bilər. Əsasən iki növ chatbot var: Domain-spesifik və Open-domen. Spesifik problemi həll etmək üçün tez-tez bir domen spesifik chatbot istifadə olunur. Beləliklə, öz sahənizdə effektiv işləmək üçün onu fərdiləşdirməlisiniz. Açıq domenli chatbotlara istənilən sual verilə bilər, ona görə də onları öyrətmək çoxlu məlumat tələb edir.

Məlumat dəsti: Niyyətlər json faylı

Language: Python

Qabaqcıl Məlumat Elmi layihələri

9. Şəkil Başlığı Generator

Mənbə kodu ilə layihənin tam icrasını yoxlayın - CNN və LSTM ilə Şəkil Başlığı Generator.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Şəkildə olanı təsvir etmək insanlar üçün asan məsələdir, lakin kompüterlər üçün şəkil sadəcə olaraq hər pikselin rəng dəyərini əks etdirən rəqəmlər seriyasıdır. Bu kompüterlər üçün çətin bir işdir. Şəkildə nə olduğunu başa düşmək və sonra təbii dildə (məsələn, ingiliscə) təsvir yaratmaq başqa çətin işdir. Bu layihə, təsvirin təsviri generatoru yaratmaq üçün Təkrarlanan Neyron Şəbəkəsi (LSTM) ilə Konvolutional Neyron Şəbəkəsini (CNN) tətbiq etdiyimiz dərin öyrənmə üsullarından istifadə edir.

Məlumat dəsti: Flickr 8K

Language: Python

Çərçivə: Keras

10. Kredit Kartı Fırıldaqlığının Aşkarlanması

Data Science layihə ideyanız üzərində işləyərkən əlinizdən gələni edin - maşın öyrənməsi ilə kredit kartı fırıldaqlarını aşkar edin.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Artıq siz texnika və anlayışları anlamağa başlamısınız. Bəzi qabaqcıl məlumat elmi layihələrinə keçək. Bu layihədə biz R dilindən kimi alqoritmlərlə istifadə edəcəyik qərar ağacları, logistik reqressiya, süni neyron şəbəkələri və gradient gücləndirici təsnifat. Kredit kartı əməliyyatlarını saxta və ya orijinal kimi təsnif etmək üçün kart əməliyyatlarının məlumat dəstindən istifadə edəcəyik. Onlar üçün müxtəlif modellər seçəcəyik və performans əyriləri quracağıq.

Language: R

Dataset/Paket: Kart əməliyyatları məlumat dəsti

11. Film Tövsiyə Sistemi

Mənbə kodu ilə ən yaxşı Data Science layihəsinin həyata keçirilməsini öyrənin - R dilində Film Tövsiyə Sistemi

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Bu Data Science layihəsində biz maşın öyrənməsi vasitəsilə filmin tövsiyələrini həyata keçirmək üçün R-dən istifadə edəcəyik. Tövsiyə sistemi digər istifadəçilərin seçimləri və baxış tarixçəsi əsasında filtrləmə prosesi vasitəsilə istifadəçilərə təkliflər göndərir. Əgər A və B Evdə Tək, B isə Orta Qızları bəyənirsə, onda siz A təklif edə bilərsiniz - onların da xoşuna gələ bilər. Bu, müştərilərə platforma ilə qarşılıqlı əlaqə yaratmağa imkan verir.

Language: R

Dataset/Paket: MovieLens verilənlər bazası

12. Müştəri seqmentasiyası

Data Science layihəsi (mənbə kodu daxil olmaqla) ilə işəgötürənləri heyran edin - Maşın öyrənməsindən istifadə edərək müştəri seqmentasiyası.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Alıcıların seqmentasiyası məşhur proqramdır nəzarətsiz öyrənmə. Klasterləşmədən istifadə edərək, şirkətlər potensial istifadəçi bazasını hədəfləmək üçün müştəri seqmentlərini müəyyənləşdirirlər. Müştəriləri cins, yaş, maraqlar və xərcləmə vərdişləri kimi ümumi xüsusiyyətlərə görə qruplara bölürlər ki, məhsullarını hər qrupa effektiv şəkildə sata bilsinlər. istifadə edəcəyik K-qruplaşma deməkdir, həmçinin cins və yaşa görə paylanmanı görüntüləyin. Sonra onların illik gəlir və xərc səviyyələrini təhlil edəcəyik.

Language: R

Dataset/Paket: Mall_Customers verilənlər bazası

13. Döş Xərçənginin Təsnifatı

Python-da Data Science layihəsinin tam həyata keçirilməsinə baxın Dərin öyrənmə istifadə edərək döş xərçəngi təsnifatı.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Məlumat elminin tibbi töhfəsinə qayıdaraq, Python istifadə edərək döş xərçəngini necə aşkar edəcəyimizi öyrənək. Döş xərçənginin ən çox yayılmış forması olan invaziv kanal karsinomasını müəyyən etmək üçün IDC_regular verilənlər bazasından istifadə edəcəyik. Süd kanallarında inkişaf edir, kanalın xaricində lifli və ya yağlı döş toxumasına girir. Bu məlumatların toplanmasında elmi layihə ideyasından istifadə edəcəyik Dərin Öyrənmə və təsnifat üçün Keras kitabxanası.

Language: Python

Dataset/Paket: IDC_regular

14. Yol nişanlarının tanınması

Data Science layihəsi ilə özünü idarə edən texnologiyada dəqiqliyə nail olmaq CNN istifadə edərək yol nişanlarının tanınması açıq mənbə.

Data Science bacarıqlarını təkmilləşdirmək üçün 14 açıq mənbəli layihə (asan, normal, çətin)

Qəzaların qarşısını almaq üçün hər bir sürücü üçün yol nişanları və yol hərəkəti qaydaları çox vacibdir. Qaydaya riayət etmək üçün əvvəlcə yol nişanının necə göründüyünü başa düşməlisiniz. Hər hansı bir nəqliyyat vasitəsini idarə etmək üçün vəsiqə verilməzdən əvvəl şəxs bütün yol nişanlarını öyrənməlidir. Amma indi avtonom nəqliyyat vasitələrinin sayı artır və yaxın gələcəkdə bir insan artıq avtomobili müstəqil idarə etməyəcək. Yol nişanının tanınması layihəsində siz proqramın şəkili giriş kimi götürərək yol nişanlarının növünü necə tanıya biləcəyini öyrənəcəksiniz. Alman Traffic Sign Recognition Benchmark (GTSRB) verilənlər bazası yol nişanının aid olduğu sinfi tanımaq üçün dərin neyron şəbəkə yaratmaq üçün istifadə olunur. Biz həmçinin proqramla qarşılıqlı əlaqə yaratmaq üçün sadə GUI yaradırıq.

Language: Python

Məlumat dəsti: GTSRB (Alman Traffic Sign Recognition Benchmark)

Daha çox oxu

Mənbə: www.habr.com

Добавить комментарий