Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Yangi boshlanuvchilar uchun Data Science

1. Tuyg‘ularni tahlil qilish (Matn orqali his-tuyg‘ularni tahlil qilish)

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Manba kodidan foydalangan holda Data Science loyihasining to'liq bajarilishini tekshiring - R.dagi hissiyotlarni tahlil qilish loyihasi.

Tuyg'ularni tahlil qilish - bu ijobiy yoki salbiy bo'lishi mumkin bo'lgan his-tuyg'ular va fikrlarni aniqlash uchun so'zlarni tahlil qilish. Bu sinflar ikkilik (ijobiy va salbiy) yoki ko'plik (baxtli, g'azablangan, qayg'uli, yomon ...) bo'lishi mumkin bo'lgan tasniflashning bir turi. Biz ushbu Data Science loyihasini R-da amalga oshiramiz va "janeaustenR" paketidagi ma'lumotlar to'plamidan foydalanamiz. Biz AFINN, bing va loughran kabi umumiy maqsadli lug'atlardan foydalanamiz, ichki qo'shilishni amalga oshiramiz va oxirida natijani ko'rsatish uchun so'z bulutini yaratamiz.

Til: R
Ma'lumotlar to'plami/paketi: JaneaustenR

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Maqola EDISON Software ko'magida tarjima qilingan ko'p brendli do'konlar uchun virtual jihozlar xonalarini yaratadi, shuningdek dasturiy ta'minotni sinovdan o'tkazadi.

2. Soxta yangiliklarni aniqlash

Yangi boshlanuvchilar uchun Data Science loyihasi ustida ishlash orqali mahoratingizni keyingi bosqichga olib chiqing - Python yordamida soxta yangiliklarni aniqlash.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Soxta yangiliklar ijtimoiy tarmoqlar va boshqa onlayn ommaviy axborot vositalari orqali siyosiy maqsadlarga erishish uchun tarqatiladigan yolgʻon maʼlumotlardir. Ushbu Data Science loyihasi g'oyasida biz Python-dan yangilik haqiqiy yoki soxta ekanligini aniq aniqlay oladigan model yaratish uchun foydalanamiz. Biz TfidfVectorizer yaratamiz va PassiveAggressiveClassifier yordamida yangiliklarni “haqiqiy” va “soxta”ga ajratamiz. Biz 7796 × 4 shaklidagi ma'lumotlar to'plamidan foydalanamiz va hamma narsani Jupyter Lab-da ishga tushiramiz.

Til: Python

Ma'lumotlar to'plami/paketi: news.csv

3. Parkinson kasalligini aniqlash

Ma'lumotlar fanlari bo'yicha loyiha g'oyangiz bilan oldinga boring - XGBoost yordamida Parkinson kasalligini aniqlash.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Biz sog'liqni saqlash va xizmatlarni yaxshilash uchun Data Science-dan foydalanishni boshladik - agar kasallikni erta bosqichda bashorat qila olsak, biz ko'p afzalliklarga ega bo'lamiz. Shunday qilib, ushbu Data Science loyihasi g'oyasida biz Python yordamida Parkinson kasalligini qanday aniqlashni o'rganamiz. Bu markaziy asab tizimining neyrodegenerativ, progressiv kasalligi bo'lib, harakatga ta'sir qiladi va titroq va qattiqlikni keltirib chiqaradi. Bu miyadagi dopamin ishlab chiqaruvchi neyronlarga ta'sir qiladi va har yili Hindistonda 1 milliondan ortiq odamga ta'sir qiladi.

Til: Python

Ma'lumotlar to'plami/paketi: UCI ML Parkinsons ma'lumotlar to'plami

O'rtacha murakkablikdagi Data Science loyihalari

4. Nutq hissiyotlarini aniqlash

Data Science misol loyihasining to'liq bajarilishini tekshiring - Librosa yordamida nutqni aniqlash.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Keling, turli kutubxonalardan qanday foydalanishni bilib olaylik. Ushbu Data Science loyihasi nutqni aniqlash uchun librosa-dan foydalanadi. SER - nutqdan insonning his-tuyg'ulari va affektiv holatlarini aniqlash jarayoni. Ovozimiz bilan his-tuyg'ularni ifodalash uchun ohang va balandlikdan foydalanganimiz sababli, SER tegishli. Ammo his-tuyg'ular sub'ektiv bo'lganligi sababli, audio annotatsiya juda qiyin vazifadir. Biz mfcc, chroma va mel funksiyalaridan foydalanamiz va his-tuyg'ularni aniqlash uchun RAVDESS ma'lumotlar to'plamidan foydalanamiz. Biz ushbu model uchun MLPC klassifikatorini yaratamiz.

Til: Python

Ma'lumotlar to'plami/paketi: RAVDESS ma'lumotlar to'plami

5. Jins va yoshni aniqlash

Ish beruvchilarni eng so'nggi Data Science loyihasi bilan hayratda qoldiring - OpenCV yordamida jins va yoshni aniqlash.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Bu Python bilan qiziqarli ma'lumotlar fanidir. Bitta rasmdan foydalanib, siz odamning jinsi va yoshini taxmin qilishni o'rganasiz. Bunda biz sizni Computer Vision va uning tamoyillari bilan tanishtiramiz. Biz quramiz konvolyutsion neyron tarmoq va Adience ma'lumotlar to'plamida Tal Hassner va Gil Levi tomonidan o'qitilgan modellardan foydalanadi. Yo'lda biz ba'zi .pb, .pbtxt, .prototxt va .caffemodel fayllardan foydalanamiz.

Til: Python

Ma'lumotlar to'plami/paketi: Adience

6. Uber ma'lumotlarini tahlil qilish

Manba kodi bilan Data Science loyihasining to'liq bajarilishini tekshiring - R.dagi Uber ma'lumotlarini tahlil qilish loyihasi.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Bu ggplot2 bilan ma'lumotlarni vizualizatsiya qilish loyihasi bo'lib, unda biz R va uning kutubxonalaridan foydalanamiz va turli parametrlarni tahlil qilamiz. Biz Uber Pickups New York City maʼlumotlar toʻplamidan foydalanamiz va yilning turli vaqtlari uchun vizualizatsiya yaratamiz. Bu bizga vaqt mijozlar sayohatiga qanday ta'sir qilishini aytadi.

Til: R

Ma'lumotlar to'plami/paketi: Nyu-York shahridagi Uber Pikaplari ma'lumotlar to'plami

7. Haydovchining uyquchanligini aniqlash

Top Data Science loyihasida ishlash orqali mahoratingizni oshiring - OpenCV & Keras bilan uyquchanlikni aniqlash tizimi.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Uyquchan haydash o'ta xavfli bo'lib, har yili mingga yaqin baxtsiz hodisalar haydovchilarning haydash vaqtida uxlab qolishi tufayli sodir bo'ladi. Ushbu Python loyihasida biz uyquchan drayverlarni aniqlay oladigan va ularni audio signal bilan ogohlantiradigan tizim yaratamiz.

Ushbu loyiha Keras va OpenCV yordamida amalga oshiriladi. Biz yuz va ko'zni aniqlash uchun OpenCV dan foydalanamiz va Keras yordamida chuqur neyron tarmoq usullaridan foydalangan holda ko'z holatini (Ochiq yoki Yopiq) tasniflaymiz.

8. Chatbot

Python yordamida Chatbot yarating va karerangizda oldinga qadam tashlang - NLTK va Keras bilan chatbot.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Chatbotlar biznesning ajralmas qismidir. Ko'pgina korxonalar o'z mijozlariga xizmatlarni taklif qilishlari kerak va ularga xizmat ko'rsatish uchun ko'p ishchi kuchi, vaqt va kuch talab etiladi. Chatbotlar mijozlar so'raydigan ba'zi umumiy savollarga javob berish orqali mijozlar bilan muloqotning ko'p qismini avtomatlashtirishi mumkin. Chatbotlarning asosan ikki turi mavjud: domenga xos va ochiq domen. Domenga xos chatbot ko'pincha muayyan muammoni hal qilish uchun ishlatiladi. Shunday qilib, o'z sohangizda samarali ishlash uchun uni sozlashingiz kerak. Ochiq domenli chatbotlarga har qanday savol berish mumkin, shuning uchun ularni o'qitish katta hajmdagi ma'lumotlarni talab qiladi.

Ma'lumotlar to'plami: Niyatlar json fayli

Til: Python

Ilg'or Data Science loyihalari

9. Rasm sarlavhalari generatori

Loyihaning to'liq amalga oshirilishini manba kodi bilan tekshiring - CNN va LSTM bilan tasvir sarlavhalari generatori.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Tasvirdagi narsalarni tasvirlash odamlar uchun oson ish, lekin kompyuterlar uchun tasvir shunchaki har bir pikselning rang qiymatini ifodalovchi raqamlar qatoridir. Bu kompyuterlar uchun qiyin ish. Tasvirda nima borligini tushunish va keyin tabiiy tilda (masalan, ingliz tilida) tavsif yaratish yana bir qiyin vazifadir. Ushbu loyiha chuqur o'rganish usullaridan foydalanadi, bunda biz tasvir tavsifi generatorini yaratish uchun takroriy neyron tarmog'i (LSTM) bilan konvolyutsion neyron tarmog'ini (CNN) amalga oshiramiz.

Ma'lumotlar to'plami: Flickr 8K

Til: Python

Ramka: Keras

10. Kredit karta firibgarligini aniqlash

Data Science loyihasi g'oyasi ustida ishlashda qo'lingizdan kelganini qiling - mashina o'rganish yordamida kredit karta firibgarligini aniqlash.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Hozirgacha siz texnika va tushunchalarni tushuna boshladingiz. Keling, ba'zi ilg'or ma'lumotlar fanlari loyihalariga o'tamiz. Ushbu loyihada biz R tili kabi algoritmlardan foydalanamiz qaror daraxtlari, logistik regressiya, sun'iy neyron tarmoqlar va gradient kuchaytiruvchi tasniflagich. Kredit karta tranzaksiyalarini firibgarlik yoki haqiqiy deb tasniflash uchun biz karta tranzaksiyalari maʼlumotlaridan foydalanamiz. Biz ular uchun turli modellarni tanlaymiz va ishlash egri chiziqlarini tuzamiz.

Til: R

Ma'lumotlar to'plami/paketi: Karta operatsiyalari ma'lumotlar to'plami

11. Filmni tavsiya qilish tizimi

Manba kodi bilan eng yaxshi Data Science loyihasini amalga oshirishni o'rganing - R tilida filmni tavsiya qilish tizimi

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Ushbu Data Science loyihasida biz R dan film tavsiyalarini mashinani oʻrganish orqali amalga oshirish uchun foydalanamiz. Tavsiya qilish tizimi boshqa foydalanuvchilarning afzalliklari va koʻrish tarixiga asoslangan filtrlash jarayoni orqali foydalanuvchilarga takliflar yuboradi. Agar A va B "Uyda yolg'iz"ni yoqtirsa va B "Mean Girls" ni yoqtirsa, siz A ni taklif qilishingiz mumkin - ularga ham yoqishi mumkin. Bu mijozlarga platforma bilan muloqot qilish imkonini beradi.

Til: R

Ma'lumotlar to'plami/paketi: MovieLens ma'lumotlar to'plami

12. Mijozlarni segmentatsiyalash

Ish beruvchilarni Data Science loyihasi (shu jumladan manba kodi) bilan hayratda qoldiring - Mashina o'rganish yordamida mijozlarni segmentatsiyalash.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Xaridor segmentatsiyasi mashhur dastur hisoblanadi nazoratsiz o'rganish. Klasterlashdan foydalangan holda, kompaniyalar potentsial foydalanuvchi bazasini maqsad qilib olish uchun mijozlar segmentlarini aniqlaydilar. Ular o'z mahsulotlarini har bir guruhga samarali sotishlari uchun mijozlarni jinsi, yoshi, qiziqishlari va sarflash odatlari kabi umumiy xususiyatlarga ko'ra guruhlarga ajratadilar. foydalanamiz K-klasterlash demakdir, shuningdek, jins va yosh bo'yicha taqsimotni ingl. Keyin biz ularning yillik daromad va xarajatlar darajasini tahlil qilamiz.

Til: R

Ma'lumotlar to'plami/paketi: Mall_Customers ma'lumotlar to'plami

13. Ko'krak bezi saratoni tasnifi

Python-da Data Science loyihasining to'liq bajarilishini tekshiring Chuqur o'rganish yordamida ko'krak bezi saratoni tasnifi.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Ma'lumotlar fanining tibbiy hissasiga qaytsak, Python yordamida ko'krak saratonini qanday aniqlashni o'rganamiz. Ko'krak bezi saratonining eng keng tarqalgan shakli bo'lgan invaziv kanal karsinomasini aniqlash uchun IDC_regular ma'lumotlar to'plamidan foydalanamiz. U sut yo'llarida rivojlanadi, kanaldan tashqarida tolali yoki yog'li ko'krak to'qimalariga kiradi. Ushbu ma'lumot to'plashda biz ilmiy loyiha g'oyasidan foydalanamiz Chuqur o'rganish va tasniflash uchun Keras kutubxonasi.

Til: Python

Ma'lumotlar to'plami/paketi: IDC_regular

14. Yo'l harakati belgilarini tanib olish

Data Science loyihasi bilan o'z-o'zini boshqarish texnologiyasida aniqlikka erishish CNN yordamida yo'l belgilarini aniqlash ochiq manba.

Data Science ko'nikmalarini yaxshilash uchun 14 ta ochiq manbali loyihalar (oson, oddiy, qiyin)

Yo'l belgilari va yo'l harakati qoidalari har bir haydovchi uchun baxtsiz hodisalardan qochish uchun juda muhimdir. Qoidaga rioya qilish uchun birinchi navbatda yo'l belgisi qanday ko'rinishini tushunishingiz kerak. Biror kishi har qanday transport vositasini boshqarish huquqini berishdan oldin barcha yo'l belgilarini o'rganishi kerak. Ammo hozir avtonom transport vositalarining soni ortib bormoqda va yaqin kelajakda odam mustaqil ravishda mashina haydamaydi. Yo'l belgilarini tanib olish loyihasida siz tasvirni kirish sifatida olish orqali dastur yo'l belgilarining turini qanday tanib olishini bilib olasiz. Nemis Traffic Sign Recognition Benchmark (GTSRB) ma'lumotlar to'plami yo'l harakati belgisi tegishli sinfni tanib olish uchun chuqur neyron tarmoqni qurish uchun ishlatiladi. Shuningdek, biz ilova bilan ishlash uchun oddiy grafik interfeys yaratamiz.

Til: Python

Ma'lumotlar to'plami: GTSRB (Germaniya yo'l belgilarini tanib olish benchmarki)

Ko'proq o'qish

Manba: www.habr.com

a Izoh qo'shish