14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Ilmu Data kanggo Pamula

1. Analisis Sentimen (Analisis Sentimen lumantar Teks)

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Priksa implementasi proyek Ilmu Data lengkap nggunakake kode sumber − Proyek Analisis Sentimen ing R.

Analisis Sentimen yaiku analisis tembung kanggo nemtokake sentimen lan panemu, sing bisa positif utawa negatif. Iki minangka jinis klasifikasi sing kelas bisa dadi biner (positif lan negatif) utawa jamak (seneng, duka, sedih, ora becik ...). Kita bakal ngleksanakake proyek Ilmu Data iki ing R lan bakal nggunakake dataset ing paket "janeaustenR". Kita bakal nggunakake kamus tujuan umum kayata AFINN, bing lan loughran, nindakake gabungan batin, lan ing pungkasan kita bakal nggawe awan tembung kanggo nampilake asil.

Basa: R
Paket Data/Paket: janeaustenR

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Artikel kasebut diterjemahake kanthi dhukungan saka EDISON Software, sing ndadekake kamar pas virtual kanggo toko multi-merekLan piranti lunak tes.

2. Deteksi Warta Palsu

Njupuk katrampilan sampeyan menyang tingkat sabanjure kanthi nggarap proyek Ilmu Data kanggo pamula - ndeteksi warta palsu karo Python.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Warta palsu yaiku informasi palsu sing disebar liwat media sosial lan media online liyane kanggo nggayuh tujuan politik. Ing ide proyek Ilmu Data iki, kita bakal nggunakake Python kanggo mbangun model sing bisa nemtokake kanthi akurat manawa crita berita kasebut nyata utawa palsu. Kita bakal nggawe TfidfVectorizer lan nggunakake PassiveAggressiveClassifier kanggo nggolongake warta menyang "nyata" lan "palsu". Kita bakal nggunakake dataset saka wangun 7796 × 4 lan mbukak kabeh ing Jupyter Lab.

Basa: Python

Paket Data/Paket: warta.csv

3. Ndeteksi Penyakit Parkinson

Maju karo Ide Proyek Ilmu Data - ndeteksi penyakit Parkinson nggunakake XGBoost.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Kita wis miwiti nggunakake Ilmu Data kanggo ningkatake kesehatan lan layanan - yen kita bisa prédhiksi penyakit ing tahap awal, mula kita bakal entuk akeh kaluwihan. Dadi, ing ide proyek Ilmu Data iki, kita bakal sinau carane ndeteksi penyakit Parkinson nggunakake Python. Iki minangka penyakit neurodegeneratif, progresif saka sistem saraf pusat sing mengaruhi gerakan lan nyebabake tremor lan kaku. Iki mengaruhi neuron sing ngasilake dopamin ing otak, lan saben taun kena pengaruh luwih saka 1 yuta wong ing India.

Basa: Python

Paket Data/Paket: dataset UCI ML Parkinsons

Proyek Ilmu Data kanthi kerumitan medium

4. Pangenalan Emosi Wicara

Priksa implementasi lengkap proyek conto Ilmu Data − pangenalan wicara nggunakake Librosa.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Ayo saiki sinau carane nggunakake perpustakaan beda. Proyek Ilmu Data iki nggunakake librosa kanggo pangenalan wicara. SER minangka proses ngenali emosi manungsa lan negara afektif saka wicara. Amarga kita nggunakake nada lan nada kanggo nyebut emosi karo swara kita, SER cocog. Nanging amarga emosi subyektif, anotasi audio minangka tugas sing tantangan. Kita bakal nggunakake fungsi mfcc, chroma lan mel lan nggunakake dataset RAVDESS kanggo pangenalan emosi. Kita bakal nggawe klasifikasi MLPC kanggo model iki.

Basa: Python

Paket Data/Paket: data RAVDESS

5. Deteksi Gender lan Umur

Apike juragan kanthi proyek Ilmu Data paling anyar - nemtokake jender lan umur nggunakake OpenCV.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Iki minangka Ilmu Data sing menarik karo Python. Nggunakake mung siji gambar, sampeyan bakal sinau kanggo prédhiksi jender lan umur wong. Ing iki kita bakal ngenalake Computer Vision lan prinsip-prinsipe. Kita bakal mbangun jaringan syaraf konvolusional lan bakal nggunakake model sing dilatih dening Tal Hassner lan Gil Levy ing dataset Adience. Sadawane dalan, kita bakal nggunakake sawetara file .pb, .pbtxt, .prototxt lan .caffemodel.

Basa: Python

Paket Data/Paket: Adience

6. Analisis Data Uber

Priksa implementasi proyek Ilmu Data lengkap kanthi kode sumber − Proyek Analisis Data Uber ing R.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Iki minangka proyek visualisasi data kanthi ggplot2 ing ngendi kita bakal nggunakake R lan perpustakaan lan nganalisa macem-macem paramèter. Kita bakal nggunakake set data Uber Pickups New York City lan nggawe visualisasi kanggo pigura wektu sing beda-beda ing taun. Iki nyritakake kepiye wektu mengaruhi perjalanan pelanggan.

Basa: R

Paket Data/Paket: Uber Pickups ing dataset New York City

7. Driver Drowsiness deteksi

Ningkatake katrampilan sampeyan kanthi nggarap Proyek Ilmu Data Top - sistem deteksi ngantuk karo OpenCV & Keras.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Nyopir ngantuk banget mbebayani, lan meh sewu kacilakan kedadeyan saben taun amarga pembalap ngantuk nalika nyopir. Ing proyek Python iki, kita bakal nggawe sistem sing bisa ndeteksi driver ngantuk lan uga menehi tandha karo sinyal audio.

Proyek iki ditindakake nggunakake Keras lan OpenCV. Kita bakal nggunakake OpenCV kanggo deteksi pasuryan lan mripat lan karo Keras kita bakal nggolongake kahanan mripat (Bukak utawa Ditutup) nggunakake teknik jaringan saraf jero.

8. Chatbot

Gawe Chatbot nganggo Python lan maju ing karir sampeyan - Chatbot karo NLTK & Keras.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Chatbots minangka bagéan integral saka bisnis. Akeh bisnis kudu nawakake layanan kanggo para pelanggan lan mbutuhake tenaga kerja, wektu lan tenaga akeh kanggo ngladeni. Chatbots bisa ngotomatisasi akeh interaksi pelanggan kanthi mangsuli sawetara pitakonan umum sing ditakoni pelanggan. Sejatine ana rong jinis chatbots: Domain-spesifik lan Open-domain. Chatbot khusus domain asring digunakake kanggo ngatasi masalah tartamtu. Dadi, sampeyan kudu ngatur supaya bisa digunakake kanthi efektif ing lapangan sampeyan. Chatbots domain mbukak bisa ditakoni apa wae, mula latihan kasebut mbutuhake data sing akeh.

kumpulan data: Intents file json

Basa: Python

Proyèk Ilmu Data Lanjut

9. Gambar Caption Generator

Priksa implementasi lengkap proyek kanthi kode sumber − Gambar Gambar Generator karo CNN & LSTM.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Njlèntrèhaké apa sing ana ing gambar minangka tugas sing gampang kanggo manungsa, nanging kanggo komputer, gambar mung minangka seri nomer sing makili nilai warna saben piksel. Iki minangka tugas sing angel kanggo komputer. Ngerteni apa sing ana ing gambar banjur nggawe deskripsi ing basa alami (kayata basa Inggris) minangka tugas liyane sing angel. Proyèk iki nggunakake teknik sinau jero ing ngendi kita ngleksanakake Convolutional Neural Network (CNN) karo Recurrent Neural Network (LSTM) kanggo nggawe generator deskripsi gambar.

kumpulan data: Flickr 8K

Basa: Python

Kerangka: Keras

10. Deteksi Penipuan Kertu Kredit

Nindakake sing paling apik nalika nggarap ide proyek Ilmu Data − ndeteksi penipuan kertu kredit nggunakake machine learning.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Saiki sampeyan wis mulai ngerti teknik lan konsep. Ayo pindhah menyang sawetara proyek ilmu data canggih. Ing proyek iki, kita bakal nggunakake basa R kanthi algoritma kaya wit kaputusan, regresi logistik, jaringan syaraf tiruan lan gradient boosting classifier. Kita bakal nggunakake dataset transaksi kertu kanggo nggolongake transaksi kertu kredit minangka fraudulent utawa asli. Kita bakal milih model sing beda kanggo dheweke lan nggawe kurva kinerja.

Basa: R

Paket Data/Paket: Data Transaksi Kartu

11. Sistem Rekomendasi Wayang

Sinau implementasine proyek Ilmu Data paling apik kanthi kode Sumber - Sistem Rekomendasi Film ing basa R

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Ing proyek Ilmu Data iki, kita bakal nggunakake R kanggo ngetrapake rekomendasi film liwat pembelajaran mesin. Sistem rekomendasi ngirim saran menyang pangguna liwat proses nyaring adhedhasar preferensi pangguna liyane lan riwayat telusuran. Yen A lan B seneng Home Alone, lan B seneng Mean Girls, sampeyan bisa menehi saran A - dheweke uga seneng. Iki ngidini pelanggan sesambungan karo platform kasebut.

Basa: R

Paket Data/Paket: MovieLens dataset

12. Segmentasi Pelanggan

Ngesanake majikan karo proyek Ilmu Data (kalebu kode sumber) - Segmentasi pelanggan nggunakake pembelajaran mesin.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Segmentasi panuku minangka aplikasi sing populer sinau tanpa pengawasan. Nggunakake clustering, perusahaan ngenali segmen pelanggan kanggo target basis pangguna potensial. Dheweke mbagi pelanggan dadi klompok miturut karakteristik umum kayata jender, umur, kapentingan lan kabiasaan mbuwang supaya bisa ngetrapake produk kanthi efektif kanggo saben klompok. Kita bakal nggunakake K-tegese clustering, uga nggambarake distribusi miturut jender lan umur. Banjur kita bakal nganalisa tingkat penghasilan lan biaya taunan.

Basa: R

Paket Data/Paket: Mall_Customers dataset

13. Klasifikasi Kanker Payudara

Priksa implementasi lengkap proyek Ilmu Data ing Python − Klasifikasi kanker payudara nggunakake sinau jero.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Mbalik maneh menyang kontribusi medis ilmu data, ayo sinau carane ndeteksi kanker payudara nggunakake Python. Kita bakal nggunakake dataset IDC_regular kanggo ngenali karsinoma duktus invasif, wangun kanker payudara sing paling umum. Iku berkembang ing saluran susu, burrowing menyang jaringan susu fibrosa utawa lemak njaba saluran. Ing ide proyek ilmu pengumpulan data iki bakal digunakake Learning Deep lan perpustakaan Keras kanggo klasifikasi.

Basa: Python

Paket Data/Paket: IDC_regular

14. Pangenalan Rambu Lalu Lintas

Entuk presisi ing teknologi nyopir mandiri kanthi proyek Ilmu Data pangenalan tandha lalu lintas nggunakake CNN mbukak sumber.

14 proyek sumber terbuka kanggo nambah katrampilan Ilmu Data (gampang, normal, angel)

Rambu-rambu dalan lan aturan lalu lintas penting banget kanggo saben pembalap supaya ora kacilakan. Kanggo ngetutake aturan kasebut, sampeyan kudu ngerti apa tandha dalan. Wong kudu sinau kabeh pratandha dalan sadurunge diwenehi lisensi kanggo nyopir kendaraan apa wae. Nanging saiki jumlah kendaraan otonom saya akeh, lan ing mangsa ngarep wong ora bakal nyopir mobil kanthi mandiri. Ing project Road Sign Recognition, sampeyan bakal sinau carane program bisa ngenali jinis tandha dalan kanthi njupuk gambar minangka input. Dataset German Traffic Sign Recognition Benchmark (GTSRB) digunakake kanggo mbangun jaringan syaraf jero kanggo ngenali kelas sing ana tandha lalu lintas. Kita uga nggawe GUI prasaja kanggo sesambungan karo aplikasi.

Basa: Python

kumpulan data: GTSRB (Tolok ukur Pangenalan Rambu Lalu Lintas Jerman)

Waca liyane

Source: www.habr.com

Add a comment