14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Élmu Data pikeun Beginners

1. Analisis Sentimén (Analisis Séntimén ngaliwatan Téks)

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Pariksa palaksanaan proyék Élmu Data lengkep ngagunakeun kode sumber − Proyék Analisis Sentimen dina R.

Analisis Sentimen nya éta analisis kecap pikeun nangtukeun sentimen jeung pamadegan, nu bisa positif atawa negatif. Ieu mangrupikeun jinis klasifikasi dimana kelas tiasa binér (positip sareng négatip) atanapi jamak (bagja, ambek, sedih, nasty ...). Kami bakal nerapkeun proyék Élmu Data ieu dina basa Sunda sareng bakal ngagunakeun set data dina pakét "janeaustenR". Kami bakal nganggo kamus tujuan umum sapertos AFINN, bing sareng loughran, ngalaksanakeun gabungan batin, sareng dina tungtungna urang bakal nyiptakeun awan kecap pikeun nampilkeun hasilna.

Язык: R
Dataset/Pakét: janeaustenR

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Artikel ieu ditarjamahkeun kalayan dukungan EDISON Software, anu ngajadikeun kamar pas virtual pikeun toko multi-brandjeung software tés.

2. Deteksi Warta Palsu

Angkat kaahlian anjeun ka tingkat salajengna ku damel dina proyék Élmu Data pikeun pamula - ngadeteksi warta palsu kalawan Python.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Warta palsu nyaéta inpormasi palsu anu disebarkeun ngaliwatan média sosial sareng média online sanés pikeun ngahontal tujuan politik. Dina ide proyék Élmu Data ieu, urang bakal ngagunakeun Python pikeun ngawangun modél anu akurat tiasa nangtoskeun naha carita warta nyata atanapi palsu. Urang bakal nyieun TfidfVectorizer sarta ngagunakeun PassiveAggressiveClassifier pikeun mengklasifikasikan warta kana "nyata" jeung "palsu". Urang bakal ngagunakeun dataset tina bentuk 7796 × 4 tur ngajalankeun sagalana di Jupyter Lab.

Язык: Python

Dataset/Pakét: news.csv

3. Ngadeteksi Kasakit Parkinson

Maju sareng Ide Proyék Élmu Data anjeun - ngadeteksi kasakit Parkinson ngagunakeun XGBoost.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Kami parantos ngamimitian ngagunakeun Data Science pikeun ningkatkeun kasehatan sareng jasa - upami urang tiasa ngaduga panyakit dina tahap awal, maka urang bakal ngagaduhan seueur kauntungan. Janten, dina ide proyék Élmu Data ieu, urang bakal diajar kumaha ngadeteksi panyakit Parkinson nganggo Python. Ieu mangrupikeun panyakit neurodegeneratif, progresif tina sistem saraf pusat anu mangaruhan gerakan sareng nyababkeun tremor sareng kaku. Éta mangaruhan neuron anu ngahasilkeun dopamin dina uteuk, sareng unggal taun, mangaruhan langkung ti 1 juta jalma di India.

Язык: Python

Dataset/Pakét: dataset UCI ML Parkinsons

proyék Élmu Data pajeulitna sedeng

4. Biantara Émosi Pangakuan

Pariksa palaksanaan lengkep proyék conto Élmu Data − pangakuan ucapan maké Librosa.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Hayu urang ayeuna diajar kumaha ngagunakeun perpustakaan béda. Proyék Data Science ieu ngagunakeun librosa pikeun pangakuan ucapan. SER nyaéta prosés ngaidentipikasi émosi manusa sareng kaayaan afektif tina ucapan. Kusabab kami nganggo nada sareng nada pikeun nganyatakeun émosi sareng sora urang, SER relevan. Tapi kusabab émosi subjektif, anotasi audio mangrupikeun tugas anu nangtang. Urang bakal ngagunakeun mfcc, chroma na mel fungsi sarta ngagunakeun data RAVDESS pikeun pangakuan émosi. Urang bakal nyieun hiji classifier MLPC pikeun modél ieu.

Язык: Python

Dataset/Pakét: databés RAVDESS

5. Gender jeung deteksi Umur

Ngemutan dunungan sareng proyék Élmu Data panganyarna - nangtukeun jenis kelamin jeung umur ngagunakeun OpenCV.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Ieu mangrupikeun Élmu Data anu pikaresepeun sareng Python. Ngagunakeun ngan hiji gambar, anjeun bakal diajar ngaduga gender jeung umur hiji jalma. Dina ieu kami bakal ngenalkeun anjeun kana Computer Vision sareng prinsip-prinsipna. Urang bakal ngawangun jaringan saraf konvolusional sarta bakal ngagunakeun model dilatih ku Tal Hassner jeung Gil Levy dina dataset Adience. Sapanjang jalan urang bakal ngagunakeun sababaraha file .pb, .pbtxt, .prototxt na .caffemodel.

Язык: Python

Dataset/Pakét: Adience

6. Analisis Data Uber

Pariksa palaksanaan proyék Élmu Data lengkep sareng kode sumber − Proyék Analisis Data Uber di R.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Ieu mangrupikeun proyék visualisasi data kalayan ggplot2 dimana urang bakal nganggo R sareng perpustakaanna sareng nganalisis sababaraha parameter. Kami bakal nganggo set data Uber Pickups New York City sareng nyiptakeun visualisasi pikeun pigura waktos anu béda dina sataun. Ieu nyarioskeun ka urang kumaha waktos mangaruhan perjalanan palanggan.

Язык: R

Dataset/Pakét: Uber Pickups dina dataset New York City

7. Supir Drowsiness deteksi

Ningkatkeun kaahlian anjeun ku damel di Top Data Science Project - sistem deteksi drowsiness kalawan OpenCV & Keras.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Drowsy nyetir pisan bahaya, sarta ampir sarébu kacilakaan lumangsung unggal taun alatan supir ragrag saré bari nyetir. Dina proyék Python ieu, urang bakal nyieun sistem nu bisa ngadeteksi supir drowsy sarta ogé waspada ku sinyal audio.

Proyék ieu dilaksanakeun nganggo Keras sareng OpenCV. Kami bakal ngagunakeun OpenCV pikeun deteksi raray sareng panon sareng sareng Keras kami bakal mengklasifikasikan kaayaan panon (Buka atanapi Tutup) nganggo téknik jaringan saraf jero.

8. Chatbot

Jieun Chatbot sareng Python sareng lengkah maju dina karir anjeun - Chatbot sareng NLTK & Keras.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Chatbots mangrupakeun bagian integral tina bisnis. Seueur usaha kedah nawiskeun jasa ka para nasabah sareng peryogi seueur tenaga, waktos sareng usaha pikeun ngalayanan aranjeunna. Chatbots tiasa ngajadikeun otomatis seueur interaksi palanggan anjeun ku ngawalon sababaraha patarosan umum anu ditaroskeun ku para nasabah. Dasarna aya dua jinis chatbots: Domain-spésifik sareng Open-domain. A chatbot domain-spésifik mindeng dipaké pikeun ngajawab masalah husus. Janten, anjeun kedah ngaluyukeunana supados tiasa dianggo sacara efektif dina widang anjeun. Chatbots open-domain tiasa ditaroskeun patarosan naon waé, janten ngalatih aranjeunna peryogi data anu ageung.

set data: Intents file json

Язык: Python

proyék Élmu Data canggih

9. Gambar Caption generator

Pariksa palaksanaan lengkep proyék kalawan kode sumber − Gambar Caption Generator sareng CNN & LSTM.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Ngajéntrékeun naon anu aya dina gambar mangrupikeun tugas anu gampang pikeun manusa, tapi pikeun komputer, gambar ngan saukur runtuyan angka anu ngagambarkeun nilai warna unggal piksel. Ieu tugas hésé pikeun komputer. Ngartos naon anu aya dina gambar teras nyiptakeun déskripsi dina basa alami (sapertos basa Inggris) mangrupikeun tugas anu sesah. Proyék ieu ngagunakeun téknik diajar jero dimana urang nerapkeun Convolutional Neural Network (CNN) sareng Recurrent Neural Network (LSTM) pikeun nyiptakeun generator déskripsi gambar.

set data: Flickr 8K

Язык: Python

Kerangka: Keras

10. Deteksi panipuan kartu kiridit

Laksanakeun anu pangsaéna nalika ngerjakeun ide proyék Élmu Data anjeun − ngadeteksi panipuan kartu kiridit ngagunakeun learning mesin.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Ayeuna anjeun parantos ngartos téknik sareng konsép. Hayu urang ngaléngkah ka sababaraha proyék élmu data canggih. Dina proyék ieu urang bakal ngagunakeun basa Sunda kalawan algoritma kawas tangkal kaputusan, régrési logistik, jaringan saraf jieunan sareng gradient boosting classifier. Urang bakal ngagunakeun susunan data transaksi kartu pikeun mengklasifikasikan transaksi kartu kiridit salaku curang atawa asli. Kami bakal milih modél anu béda pikeun aranjeunna sareng ngawangun kurva kinerja.

Язык: R

Dataset/Pakét: Dataset Transaksi Kartu

11. Sistim Rekomendasi pilem

Diajar palaksanaan proyék Élmu Data pangsaéna sareng Kode Sumber - Sistem Rekomendasi Pilem dina basa Sunda

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Dina proyék Élmu Data ieu, urang bakal ngagunakeun basa Sunda pikeun nerapkeun saran pilem ngaliwatan pembelajaran mesin. Sistem rekomendasi ngirimkeun bongbolongan ka pangguna ngaliwatan prosés nyaring dumasar kana kahoyong pamaké séjén sareng sajarah browsing. Upami A sareng B resep Home Alone, sareng B resep Mean Girls, maka anjeun tiasa nyarankeun A - aranjeunna ogé resep. Hal ieu ngamungkinkeun para nasabah pikeun berinteraksi sareng platform.

Язык: R

Dataset/Pakét: kumpulan data MovieLens

12. Segmentation konsumén

Ngingetkeun dunungan ku proyék Data Science (kaasup kode sumber) - Segmentasi pelanggan nganggo pembelajaran mesin.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Segmentasi pembeli mangrupikeun aplikasi anu populér pangajaran anu teu diawasi. Nganggo clustering, perusahaan ngaidentipikasi bagéan palanggan pikeun nargétkeun basis pangguna poténsial. Aranjeunna ngabagi konsumén kana grup dumasar kana ciri umum sapertos gender, umur, kapentingan sareng kabiasaan belanja supados aranjeunna tiasa sacara efektif pasar produkna ka unggal grup. Urang bakal ngagunakeun K-hartosna klaster, kitu ogé visualize sebaran dumasar gender jeung umur. Urang teras bakal nganalisis tingkat panghasilan sareng biaya taunanna.

Язык: R

Dataset/Pakét: Mall_Customers dataset

13. Klasifikasi Kangker payudara

Pariksa palaksanaan lengkep proyék Élmu Data dina Python − Klasifikasi kanker payudara ngagunakeun pangajaran jero.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Balik deui kana kontribusi médis élmu data, hayu urang diajar kumaha ngadeteksi kanker payudara nganggo Python. Urang bakal nganggo dataset IDC_regular pikeun ngaidentipikasi karsinoma duktal invasif, bentuk paling umum tina kanker payudara. Ieu tumuwuh dina saluran susu, burrowing kana jaringan payudara serat atawa lemak luar saluran. Dina ideu proyék sains ngumpulkeun data ieu kami bakal ngagunakeun jero Learning jeung perpustakaan Keras pikeun klasifikasi.

Язык: Python

Dataset/Pakét: IDC_regular

14. Pangakuan Tanda Lalu Lintas

Ngahontal katepatan dina téknologi nyetir diri kalayan proyék Data Science pangakuan tanda lalulintas ngagunakeun CNN open source.

14 proyék open-source pikeun ningkatkeun kaahlian Data Science (gampang, normal, susah)

Tanda jalan sareng aturan lalu lintas penting pisan pikeun unggal supir pikeun nyegah kacilakaan. Nuturkeun aturan, Anjeun mimitina kudu ngarti naon tanda jalan. Hiji jalma kedah diajar sadaya rambu jalan sateuacan anjeunna dibéré lisénsi pikeun nyetir kendaraan naon waé. Tapi ayeuna jumlah kandaraan otonom tumuwuh, sarta dina mangsa nu bakal datang hiji jalma moal deui ngajalankeun mobil sorangan. Dina proyék Pangenal Tanda Jalan, anjeun bakal diajar kumaha program tiasa mikawanoh jinis rambu jalan ku cara nyandak gambar salaku input. The German Traffic Sign Recognition Benchmark (GTSRB) dataset dipaké pikeun ngawangun jaringan neural jero pikeun mikawanoh kelas nu tanda lalulintas milik. Urang ogé nyieun GUI basajan pikeun berinteraksi sareng aplikasi.

Язык: Python

set data: GTSRB (Tolok ukur Pangenal Tanda Lalu Lintas Jerman)

Maca deui

sumber: www.habr.com

Tambahkeun komentar