Analisis Sentimen yaiku analisis tembung kanggo nemtokake sentimen lan panemu, sing bisa positif utawa negatif. Iki minangka jinis klasifikasi sing kelas bisa dadi biner (positif lan negatif) utawa jamak (seneng, duka, sedih, ora becik ...). Kita bakal ngleksanakake proyek Ilmu Data iki ing R lan bakal nggunakake dataset ing paket "janeaustenR". Kita bakal nggunakake kamus tujuan umum kayata AFINN, bing lan loughran, nindakake gabungan batin, lan ing pungkasan kita bakal nggawe awan tembung kanggo nampilake asil.
Njupuk katrampilan sampeyan menyang tingkat sabanjure kanthi nggarap proyek Ilmu Data kanggo pamula - ndeteksi warta palsu karo Python.
Warta palsu yaiku informasi palsu sing disebar liwat media sosial lan media online liyane kanggo nggayuh tujuan politik. Ing ide proyek Ilmu Data iki, kita bakal nggunakake Python kanggo mbangun model sing bisa nemtokake kanthi akurat manawa crita berita kasebut nyata utawa palsu. Kita bakal nggawe TfidfVectorizer lan nggunakake PassiveAggressiveClassifier kanggo nggolongake warta menyang "nyata" lan "palsu". Kita bakal nggunakake dataset saka wangun 7796 × 4 lan mbukak kabeh ing Jupyter Lab.
Kita wis miwiti nggunakake Ilmu Data kanggo ningkatake kesehatan lan layanan - yen kita bisa prédhiksi penyakit ing tahap awal, mula kita bakal entuk akeh kaluwihan. Dadi, ing ide proyek Ilmu Data iki, kita bakal sinau carane ndeteksi penyakit Parkinson nggunakake Python. Iki minangka penyakit neurodegeneratif, progresif saka sistem saraf pusat sing mengaruhi gerakan lan nyebabake tremor lan kaku. Iki mengaruhi neuron sing ngasilake dopamin ing otak, lan saben taun kena pengaruh luwih saka 1 yuta wong ing India.
Ayo saiki sinau carane nggunakake perpustakaan beda. Proyek Ilmu Data iki nggunakake librosa kanggo pangenalan wicara. SER minangka proses ngenali emosi manungsa lan negara afektif saka wicara. Amarga kita nggunakake nada lan nada kanggo nyebut emosi karo swara kita, SER cocog. Nanging amarga emosi subyektif, anotasi audio minangka tugas sing tantangan. Kita bakal nggunakake fungsi mfcc, chroma lan mel lan nggunakake dataset RAVDESS kanggo pangenalan emosi. Kita bakal nggawe klasifikasi MLPC kanggo model iki.
Iki minangka Ilmu Data sing menarik karo Python. Nggunakake mung siji gambar, sampeyan bakal sinau kanggo prédhiksi jender lan umur wong. Ing iki kita bakal ngenalake Computer Vision lan prinsip-prinsipe. Kita bakal mbangun jaringan syaraf konvolusional lan bakal nggunakake model sing dilatih dening Tal Hassner lan Gil Levy ing dataset Adience. Sadawane dalan, kita bakal nggunakake sawetara file .pb, .pbtxt, .prototxt lan .caffemodel.
Iki minangka proyek visualisasi data kanthi ggplot2 ing ngendi kita bakal nggunakake R lan perpustakaan lan nganalisa macem-macem paramèter. Kita bakal nggunakake set data Uber Pickups New York City lan nggawe visualisasi kanggo pigura wektu sing beda-beda ing taun. Iki nyritakake kepiye wektu mengaruhi perjalanan pelanggan.
Basa: R
Paket Data/Paket: Uber Pickups ing dataset New York City
Nyopir ngantuk banget mbebayani, lan meh sewu kacilakan kedadeyan saben taun amarga pembalap ngantuk nalika nyopir. Ing proyek Python iki, kita bakal nggawe sistem sing bisa ndeteksi driver ngantuk lan uga menehi tandha karo sinyal audio.
Proyek iki ditindakake nggunakake Keras lan OpenCV. Kita bakal nggunakake OpenCV kanggo deteksi pasuryan lan mripat lan karo Keras kita bakal nggolongake kahanan mripat (Bukak utawa Ditutup) nggunakake teknik jaringan saraf jero.
Chatbots minangka bagéan integral saka bisnis. Akeh bisnis kudu nawakake layanan kanggo para pelanggan lan mbutuhake tenaga kerja, wektu lan tenaga akeh kanggo ngladeni. Chatbots bisa ngotomatisasi akeh interaksi pelanggan kanthi mangsuli sawetara pitakonan umum sing ditakoni pelanggan. Sejatine ana rong jinis chatbots: Domain-spesifik lan Open-domain. Chatbot khusus domain asring digunakake kanggo ngatasi masalah tartamtu. Dadi, sampeyan kudu ngatur supaya bisa digunakake kanthi efektif ing lapangan sampeyan. Chatbots domain mbukak bisa ditakoni apa wae, mula latihan kasebut mbutuhake data sing akeh.
Njlèntrèhaké apa sing ana ing gambar minangka tugas sing gampang kanggo manungsa, nanging kanggo komputer, gambar mung minangka seri nomer sing makili nilai warna saben piksel. Iki minangka tugas sing angel kanggo komputer. Ngerteni apa sing ana ing gambar banjur nggawe deskripsi ing basa alami (kayata basa Inggris) minangka tugas liyane sing angel. Proyèk iki nggunakake teknik sinau jero ing ngendi kita ngleksanakake Convolutional Neural Network (CNN) karo Recurrent Neural Network (LSTM) kanggo nggawe generator deskripsi gambar.
Saiki sampeyan wis mulai ngerti teknik lan konsep. Ayo pindhah menyang sawetara proyek ilmu data canggih. Ing proyek iki, kita bakal nggunakake basa R kanthi algoritma kaya wit kaputusan, regresi logistik, jaringan syaraf tiruan lan gradient boosting classifier. Kita bakal nggunakake dataset transaksi kertu kanggo nggolongake transaksi kertu kredit minangka fraudulent utawa asli. Kita bakal milih model sing beda kanggo dheweke lan nggawe kurva kinerja.
Ing proyek Ilmu Data iki, kita bakal nggunakake R kanggo ngetrapake rekomendasi film liwat pembelajaran mesin. Sistem rekomendasi ngirim saran menyang pangguna liwat proses nyaring adhedhasar preferensi pangguna liyane lan riwayat telusuran. Yen A lan B seneng Home Alone, lan B seneng Mean Girls, sampeyan bisa menehi saran A - dheweke uga seneng. Iki ngidini pelanggan sesambungan karo platform kasebut.
Segmentasi panuku minangka aplikasi sing populer sinau tanpa pengawasan. Nggunakake clustering, perusahaan ngenali segmen pelanggan kanggo target basis pangguna potensial. Dheweke mbagi pelanggan dadi klompok miturut karakteristik umum kayata jender, umur, kapentingan lan kabiasaan mbuwang supaya bisa ngetrapake produk kanthi efektif kanggo saben klompok. Kita bakal nggunakake K-tegese clustering, uga nggambarake distribusi miturut jender lan umur. Banjur kita bakal nganalisa tingkat penghasilan lan biaya taunan.
Mbalik maneh menyang kontribusi medis ilmu data, ayo sinau carane ndeteksi kanker payudara nggunakake Python. Kita bakal nggunakake dataset IDC_regular kanggo ngenali karsinoma duktus invasif, wangun kanker payudara sing paling umum. Iku berkembang ing saluran susu, burrowing menyang jaringan susu fibrosa utawa lemak njaba saluran. Ing ide proyek ilmu pengumpulan data iki bakal digunakake Learning Deep lan perpustakaan Keras kanggo klasifikasi.
Rambu-rambu dalan lan aturan lalu lintas penting banget kanggo saben pembalap supaya ora kacilakan. Kanggo ngetutake aturan kasebut, sampeyan kudu ngerti apa tandha dalan. Wong kudu sinau kabeh pratandha dalan sadurunge diwenehi lisensi kanggo nyopir kendaraan apa wae. Nanging saiki jumlah kendaraan otonom saya akeh, lan ing mangsa ngarep wong ora bakal nyopir mobil kanthi mandiri. Ing project Road Sign Recognition, sampeyan bakal sinau carane program bisa ngenali jinis tandha dalan kanthi njupuk gambar minangka input. Dataset German Traffic Sign Recognition Benchmark (GTSRB) digunakake kanggo mbangun jaringan syaraf jero kanggo ngenali kelas sing ana tandha lalu lintas. Kita uga nggawe GUI prasaja kanggo sesambungan karo aplikasi.
Basa: Python
kumpulan data: GTSRB (Tolok ukur Pangenalan Rambu Lalu Lintas Jerman)