Sains Data untuk Pemula
1. Analisis Sentimen (Analisis mood melalui teks)

Lihat pelaksanaan lengkap projek Sains Data menggunakan kod sumber − .
Analisis Sentimen ialah analisis perkataan untuk mengenal pasti sentimen dan pendapat, yang boleh positif atau negatif. Ini adalah jenis klasifikasi di mana kelas boleh menjadi binari (positif dan negatif) atau jamak (gembira, marah, sedih, jahat...). Kami akan melaksanakan projek Sains Data ini dalam R dan akan menggunakan set data dalam pakej "janeaustenR". Kami akan menggunakan kamus tujuan umum seperti AFINN, bing dan loughran, melakukan gabungan dalaman dan pada akhirnya kami akan mencipta awan perkataan untuk memaparkan hasilnya.
Bahasa: R
Set Data/Pakej: janeoustenR
Artikel tersebut telah diterjemahkan dengan sokongan Perisian EDISON, yang Dan .
2. Pengesanan Berita Palsu
Tingkatkan kemahiran anda ke peringkat seterusnya dengan mengerjakan Projek Sains Data untuk Pemula − .

Berita palsu ialah maklumat palsu yang disebarkan melalui media sosial dan media dalam talian lain untuk mencapai matlamat politik. Dalam idea projek Sains Data ini, kami akan menggunakan Python untuk membina model yang boleh menentukan dengan tepat sama ada berita itu benar atau palsu. Kami akan mencipta TfidfVectorizer dan menggunakan PassiveAggressiveClassifier untuk mengklasifikasikan berita kepada "sebenar" dan "palsu". Kami akan menggunakan set data bentuk 7796×4 dan melakukan segala-galanya dalam Jupyter Lab.
Bahasa: Python
Set Data/Pakej: news.csv
3. Mengesan Penyakit Parkinson
Maju ke hadapan dengan mengusahakan Idea Projek Sains Data − .

Kami telah mula menggunakan Sains Data untuk meningkatkan penjagaan kesihatan dan perkhidmatan - jika kami boleh meramalkan penyakit pada peringkat awal, maka kami akan mendapat banyak kelebihan. Jadi, dalam idea projek Sains Data ini, kita akan belajar cara mengesan penyakit Parkinson menggunakan Python. Ia adalah penyakit neurodegeneratif, progresif sistem saraf pusat yang menjejaskan pergerakan dan menyebabkan menggeletar dan kekakuan. Ia menjejaskan neuron penghasil dopamin di otak, dan setiap tahun, ia menjejaskan lebih 1 juta orang di India.
Bahasa: Python
Set Data/Pakej: Dataset UCI ML Parkinsons
Projek Sains Data kerumitan sederhana
4. Pengiktirafan Emosi Pertuturan
Semak pelaksanaan penuh projek sampel Sains Data − .

Sekarang mari kita belajar cara menggunakan perpustakaan yang berbeza. Projek Sains Data ini menggunakan librosa untuk pengecaman pertuturan. SER ialah proses mengenal pasti emosi manusia dan keadaan afektif daripada pertuturan. Oleh kerana kami menggunakan nada dan nada untuk menyatakan emosi dengan suara kami, SER adalah relevan. Tetapi kerana emosi adalah subjektif, anotasi audio adalah tugas yang sukar. Kami akan menggunakan fungsi mfcc, kroma dan mel dan menggunakan set data RAVDESS untuk pengecaman emosi. Kami akan membuat pengelas MLPC untuk model ini.
Bahasa: Python
Set Data/Pakej: Dataset RAVDESS
5. Pengesanan Jantina dan Umur
Kagumkan majikan dengan projek Sains Data terkini - .

Ini adalah Sains Data yang menarik dengan Python. Menggunakan hanya satu imej, anda akan belajar cara meramal jantina dan umur seseorang. Dalam hal ini, kami akan memperkenalkan anda kepada Computer Vision dan prinsipnya. Kami akan membina dan akan menggunakan model yang dilatih oleh Tal Hassner dan Gil Levy pada set data Adience. Kami akan menggunakan beberapa fail .pb, .pbtxt, .prototxt dan .caffemodel di sepanjang jalan.
Bahasa: Python
Set Data/Pakej: Adience
6. Analisis Data Uber
Lihat pelaksanaan lengkap projek Sains Data dengan kod sumber − .

Ini ialah projek visualisasi data dengan ggplot2 di mana kami akan menggunakan R dan perpustakaannya serta menganalisis pelbagai parameter. Kami akan menggunakan set data Uber Pickups New York dan membuat visualisasi untuk rangka masa yang berbeza pada tahun itu. Ini memberitahu kami cara masa mempengaruhi perjalanan pelanggan.
Bahasa: R
Set Data/Pakej: Uber Pickups dalam set data New York City
7. Pengesanan mengantuk pemandu
Tingkatkan kemahiran anda dengan mengusahakan Projek Sains Data Teratas - .

Memandu mengantuk amat berbahaya, dengan kira-kira seribu kemalangan setiap tahun disebabkan pemandu tertidur semasa memandu. Dalam projek Python ini, kami akan mencipta sistem yang boleh mengesan pemandu mengantuk dan juga memberi amaran kepada mereka dengan bunyi bip.
Projek ini dilaksanakan menggunakan Keras dan OpenCV. Kami akan menggunakan OpenCV untuk mengesan muka dan mata dan dengan bantuan Keras kami akan mengklasifikasikan keadaan mata (Buka atau Tertutup) menggunakan kaedah rangkaian neural dalam.
8.Chatbot
Bina chatbot dengan Python dan ambil langkah ke hadapan dalam kerjaya anda - .

Chatbots adalah bahagian penting dalam perniagaan. Banyak perniagaan perlu menawarkan perkhidmatan kepada pelanggan mereka dan memerlukan banyak tenaga kerja, masa dan usaha untuk melayani mereka. Chatbots boleh mengautomasikan banyak interaksi pelanggan dengan menjawab beberapa soalan biasa yang ditanya oleh pelanggan. Pada asasnya terdapat dua jenis chatbots: Domain khusus dan Open-domain. Chatbot khusus domain sering digunakan untuk menyelesaikan masalah tertentu. Oleh itu, anda perlu menyesuaikannya untuk berfungsi dengan berkesan dalam bidang anda. Chatbots domain terbuka boleh ditanya apa-apa soalan, jadi melatih mereka memerlukan sejumlah besar data.
Set data: fail json
Bahasa: Python
Projek Sains Data Lanjutan
9. Penjana Kapsyen Imej
Semak pelaksanaan projek lengkap dengan kod sumber − .

Memerihalkan perkara dalam imej adalah tugas yang mudah untuk manusia, tetapi bagi komputer, imej hanyalah koleksi nombor yang mewakili nilai warna setiap piksel. Ini adalah tugas yang sukar untuk komputer. Memahami apa yang ada dalam imej dan kemudian mencipta penerangan bahasa semula jadi (cth. Bahasa Inggeris) adalah satu lagi tugas yang sukar. Projek ini menggunakan teknik pembelajaran mendalam di mana kami melaksanakan Rangkaian Neural Konvolusi (CNN) dengan Rangkaian Neural Berulang (LSTM) untuk mencipta penjana penerangan imej.
Set data: Flickr 8K
Bahasa: Python
Rangka kerja: Keras
10. Pengesanan Penipuan Kad Kredit
Lakukan yang terbaik dengan mengusahakan idea projek Sains Data − .

Sekarang anda telah mula memahami kaedah dan konsep. Mari kita beralih kepada beberapa projek sains data lanjutan. Dalam projek ini, kami akan menggunakan bahasa R dengan algoritma seperti , regresi logistik, rangkaian saraf tiruan dan pengelas penggalak kecerunan. Kami akan menggunakan set data transaksi kad untuk mengklasifikasikan transaksi kad kredit sebagai penipuan dan tulen. Kami akan memilih model yang berbeza untuk mereka dan membina keluk prestasi.
Bahasa: R
Set Data/Pakej: Dataset Transaksi Kad
11. Sistem Syor Filem
Terokai pelaksanaan projek Sains Data terbaik dengan Kod Sumber -

Dalam projek Sains Data ini, kami akan menggunakan R untuk melaksanakan pengesyoran filem melalui pembelajaran mesin. Sistem pengesyoran menghantar cadangan kepada pengguna melalui proses penapisan berdasarkan keutamaan pengguna lain dan sejarah penyemakan imbas. Jika A dan B suka Home Alone, dan B suka Mean Girls, maka anda boleh mencadangkan A - mereka mungkin juga menyukainya. Ini membolehkan pelanggan berinteraksi dengan platform.
Bahasa: R
Set Data/Pakej: Set data MovieLens
12. Segmentasi Pelanggan
Kagumkan majikan dengan projek Sains Data (termasuk kod sumber) - .

Pembahagian pembeli ialah aplikasi yang popular . Menggunakan pengelompokan, syarikat menentukan segmen pelanggan untuk bekerja dengan pangkalan pengguna yang berpotensi. Mereka membahagikan pelanggan kepada kumpulan mengikut ciri umum seperti jantina, umur, minat, dan tabiat berbelanja, supaya mereka dapat memasarkan produk mereka dengan berkesan kepada setiap kumpulan. Kami akan gunakan , serta memvisualisasikan taburan mengikut jantina dan umur. Kami kemudian menganalisis tahap pendapatan dan perbelanjaan tahunan mereka.
Bahasa: R
Set Data/Pakej: Dataset Mall_Customers
13. Klasifikasi Kanser Payudara
Lihat pelaksanaan lengkap projek Sains Data dalam Python − .

Berbalik kepada sumbangan perubatan sains data, mari belajar cara mengesan kanser payudara dengan Python. Kami akan menggunakan set data IDC_regular untuk mengesan karsinoma duktus invasif, bentuk kanser payudara yang paling biasa. Ia berkembang dalam saluran susu, menembusi ke dalam tisu berserabut atau lemak kelenjar susu di luar saluran. Dalam idea projek sains pengumpulan data ini, kami akan gunakan dan perpustakaan Keras untuk pengelasan.
Bahasa: Python
Set Data/Pakej: IDC_biasa
14. Pengiktirafan Tanda Lalu Lintas
Mencapai ketepatan dalam teknologi kereta pandu sendiri dengan projek Sains Data dihidupkan sumber terbuka.

Papan tanda jalan dan peraturan lalu lintas amat penting bagi setiap pemandu bagi mengelak kemalangan. Untuk mengikuti peraturan tersebut, anda perlu terlebih dahulu memahami rupa tanda jalan tersebut. Seseorang mesti mempelajari semua papan tanda jalan sebelum dia diberi hak untuk memandu sebarang kenderaan. Tetapi kini bilangan kenderaan autonomi semakin meningkat, dan dalam masa terdekat, seseorang tidak lagi akan memandu kereta sendiri. Dalam projek Pengecaman Tanda Jalan, anda akan mempelajari cara program boleh mengenali jenis tanda jalan dengan mengambil imej sebagai input. Set Data Rujukan Pengecaman Tanda Jalan Jerman (GTSRB) digunakan untuk membina rangkaian saraf dalam untuk mengenali kelas yang menjadi milik tanda lalu lintas. Kami juga mencipta GUI mudah untuk berinteraksi dengan aplikasi.
Bahasa: Python
Set data: GTRB (Tanda Aras Pengecaman Tanda Lalu Lintas Jerman)
Baca lagi
Sumber: www.habr.com
