14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Sains Data untuk Pemula

1. Analisis Sentimen (Analisis mood melalui teks)

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Lihat pelaksanaan lengkap projek Sains Data menggunakan kod sumber βˆ’ Projek Analisis Sentimen dalam R.

Analisis Sentimen ialah analisis perkataan untuk mengenal pasti sentimen dan pendapat, yang boleh positif atau negatif. Ini adalah jenis klasifikasi di mana kelas boleh menjadi binari (positif dan negatif) atau jamak (gembira, marah, sedih, jahat...). Kami akan melaksanakan projek Sains Data ini dalam R dan akan menggunakan set data dalam pakej "janeaustenR". Kami akan menggunakan kamus tujuan umum seperti AFINN, bing dan loughran, melakukan gabungan dalaman dan pada akhirnya kami akan mencipta awan perkataan untuk memaparkan hasilnya.

Bahasa: R
Set Data/Pakej: janeoustenR

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Artikel tersebut telah diterjemahkan dengan sokongan Perisian EDISON, yang membuat bilik pemasangan maya untuk kedai berbilang jenamaDan menguji perisian.

2. Pengesanan Berita Palsu

Tingkatkan kemahiran anda ke peringkat seterusnya dengan mengerjakan Projek Sains Data untuk Pemula βˆ’ pengesanan berita palsu dengan Python.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Berita palsu ialah maklumat palsu yang disebarkan melalui media sosial dan media dalam talian lain untuk mencapai matlamat politik. Dalam idea projek Sains Data ini, kami akan menggunakan Python untuk membina model yang boleh menentukan dengan tepat sama ada berita itu benar atau palsu. Kami akan mencipta TfidfVectorizer dan menggunakan PassiveAggressiveClassifier untuk mengklasifikasikan berita kepada "sebenar" dan "palsu". Kami akan menggunakan set data bentuk 7796Γ—4 dan melakukan segala-galanya dalam Jupyter Lab.

Bahasa: Python

Set Data/Pakej: news.csv

3. Mengesan Penyakit Parkinson

Maju ke hadapan dengan mengusahakan Idea Projek Sains Data βˆ’ pengesanan penyakit Parkinson dengan XGBoost.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Kami telah mula menggunakan Sains Data untuk meningkatkan penjagaan kesihatan dan perkhidmatan - jika kami boleh meramalkan penyakit pada peringkat awal, maka kami akan mendapat banyak kelebihan. Jadi, dalam idea projek Sains Data ini, kita akan belajar cara mengesan penyakit Parkinson menggunakan Python. Ia adalah penyakit neurodegeneratif, progresif sistem saraf pusat yang menjejaskan pergerakan dan menyebabkan menggeletar dan kekakuan. Ia menjejaskan neuron penghasil dopamin di otak, dan setiap tahun, ia menjejaskan lebih 1 juta orang di India.

Bahasa: Python

Set Data/Pakej: Dataset UCI ML Parkinsons

Projek Sains Data kerumitan sederhana

4. Pengiktirafan Emosi Pertuturan

Semak pelaksanaan penuh projek sampel Sains Data βˆ’ pengecaman pertuturan dengan Librosa.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Sekarang mari kita belajar cara menggunakan perpustakaan yang berbeza. Projek Sains Data ini menggunakan librosa untuk pengecaman pertuturan. SER ialah proses mengenal pasti emosi manusia dan keadaan afektif daripada pertuturan. Oleh kerana kami menggunakan nada dan nada untuk menyatakan emosi dengan suara kami, SER adalah relevan. Tetapi kerana emosi adalah subjektif, anotasi audio adalah tugas yang sukar. Kami akan menggunakan fungsi mfcc, kroma dan mel dan menggunakan set data RAVDESS untuk pengecaman emosi. Kami akan membuat pengelas MLPC untuk model ini.

Bahasa: Python

Set Data/Pakej: Dataset RAVDESS

5. Pengesanan Jantina dan Umur

Kagumkan majikan dengan projek Sains Data terkini - pengesanan jantina dan umur dengan OpenCV.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Ini adalah Sains Data yang menarik dengan Python. Menggunakan hanya satu imej, anda akan belajar cara meramal jantina dan umur seseorang. Dalam hal ini, kami akan memperkenalkan anda kepada Computer Vision dan prinsipnya. Kami akan membina rangkaian saraf konvolusi dan akan menggunakan model yang dilatih oleh Tal Hassner dan Gil Levy pada set data Adience. Kami akan menggunakan beberapa fail .pb, .pbtxt, .prototxt dan .caffemodel di sepanjang jalan.

Bahasa: Python

Set Data/Pakej: Adience

6. Analisis Data Uber

Lihat pelaksanaan lengkap projek Sains Data dengan kod sumber βˆ’ Projek Analisis Data Uber di R.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Ini ialah projek visualisasi data dengan ggplot2 di mana kami akan menggunakan R dan perpustakaannya serta menganalisis pelbagai parameter. Kami akan menggunakan set data Uber Pickups New York dan membuat visualisasi untuk rangka masa yang berbeza pada tahun itu. Ini memberitahu kami cara masa mempengaruhi perjalanan pelanggan.

Bahasa: R

Set Data/Pakej: Uber Pickups dalam set data New York City

7. Pengesanan mengantuk pemandu

Tingkatkan kemahiran anda dengan mengusahakan Projek Sains Data Teratas - sistem pengesanan mengantuk dengan OpenCV & Keras.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Memandu mengantuk amat berbahaya, dengan kira-kira seribu kemalangan setiap tahun disebabkan pemandu tertidur semasa memandu. Dalam projek Python ini, kami akan mencipta sistem yang boleh mengesan pemandu mengantuk dan juga memberi amaran kepada mereka dengan bunyi bip.

Projek ini dilaksanakan menggunakan Keras dan OpenCV. Kami akan menggunakan OpenCV untuk mengesan muka dan mata dan dengan bantuan Keras kami akan mengklasifikasikan keadaan mata (Buka atau Tertutup) menggunakan kaedah rangkaian neural dalam.

8.Chatbot

Bina chatbot dengan Python dan ambil langkah ke hadapan dalam kerjaya anda - Chatbot dengan NLTK & Keras.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Chatbots adalah bahagian penting dalam perniagaan. Banyak perniagaan perlu menawarkan perkhidmatan kepada pelanggan mereka dan memerlukan banyak tenaga kerja, masa dan usaha untuk melayani mereka. Chatbots boleh mengautomasikan banyak interaksi pelanggan dengan menjawab beberapa soalan biasa yang ditanya oleh pelanggan. Pada asasnya terdapat dua jenis chatbots: Domain khusus dan Open-domain. Chatbot khusus domain sering digunakan untuk menyelesaikan masalah tertentu. Oleh itu, anda perlu menyesuaikannya untuk berfungsi dengan berkesan dalam bidang anda. Chatbots domain terbuka boleh ditanya apa-apa soalan, jadi melatih mereka memerlukan sejumlah besar data.

Set data: fail json

Bahasa: Python

Projek Sains Data Lanjutan

9. Penjana Kapsyen Imej

Semak pelaksanaan projek lengkap dengan kod sumber βˆ’ Penjana Kapsyen Imej dengan CNN & LSTM.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Memerihalkan perkara dalam imej adalah tugas yang mudah untuk manusia, tetapi bagi komputer, imej hanyalah koleksi nombor yang mewakili nilai warna setiap piksel. Ini adalah tugas yang sukar untuk komputer. Memahami apa yang ada dalam imej dan kemudian mencipta penerangan bahasa semula jadi (cth. Bahasa Inggeris) adalah satu lagi tugas yang sukar. Projek ini menggunakan teknik pembelajaran mendalam di mana kami melaksanakan Rangkaian Neural Konvolusi (CNN) dengan Rangkaian Neural Berulang (LSTM) untuk mencipta penjana penerangan imej.

Set data: Flickr 8K

Bahasa: Python

Rangka kerja: Keras

10. Pengesanan Penipuan Kad Kredit

Lakukan yang terbaik dengan mengusahakan idea projek Sains Data βˆ’ pengesanan penipuan kad kredit dengan pembelajaran mesin.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Sekarang anda telah mula memahami kaedah dan konsep. Mari kita beralih kepada beberapa projek sains data lanjutan. Dalam projek ini, kami akan menggunakan bahasa R dengan algoritma seperti pokok keputusan, regresi logistik, rangkaian saraf tiruan dan pengelas penggalak kecerunan. Kami akan menggunakan set data transaksi kad untuk mengklasifikasikan transaksi kad kredit sebagai penipuan dan tulen. Kami akan memilih model yang berbeza untuk mereka dan membina keluk prestasi.

Bahasa: R

Set Data/Pakej: Dataset Transaksi Kad

11. Sistem Syor Filem

Terokai pelaksanaan projek Sains Data terbaik dengan Kod Sumber - Sistem Pengesyoran Filem dalam R

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Dalam projek Sains Data ini, kami akan menggunakan R untuk melaksanakan pengesyoran filem melalui pembelajaran mesin. Sistem pengesyoran menghantar cadangan kepada pengguna melalui proses penapisan berdasarkan keutamaan pengguna lain dan sejarah penyemakan imbas. Jika A dan B suka Home Alone, dan B suka Mean Girls, maka anda boleh mencadangkan A - mereka mungkin juga menyukainya. Ini membolehkan pelanggan berinteraksi dengan platform.

Bahasa: R

Set Data/Pakej: Set data MovieLens

12. Segmentasi Pelanggan

Kagumkan majikan dengan projek Sains Data (termasuk kod sumber) - Pembahagian pelanggan dengan pembelajaran mesin.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Pembahagian pembeli ialah aplikasi yang popular pembelajaran tanpa pengawasan. Menggunakan pengelompokan, syarikat menentukan segmen pelanggan untuk bekerja dengan pangkalan pengguna yang berpotensi. Mereka membahagikan pelanggan kepada kumpulan mengikut ciri umum seperti jantina, umur, minat, dan tabiat berbelanja, supaya mereka dapat memasarkan produk mereka dengan berkesan kepada setiap kumpulan. Kami akan gunakan K-bermaksud pengelompokan, serta memvisualisasikan taburan mengikut jantina dan umur. Kami kemudian menganalisis tahap pendapatan dan perbelanjaan tahunan mereka.

Bahasa: R

Set Data/Pakej: Dataset Mall_Customers

13. Klasifikasi Kanser Payudara

Lihat pelaksanaan lengkap projek Sains Data dalam Python βˆ’ Klasifikasi Kanser Payudara Menggunakan Pembelajaran Mendalam.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Berbalik kepada sumbangan perubatan sains data, mari belajar cara mengesan kanser payudara dengan Python. Kami akan menggunakan set data IDC_regular untuk mengesan karsinoma duktus invasif, bentuk kanser payudara yang paling biasa. Ia berkembang dalam saluran susu, menembusi ke dalam tisu berserabut atau lemak kelenjar susu di luar saluran. Dalam idea projek sains pengumpulan data ini, kami akan gunakan Pembelajaran Deep dan perpustakaan Keras untuk pengelasan.

Bahasa: Python

Set Data/Pakej: IDC_biasa

14. Pengiktirafan Tanda Lalu Lintas

Mencapai ketepatan dalam teknologi kereta pandu sendiri dengan projek Sains Data dihidupkan pengecaman tanda lalu lintas menggunakan CNN sumber terbuka.

14 projek sumber terbuka untuk meningkatkan kemahiran Sains Data (mudah, biasa, sukar)

Papan tanda jalan dan peraturan lalu lintas amat penting bagi setiap pemandu bagi mengelak kemalangan. Untuk mengikuti peraturan tersebut, anda perlu terlebih dahulu memahami rupa tanda jalan tersebut. Seseorang mesti mempelajari semua papan tanda jalan sebelum dia diberi hak untuk memandu sebarang kenderaan. Tetapi kini bilangan kenderaan autonomi semakin meningkat, dan dalam masa terdekat, seseorang tidak lagi akan memandu kereta sendiri. Dalam projek Pengecaman Tanda Jalan, anda akan mempelajari cara program boleh mengenali jenis tanda jalan dengan mengambil imej sebagai input. Set Data Rujukan Pengecaman Tanda Jalan Jerman (GTSRB) digunakan untuk membina rangkaian saraf dalam untuk mengenali kelas yang menjadi milik tanda lalu lintas. Kami juga mencipta GUI mudah untuk berinteraksi dengan aplikasi.

Bahasa: Python

Set data: GTRB (Tanda Aras Pengecaman Tanda Lalu Lintas Jerman)

Baca lagi

Sumber: www.habr.com

Tambah komen