14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Ilmu Data untuk Pemula

1. Analisis Sentimen (Analisis suasana hati melalui teks)

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Lihat implementasi lengkap proyek Ilmu Data menggunakan kode sumber βˆ’ Proyek Analisis Sentimen di R.

Analisis Sentimen adalah analisis kata-kata untuk mengidentifikasi sentimen dan pendapat, yang bisa positif atau negatif. Ini adalah jenis klasifikasi di mana kelas dapat berupa biner (positif dan negatif) atau jamak (senang, marah, sedih, jahat...). Kami akan mengimplementasikan proyek Ilmu Data ini di R dan akan menggunakan dataset dalam paket "janeaustenR". Kami akan menggunakan kamus tujuan umum seperti AFINN, bing dan loughran, melakukan penggabungan dalam dan pada akhirnya kami akan membuat cloud kata untuk menampilkan hasilnya.

Bahasa: R
Kumpulan Data/Paket: janeoustenR

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Artikel tersebut diterjemahkan dengan dukungan EDISON Software, yang membuat ruang pas virtual untuk toko multi-merekDan menguji perangkat lunak.

2. Deteksi Berita Palsu

Tingkatkan keahlian Anda ke level selanjutnya dengan mengerjakan Proyek Ilmu Data untuk Pemula βˆ’ deteksi berita palsu dengan Python.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Berita palsu adalah informasi palsu yang disebarkan melalui media sosial dan media online lainnya untuk mencapai tujuan politik. Dalam ide proyek Ilmu Data ini, kami akan menggunakan Python untuk membuat model yang dapat secara akurat menentukan apakah berita itu asli atau palsu. Kami akan membuat TfidfVectorizer dan menggunakan PassiveAggressiveClassifier untuk mengklasifikasikan berita menjadi "nyata" dan "palsu". Kami akan menggunakan kumpulan data bentuk 7796Γ—4 dan melakukan semuanya di Lab Jupyter.

Bahasa: Ular sanca

Kumpulan Data/Paket: berita.csv

3. Mendeteksi Penyakit Parkinson

Maju terus dengan mengerjakan Ide Proyek Ilmu Data βˆ’ deteksi penyakit Parkinson dengan XGBoost.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Kami telah mulai menggunakan Ilmu Data untuk meningkatkan perawatan kesehatan dan layanan - jika kami dapat memprediksi penyakit ini pada tahap awal, kami akan mendapatkan banyak keuntungan. Nah, di ide project Data Science kali ini, kita akan belajar cara mendeteksi penyakit Parkinson menggunakan Python. Ini adalah penyakit neurodegeneratif, progresif dari sistem saraf pusat yang memengaruhi gerakan dan menyebabkan gemetar dan kaku. Ini mempengaruhi neuron penghasil dopamin di otak, dan setiap tahun, itu mempengaruhi lebih dari 1 juta orang di India.

Bahasa: Ular sanca

Kumpulan Data/Paket: Kumpulan data Parkinson UCI ML

Proyek Ilmu Data dengan kompleksitas sedang

4. Pengenalan Emosi Ucapan

Lihat implementasi lengkap proyek sampel Ilmu Data βˆ’ pengenalan ucapan dengan Librosa.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Sekarang mari kita belajar bagaimana menggunakan perpustakaan yang berbeda. Proyek Ilmu Data ini menggunakan librosa untuk pengenalan suara. SER adalah proses mengidentifikasi emosi manusia dan keadaan afektif dari ucapan. Karena kami menggunakan nada dan nada untuk mengekspresikan emosi dengan suara kami, SER relevan. Tetapi karena emosi bersifat subyektif, anotasi audio adalah tugas yang sulit. Kami akan menggunakan fungsi mfcc, chroma dan mel dan menggunakan dataset RAVDESS untuk pengenalan emosi. Kami akan membuat classifier MLPC untuk model ini.

Bahasa: Ular sanca

Kumpulan Data/Paket: kumpulan data RAVDESS

5. Deteksi Jenis Kelamin dan Usia

Buat pemberi kerja terkesan dengan proyek Ilmu Data terbaru - deteksi jenis kelamin dan usia dengan OpenCV.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Ini adalah Ilmu Data yang menarik dengan Python. Hanya dengan menggunakan satu gambar, Anda akan belajar cara memprediksi jenis kelamin dan usia seseorang. Dalam hal ini, kami akan memperkenalkan Anda pada Computer Vision dan prinsip-prinsipnya. Kami akan membangun jaringan saraf konvolusional dan akan menggunakan model yang dilatih oleh Tal Hassner dan Gil Levy pada kumpulan data Adience. Kami akan menggunakan beberapa file .pb, .pbtxt, .prototxt dan .caffemodel di sepanjang jalan.

Bahasa: Ular sanca

Kumpulan Data/Paket: Kepatuhan

6. Analisis Data Uber

Lihat implementasi lengkap proyek Ilmu Data dengan kode sumber βˆ’ Proyek Analisis Data Uber di R.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Ini adalah proyek visualisasi data dengan ggplot2 di mana kita akan menggunakan R dan pustakanya serta menganalisis berbagai parameter. Kami akan menggunakan kumpulan data Uber Pickups New York dan membuat visualisasi untuk kerangka waktu yang berbeda dalam setahun. Ini memberitahu kita bagaimana waktu mempengaruhi perjalanan pelanggan.

Bahasa: R

Kumpulan Data/Paket: Uber Pickups di kumpulan data Kota New York

7. Deteksi Kantuk Pengemudi

Tingkatkan keterampilan Anda dengan bekerja di Top Data Science Project - sistem deteksi kantuk dengan OpenCV & Keras.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Mengemudi mengantuk sangat berbahaya, dengan sekitar seribu kecelakaan setiap tahun karena pengemudi tertidur saat mengemudi. Dalam proyek Python ini, kami akan membuat sistem yang dapat mendeteksi driver yang mengantuk dan juga mengingatkan mereka dengan bunyi bip.

Proyek ini diimplementasikan menggunakan Keras dan OpenCV. Kita akan menggunakan OpenCV untuk mendeteksi wajah dan mata dan dengan bantuan Keras kita akan mengklasifikasikan keadaan mata (Terbuka atau Tertutup) menggunakan metode deep neural network.

8. Bot obrolan

Bangun chatbot dengan Python dan maju selangkah dalam karier Anda - Chatbot dengan NLTK & Keras.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Chatbots adalah bagian integral dari bisnis. Banyak bisnis harus menawarkan layanan kepada pelanggan mereka dan dibutuhkan banyak tenaga, waktu, dan upaya untuk melayani mereka. Chatbots dapat mengotomatiskan sebagian besar interaksi pelanggan dengan menjawab beberapa pertanyaan umum yang diajukan pelanggan. Pada dasarnya ada dua jenis chatbots: Domain-spesifik dan Open-domain. Chatbot khusus domain sering digunakan untuk memecahkan masalah tertentu. Jadi, Anda perlu menyesuaikannya agar bekerja secara efektif di bidang Anda. Obrolan domain terbuka dapat ditanyai pertanyaan apa pun, jadi melatihnya membutuhkan data dalam jumlah besar.

Himpunan data: file json

Bahasa: Ular sanca

Proyek Ilmu Data Tingkat Lanjut

9. Pembuat Keterangan Gambar

Lihat implementasi proyek lengkap dengan kode sumber βˆ’ Pembuat Teks Gambar dengan CNN & LSTM.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Mendeskripsikan isi gambar adalah tugas yang mudah bagi manusia, tetapi bagi komputer, gambar hanyalah kumpulan angka yang mewakili nilai warna setiap piksel. Ini adalah tugas yang sulit untuk komputer. Memahami apa yang ada dalam gambar dan kemudian membuat deskripsi bahasa alami (misalnya bahasa Inggris) adalah tugas sulit lainnya. Proyek ini menggunakan teknik pembelajaran mendalam di mana kami mengimplementasikan Convolutional Neural Network (CNN) dengan Recurrent Neural Network (LSTM) untuk membuat generator deskripsi gambar.

Himpunan data: Flickr 8K

Bahasa: Ular sanca

Kerangka: Keras

10. Deteksi Penipuan Kartu Kredit

Lakukan yang terbaik dengan mengerjakan ide proyek Ilmu Data βˆ’ deteksi penipuan kartu kredit dengan pembelajaran mesin.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Sekarang Anda sudah mulai memahami metode dan konsep. Mari beralih ke beberapa proyek ilmu data tingkat lanjut. Dalam proyek ini, kami akan menggunakan bahasa R dengan algoritma seperti pohon keputusan, regresi logistik, jaringan saraf tiruan, dan pengklasifikasi penambah gradien. Kami akan menggunakan kumpulan data transaksi kartu untuk mengklasifikasikan transaksi kartu kredit sebagai penipuan dan asli. Kami akan memilih model yang berbeda untuk mereka dan membangun kurva kinerja.

Bahasa: R

Kumpulan Data/Paket: Dataset Transaksi Kartu

11. Sistem Rekomendasi Film

Jelajahi implementasi proyek Ilmu Data terbaik dengan Kode Sumber - Sistem Rekomendasi Film di R

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Dalam proyek Ilmu Data ini, kami akan menggunakan R untuk menjalankan rekomendasi film melalui pembelajaran mesin. Sistem rekomendasi mengirimkan saran kepada pengguna melalui proses pemfilteran berdasarkan preferensi dan riwayat penelusuran pengguna lain. Jika A dan B menyukai Home Alone, dan B menyukai Mean Girls, Anda dapat menyarankan A - mereka mungkin juga menyukainya. Hal ini memungkinkan klien untuk berinteraksi dengan platform.

Bahasa: R

Kumpulan Data/Paket: Kumpulan data MovieLens

12. Segmentasi Pelanggan

Buat pemberi kerja terkesan dengan proyek Ilmu Data (termasuk kode sumber) - Segmentasi pelanggan dengan pembelajaran mesin.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Segmentasi pembeli adalah aplikasi yang populer pembelajaran tanpa pengawasan. Menggunakan pengelompokan, perusahaan menentukan segmen pelanggan untuk bekerja dengan basis pengguna potensial. Mereka membagi pelanggan menjadi beberapa kelompok menurut karakteristik umum seperti jenis kelamin, usia, minat, dan kebiasaan belanja, sehingga mereka dapat memasarkan produk mereka secara efektif ke setiap kelompok. Kami akan menggunakan Pengelompokan K-means, serta memvisualisasikan distribusi berdasarkan jenis kelamin dan usia. Kami kemudian menganalisis tingkat pendapatan dan pengeluaran tahunan mereka.

Bahasa: R

Kumpulan Data/Paket: Dataset Mall_Customers

13. Klasifikasi Kanker Payudara

Lihat implementasi lengkap proyek Ilmu Data dengan Python βˆ’ Klasifikasi Kanker Payudara Menggunakan Deep Learning.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Kembali ke kontribusi medis ilmu data, mari pelajari cara mendeteksi kanker payudara dengan Python. Kami akan menggunakan kumpulan data IDC_regular untuk mendeteksi karsinoma duktal invasif, bentuk paling umum dari kanker payudara. Ini berkembang di saluran susu, menembus ke jaringan berserat atau lemak kelenjar susu di luar saluran. Dalam ide proyek sains pengumpulan data ini, kita akan menggunakan Belajar mendalam dan perpustakaan Keras untuk klasifikasi.

Bahasa: Ular sanca

Kumpulan Data/Paket: IDC_reguler

14. Pengenalan Rambu Lalu Lintas

Mencapai presisi dalam teknologi mobil self-driving dengan proyek Data Science aktif pengenalan rambu lalu lintas menggunakan CNN sumber terbuka.

14 proyek sumber terbuka untuk meningkatkan keterampilan Ilmu Data (mudah, normal, sulit)

Rambu-rambu lalu lintas dan peraturan lalu lintas sangat penting bagi setiap pengemudi untuk menghindari kecelakaan. Untuk mengikuti aturan, pertama-tama Anda harus memahami seperti apa rambu lalu lintas itu. Seseorang harus mempelajari semua rambu-rambu jalan sebelum dia diberi hak untuk mengemudikan kendaraan apa pun. Namun kini jumlah kendaraan otonom semakin bertambah, dan dalam waktu dekat, seseorang tidak akan lagi mengendarai mobil sendiri. Dalam proyek Pengenalan Rambu Jalan, Anda akan mempelajari bagaimana sebuah program dapat mengenali suatu jenis rambu jalan dengan mengambil gambar sebagai masukan. Kumpulan Data Referensi Pengenalan Tanda Jalan Jerman (GTSRB) digunakan untuk membangun jaringan saraf yang dalam untuk mengenali kelas yang dimiliki rambu lalu lintas. Kami juga membuat GUI sederhana untuk berinteraksi dengan aplikasi.

Bahasa: Ular sanca

Himpunan data: GTRB (Patokan Pengenalan Rambu Lalu Lintas Jerman)

Baca selengkapnya

Sumber: www.habr.com

Tambah komentar