Analisis Sentimen ialah analisis perkataan untuk mengenal pasti sentimen dan pendapat, yang boleh positif atau negatif. Ini adalah jenis klasifikasi di mana kelas boleh menjadi binari (positif dan negatif) atau jamak (gembira, marah, sedih, jahat...). Kami akan melaksanakan projek Sains Data ini dalam R dan akan menggunakan set data dalam pakej "janeaustenR". Kami akan menggunakan kamus tujuan umum seperti AFINN, bing dan loughran, melakukan gabungan dalaman dan pada akhirnya kami akan mencipta awan perkataan untuk memaparkan hasilnya.
Berita palsu ialah maklumat palsu yang disebarkan melalui media sosial dan media dalam talian lain untuk mencapai matlamat politik. Dalam idea projek Sains Data ini, kami akan menggunakan Python untuk membina model yang boleh menentukan dengan tepat sama ada berita itu benar atau palsu. Kami akan mencipta TfidfVectorizer dan menggunakan PassiveAggressiveClassifier untuk mengklasifikasikan berita kepada "sebenar" dan "palsu". Kami akan menggunakan set data bentuk 7796Γ4 dan melakukan segala-galanya dalam Jupyter Lab.
Kami telah mula menggunakan Sains Data untuk meningkatkan penjagaan kesihatan dan perkhidmatan - jika kami boleh meramalkan penyakit pada peringkat awal, maka kami akan mendapat banyak kelebihan. Jadi, dalam idea projek Sains Data ini, kita akan belajar cara mengesan penyakit Parkinson menggunakan Python. Ia adalah penyakit neurodegeneratif, progresif sistem saraf pusat yang menjejaskan pergerakan dan menyebabkan menggeletar dan kekakuan. Ia menjejaskan neuron penghasil dopamin di otak, dan setiap tahun, ia menjejaskan lebih 1 juta orang di India.
Sekarang mari kita belajar cara menggunakan perpustakaan yang berbeza. Projek Sains Data ini menggunakan librosa untuk pengecaman pertuturan. SER ialah proses mengenal pasti emosi manusia dan keadaan afektif daripada pertuturan. Oleh kerana kami menggunakan nada dan nada untuk menyatakan emosi dengan suara kami, SER adalah relevan. Tetapi kerana emosi adalah subjektif, anotasi audio adalah tugas yang sukar. Kami akan menggunakan fungsi mfcc, kroma dan mel dan menggunakan set data RAVDESS untuk pengecaman emosi. Kami akan membuat pengelas MLPC untuk model ini.
Ini adalah Sains Data yang menarik dengan Python. Menggunakan hanya satu imej, anda akan belajar cara meramal jantina dan umur seseorang. Dalam hal ini, kami akan memperkenalkan anda kepada Computer Vision dan prinsipnya. Kami akan membina rangkaian saraf konvolusi dan akan menggunakan model yang dilatih oleh Tal Hassner dan Gil Levy pada set data Adience. Kami akan menggunakan beberapa fail .pb, .pbtxt, .prototxt dan .caffemodel di sepanjang jalan.
Ini ialah projek visualisasi data dengan ggplot2 di mana kami akan menggunakan R dan perpustakaannya serta menganalisis pelbagai parameter. Kami akan menggunakan set data Uber Pickups New York dan membuat visualisasi untuk rangka masa yang berbeza pada tahun itu. Ini memberitahu kami cara masa mempengaruhi perjalanan pelanggan.
Bahasa: R
Set Data/Pakej: Uber Pickups dalam set data New York City
Memandu mengantuk amat berbahaya, dengan kira-kira seribu kemalangan setiap tahun disebabkan pemandu tertidur semasa memandu. Dalam projek Python ini, kami akan mencipta sistem yang boleh mengesan pemandu mengantuk dan juga memberi amaran kepada mereka dengan bunyi bip.
Projek ini dilaksanakan menggunakan Keras dan OpenCV. Kami akan menggunakan OpenCV untuk mengesan muka dan mata dan dengan bantuan Keras kami akan mengklasifikasikan keadaan mata (Buka atau Tertutup) menggunakan kaedah rangkaian neural dalam.
Chatbots adalah bahagian penting dalam perniagaan. Banyak perniagaan perlu menawarkan perkhidmatan kepada pelanggan mereka dan memerlukan banyak tenaga kerja, masa dan usaha untuk melayani mereka. Chatbots boleh mengautomasikan banyak interaksi pelanggan dengan menjawab beberapa soalan biasa yang ditanya oleh pelanggan. Pada asasnya terdapat dua jenis chatbots: Domain khusus dan Open-domain. Chatbot khusus domain sering digunakan untuk menyelesaikan masalah tertentu. Oleh itu, anda perlu menyesuaikannya untuk berfungsi dengan berkesan dalam bidang anda. Chatbots domain terbuka boleh ditanya apa-apa soalan, jadi melatih mereka memerlukan sejumlah besar data.
Memerihalkan perkara dalam imej adalah tugas yang mudah untuk manusia, tetapi bagi komputer, imej hanyalah koleksi nombor yang mewakili nilai warna setiap piksel. Ini adalah tugas yang sukar untuk komputer. Memahami apa yang ada dalam imej dan kemudian mencipta penerangan bahasa semula jadi (cth. Bahasa Inggeris) adalah satu lagi tugas yang sukar. Projek ini menggunakan teknik pembelajaran mendalam di mana kami melaksanakan Rangkaian Neural Konvolusi (CNN) dengan Rangkaian Neural Berulang (LSTM) untuk mencipta penjana penerangan imej.
Sekarang anda telah mula memahami kaedah dan konsep. Mari kita beralih kepada beberapa projek sains data lanjutan. Dalam projek ini, kami akan menggunakan bahasa R dengan algoritma seperti pokok keputusan, regresi logistik, rangkaian saraf tiruan dan pengelas penggalak kecerunan. Kami akan menggunakan set data transaksi kad untuk mengklasifikasikan transaksi kad kredit sebagai penipuan dan tulen. Kami akan memilih model yang berbeza untuk mereka dan membina keluk prestasi.
Dalam projek Sains Data ini, kami akan menggunakan R untuk melaksanakan pengesyoran filem melalui pembelajaran mesin. Sistem pengesyoran menghantar cadangan kepada pengguna melalui proses penapisan berdasarkan keutamaan pengguna lain dan sejarah penyemakan imbas. Jika A dan B suka Home Alone, dan B suka Mean Girls, maka anda boleh mencadangkan A - mereka mungkin juga menyukainya. Ini membolehkan pelanggan berinteraksi dengan platform.
Pembahagian pembeli ialah aplikasi yang popular pembelajaran tanpa pengawasan. Menggunakan pengelompokan, syarikat menentukan segmen pelanggan untuk bekerja dengan pangkalan pengguna yang berpotensi. Mereka membahagikan pelanggan kepada kumpulan mengikut ciri umum seperti jantina, umur, minat, dan tabiat berbelanja, supaya mereka dapat memasarkan produk mereka dengan berkesan kepada setiap kumpulan. Kami akan gunakan K-bermaksud pengelompokan, serta memvisualisasikan taburan mengikut jantina dan umur. Kami kemudian menganalisis tahap pendapatan dan perbelanjaan tahunan mereka.
Berbalik kepada sumbangan perubatan sains data, mari belajar cara mengesan kanser payudara dengan Python. Kami akan menggunakan set data IDC_regular untuk mengesan karsinoma duktus invasif, bentuk kanser payudara yang paling biasa. Ia berkembang dalam saluran susu, menembusi ke dalam tisu berserabut atau lemak kelenjar susu di luar saluran. Dalam idea projek sains pengumpulan data ini, kami akan gunakan Pembelajaran Deep dan perpustakaan Keras untuk pengelasan.
Papan tanda jalan dan peraturan lalu lintas amat penting bagi setiap pemandu bagi mengelak kemalangan. Untuk mengikuti peraturan tersebut, anda perlu terlebih dahulu memahami rupa tanda jalan tersebut. Seseorang mesti mempelajari semua papan tanda jalan sebelum dia diberi hak untuk memandu sebarang kenderaan. Tetapi kini bilangan kenderaan autonomi semakin meningkat, dan dalam masa terdekat, seseorang tidak lagi akan memandu kereta sendiri. Dalam projek Pengecaman Tanda Jalan, anda akan mempelajari cara program boleh mengenali jenis tanda jalan dengan mengambil imej sebagai input. Set Data Rujukan Pengecaman Tanda Jalan Jerman (GTSRB) digunakan untuk membina rangkaian saraf dalam untuk mengenali kelas yang menjadi milik tanda lalu lintas. Kami juga mencipta GUI mudah untuk berinteraksi dengan aplikasi.
Bahasa: Python
Set data: GTRB (Tanda Aras Pengecaman Tanda Lalu Lintas Jerman)