Veri Bilimi becerilerinizi geliştirecek 14 açık kaynaklı proje (kolay, normal, zor)
Yeni Başlayanlar İçin Veri Bilimi
1. Duygu Analizi (Metin Üzerinden Duygu Analizi)
Kaynak kodunu kullanarak Veri Bilimi proje uygulamasının tamamına göz atın – R'de Duygu Analizi Projesi.
Duygu Analizi, olumlu ya da olumsuz olabilecek duygu ve düşüncelerin belirlenmesi amacıyla kelimelerin analizidir. Bu, sınıfların ikili (olumlu ve olumsuz) veya çoğul (mutlu, kızgın, üzgün, kötü...) olabileceği bir sınıflandırma türüdür. Bu Veri Bilimi projesini R'de uygulayacağız ve "janeaustenR" paketindeki veri setini kullanacağız. AFINN, bing ve loughran gibi genel amaçlı sözlükleri kullanacağız, iç birleştirme gerçekleştireceğiz ve sonunda sonucu görüntüleyecek bir kelime bulutu oluşturacağız.
Sahte haberler, siyasi hedeflere ulaşmak için sosyal medya ve diğer çevrimiçi medya aracılığıyla yayılan yanlış bilgilerdir. Bu Veri Bilimi proje fikrinde, bir haberin gerçek mi yoksa sahte mi olduğunu doğru bir şekilde belirleyebilecek bir model oluşturmak için Python'u kullanacağız. Haberleri "gerçek" ve "sahte" olarak sınıflandırmak için bir TfidfVectorizer oluşturacağız ve bir PassiveAggressiveClassifier kullanacağız. 7796×4 şeklindeki bir veri kümesini kullanacağız ve her şeyi Jupyter Lab'da çalıştıracağız.
Sağlık hizmetlerini ve hizmetleri iyileştirmek için Veri Bilimini kullanmaya başladık; eğer bir hastalığı erken aşamada tahmin edebilirsek birçok avantaja sahip olacağız. Bu Veri Bilimi proje fikrinde, Python kullanarak Parkinson hastalığını nasıl tespit edeceğimizi öğreneceğiz. Merkezi sinir sisteminin hareketi etkileyen, titreme ve sertliğe neden olan nörodejeneratif, ilerleyici bir hastalığıdır. Beyindeki dopamin üreten nöronları etkiliyor ve her yıl Hindistan'da 1 milyondan fazla insanı etkiliyor.
Şimdi farklı kütüphanelerin nasıl kullanılacağını öğrenelim. Bu Veri Bilimi projesi, konuşma tanıma için librosa'yı kullanıyor. SER, insan duygularını ve duygusal durumlarını konuşmadan tanımlama sürecidir. Duygularımızı sesimizle ifade etmek için ton ve perdeyi kullandığımız için SER konuyla ilgilidir. Ancak duygular subjektif olduğundan sesli açıklama eklemek zorlu bir iştir. Duygu tanıma için mfcc, chroma ve mel fonksiyonlarını kullanacağız ve RAVDESS veri setini kullanacağız. Bu model için bir MLPC sınıflandırıcısı oluşturacağız.
Bu Python ile ilginç bir Veri Bilimidir. Yalnızca tek bir görüntü kullanarak bir kişinin cinsiyetini ve yaşını tahmin etmeyi öğreneceksiniz. Bu yazıda size Bilgisayarla Görme ve ilkelerini tanıtacağız. Biz inşa edeceğiz evrişimli sinir ağı ve Adience veri kümesinde Tal Hassner ve Gil Levy tarafından eğitilen modelleri kullanacak. Yol boyunca bazı .pb, .pbtxt, .prototxt ve .caffemodel dosyalarını kullanacağız.
Bu, R ve kütüphanelerini kullanacağımız ve çeşitli parametreleri analiz edeceğimiz ggplot2 ile bir veri görselleştirme projesidir. Uber Pickups New York City veri kümesini kullanacağız ve yılın farklı zaman dilimleri için görselleştirmeler oluşturacağız. Bu bize zamanın müşteri seyahatini nasıl etkilediğini anlatıyor.
Dil: R
Veri Kümesi/Paket: New York City'deki Uber Teslim Alımları veri kümesi
Uykulu araç kullanmak son derece tehlikelidir ve sürücülerin araç kullanırken uyuyakalması nedeniyle her yıl bine yakın kaza meydana gelmektedir. Bu Python projemizde uykulu sürücüleri tespit edip sesli sinyalle uyarabilen bir sistem oluşturacağız.
Bu proje Keras ve OpenCV kullanılarak uygulanmıştır. Yüz ve göz tespiti için OpenCV kullanacağız ve Keras ile derin sinir ağı tekniklerini kullanarak göz durumunu (Açık veya Kapalı) sınıflandıracağız.
Chatbot'lar iş dünyasının ayrılmaz bir parçasıdır. Birçok işletme müşterilerine hizmet sunmak zorundadır ve onlara hizmet etmek çok fazla insan gücü, zaman ve çaba gerektirir. Chatbot'lar, müşterilerin sorduğu bazı genel soruları yanıtlayarak müşteri etkileşiminizin çoğunu otomatikleştirebilir. Temel olarak iki tür chatbot vardır: Alana özel ve Açık alan adı. Etki alanına özgü bir sohbet robotu genellikle belirli bir sorunu çözmek için kullanılır. Bu nedenle, alanınızda etkili bir şekilde çalışması için onu özelleştirmeniz gerekir. Açık alan sohbet robotlarına her türlü soru sorulabilir, bu nedenle onları eğitmek büyük miktarda veri gerektirir.
Bir görüntüde ne olduğunu açıklamak insanlar için kolay bir iştir, ancak bilgisayarlar için görüntü yalnızca her pikselin renk değerini temsil eden bir sayı dizisidir. Bu bilgisayarlar için zor bir iştir. Bir görüntünün içinde ne olduğunu anlamak ve ardından doğal dilde (İngilizce gibi) bir açıklama oluşturmak başka bir zor iştir. Bu proje, bir görüntü tanımlama oluşturucusu oluşturmak için Tekrarlayan Sinir Ağı (LSTM) ile Evrişimli Sinir Ağı'nı (CNN) uyguladığımız derin öğrenme tekniklerini kullanıyor.
Artık teknikleri ve kavramları anlamaya başladınız. Bazı ileri düzey veri bilimi projelerine geçelim. Bu projemizde R dilini aşağıdaki algoritmalarla kullanacağız: Karar ağaçları, lojistik regresyon, yapay sinir ağları ve gradyan artırıcı sınıflandırıcı. Kredi kartı işlemlerini sahte veya gerçek olarak sınıflandırmak için kart işlemlerine ilişkin bir veri kümesi kullanacağız. Onlara farklı modeller seçip performans eğrileri oluşturacağız.
Bu Veri Bilimi projesinde, filmin önerilerini makine öğrenimi yoluyla uygulamak için R'yi kullanacağız. Öneri sistemi, diğer kullanıcıların tercihlerine ve tarama geçmişine dayalı olarak bir filtreleme işlemi yoluyla kullanıcılara öneriler gönderir. A ve B Evde Tek Başına'yı seviyorsa ve B Kötü Kızlar'ı seviyorsa, o zaman A'yı önerebilirsiniz; onların da hoşuna gidebilir. Bu, müşterilerin platformla etkileşime girmesine olanak tanır.
Alıcı segmentasyonu popüler bir uygulamadır denetimsiz öğrenme. Şirketler kümelemeyi kullanarak potansiyel bir kullanıcı tabanını hedeflemek için müşteri segmentlerini belirler. Müşterilerini cinsiyet, yaş, ilgi alanları, harcama alışkanlıkları gibi ortak özelliklere göre gruplara ayırarak her gruba ürünlerini etkin bir şekilde pazarlayabiliyorlar. Kullanacağız K-kümeleme anlamına gelirve ayrıca cinsiyete ve yaşa göre dağılımı görselleştirin. Daha sonra yıllık gelir ve gider düzeylerini analiz edeceğiz.
Veri biliminin tıbbi katkısına geri dönersek, Python kullanarak meme kanserini nasıl tespit edeceğimizi öğrenelim. Meme kanserinin en yaygın türü olan invaziv duktal karsinomu tanımlamak için IDC_regular veri kümesini kullanacağız. Süt kanallarında gelişir ve kanalın dışındaki lifli veya yağlı meme dokusuna doğru ilerler. Bu veri toplama bilim projesi fikrinde kullanacağımız Derin Öğrenme ve sınıflandırma için Keras kütüphanesi.
Yol işaretleri ve trafik kuralları her sürücünün kazalardan kaçınması açısından çok önemlidir. Kurala uymak için öncelikle bir yol işaretinin neye benzediğini anlamanız gerekir. Bir kişiye herhangi bir aracı kullanma ehliyeti verilmeden önce tüm yol işaretlerini öğrenmesi gerekir. Ancak artık otonom araçların sayısı artıyor ve yakın gelecekte bir kişi artık bağımsız olarak araba kullanamayacak. Yol Tabelası Tanıma projesinde, bir programın bir görüntüyü girdi olarak alarak yol tabelalarının türünü nasıl tanıyabileceğini öğreneceksiniz. Alman Trafik İşareti Tanıma Karşılaştırması (GTSRB) veri kümesi, bir trafik işaretinin ait olduğu sınıfı tanımak için derin bir sinir ağı oluşturmak için kullanılır. Ayrıca uygulamayla etkileşime geçmek için basit bir GUI oluşturuyoruz.
Dil: Python
Veri seti: GTSRB (Alman Trafik İşareti Tanıma Karşılaştırması)