14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Tietotiede aloittelijoille

1. Tunneanalyysi (mielianalyysi tekstin kautta)

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Katso koko Data Science -projektin toteutus lähdekoodilla − Tunneanalyysiprojekti R:ssä.

Sentimenttianalyysi on sanojen analysointia tunteiden ja mielipiteiden määrittämiseksi, jotka voivat olla positiivisia tai negatiivisia. Tämä on eräänlainen luokittelu, jossa luokat voivat olla binäärisiä (positiivisia ja negatiivisia) tai monikkomuotoja (iloinen, vihainen, surullinen, ilkeä...). Toteutamme tämän Data Science -projektin R:ssä ja käytämme "janeaustenR" -paketin tietojoukkoa. Käytämme yleissanakirjoja, kuten AFINN, bing ja loughran, teemme sisäliitoksen ja lopuksi luomme sanapilven tuloksen näyttämiseksi.

Kieli: R
Tietojoukko/paketti: janeaustenR

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Artikkeli on käännetty EDISON Softwaren tuella, joka tekee virtuaalisia pukuhuoneita useiden merkkien liikkeisiinJa testaa ohjelmistoja.

2. Fake News Detection

Vie taitosi uudelle tasolle työskentelemällä aloittelijoille tarkoitetussa Data Science -projektissa - valeuutisten tunnistaminen Pythonilla.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Valeuutiset ovat valheellisia tietoja, joita levitetään sosiaalisessa mediassa ja muussa verkkomediassa poliittisten tavoitteiden saavuttamiseksi. Tässä Data Science -projektiideassa rakennamme Pythonin avulla mallin, joka voi määrittää tarkasti, onko uutinen todellinen vai väärennös. Luomme TfidfVectorizerin ja käytämme PassiveAggressiveClassifier -luokitusta uutisten luokitteluun "oikeisiin" ja "fakeihin". Käytämme tietojoukkoa, jonka muoto on 7796 × 4, ja suoritamme kaiken Jupyter Labissa.

Kieli: Python

Tietojoukko/paketti: uutiset.csv

3. Parkinsonin taudin havaitseminen

Siirry eteenpäin datatieteen projektiideassasi - Parkinsonin taudin havaitseminen XGBoostilla.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Olemme alkaneet käyttää Data Scienceä terveydenhuollon ja palveluiden parantamiseen – jos pystymme ennustamaan sairauden varhaisessa vaiheessa, meillä on monia etuja. Joten tässä Data Science -projektiideassa opimme tunnistamaan Parkinsonin taudin Pythonin avulla. Se on neurodegeneratiivinen, etenevä keskushermoston sairaus, joka vaikuttaa liikkeisiin ja aiheuttaa vapinaa ja jäykkyyttä. Se vaikuttaa dopamiinia tuottaviin hermosoluihin aivoissa, ja joka vuosi se vaikuttaa yli 1 miljoonaan ihmiseen Intiassa.

Kieli: Python

Tietojoukko/paketti: UCI ML Parkinsons -aineisto

Keskikokoiset datatieteen projektit

4. Puheen tunteiden tunnistus

Tutustu Data Science -esimerkkiprojektin täydelliseen toteutukseen − puheentunnistus Librosan avulla.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Opitaan nyt käyttämään erilaisia ​​kirjastoja. Tämä Data Science -projekti käyttää librosaa puheentunnistukseen. SER on prosessi ihmisen tunteiden ja affektiivisten tilojen tunnistamiseksi puheesta. Koska käytämme sävyä ja sävelkorkeutta ilmaistaksemme tunteita äänellämme, SER on olennainen. Mutta koska tunteet ovat subjektiivisia, äänimerkintä on haastava tehtävä. Käytämme mfcc-, chroma- ja mel-funktioita ja käytämme RAVDESS-tietojoukkoa tunteiden tunnistamiseen. Luomme tälle mallille MLPC-luokituksen.

Kieli: Python

Tietojoukko/paketti: RAVDESS tietojoukko

5. Sukupuolen ja iän tunnistus

Tee työnantajiin vaikutuksen uusimmalla Data Science -projektilla - sukupuolen ja iän määrittäminen OpenCV:n avulla.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Tämä on mielenkiintoinen tietotiede Pythonilla. Vain yhtä kuvaa käyttämällä opit ennustamaan henkilön sukupuolen ja iän. Tässä esittelemme sinulle Computer Visionin ja sen periaatteet. Me rakennamme konvoluutiohermoverkko ja käyttää Tal Hassnerin ja Gil Levyn Adience-tietojoukossa kouluttamia malleja. Matkan varrella käytämme joitain .pb-, .pbtxt-, .prototxt- ja .caffemodel-tiedostoja.

Kieli: Python

Tietojoukko/paketti: Adience

6. Uber-dataanalyysi

Katso koko Data Science -projektin toteutus lähdekoodilla − Uber Data Analysis Project in R.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Tämä on datan visualisointiprojekti ggplot2:lla, jossa käytämme R:tä ja sen kirjastoja sekä analysoimme erilaisia ​​parametreja. Käytämme Uber Pickups New York City -tietojoukkoa ja luomme visualisointeja vuoden eri aikajaksoille. Tämä kertoo meille, kuinka aika vaikuttaa asiakkaiden matkustamiseen.

Kieli: R

Tietojoukko/paketti: Uber Pickups in New York City -tietojoukko

7. Kuljettajan uneliaisuuden tunnistus

Paranna taitojasi työskentelemällä Top Data Science -projektissa - uneliaisuuden tunnistusjärjestelmä OpenCV:llä ja Kerasilla.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Uninen ajaminen on erittäin vaarallista, ja joka vuosi tapahtuu lähes tuhat onnettomuutta, jotka johtuvat kuljettajien nukahtamisesta ajon aikana. Tässä Python-projektissa luomme järjestelmän, joka tunnistaa uneliaiset kuljettajat ja myös hälyttää niitä äänisignaalilla.

Tämä projekti toteutetaan Kerasin ja OpenCV:n avulla. Käytämme OpenCV:tä kasvojen ja silmien havaitsemiseen ja Kerasilla luokittelemme silmän tilan (Avoin tai Kiinni) syvähermoverkkotekniikoilla.

8. Chatbot

Luo chatbot Pythonilla ja ota askel eteenpäin urallasi - Chatbot NLTK:n ja Kerasin kanssa.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Chatbotit ovat olennainen osa liiketoimintaa. Monien yritysten on tarjottava palveluja asiakkailleen, ja heidän palveleminen vie paljon työvoimaa, aikaa ja vaivaa. Chatbotit voivat automatisoida suuren osan asiakasvuorovaikutuksestasi vastaamalla joihinkin asiakkaiden esittämiin yleisiin kysymyksiin. Chatbotteja on periaatteessa kahta tyyppiä: Domain-specific ja Open-domain. Verkkotunnuskohtaista chatbotia käytetään usein tietyn ongelman ratkaisemiseen. Joten sinun on mukautettava se toimimaan tehokkaasti alallasi. Avoimen verkkotunnuksen chatboteille voidaan esittää mitä tahansa kysymyksiä, joten niiden kouluttaminen vaatii valtavan määrän dataa.

Tietojoukko: Intents json-tiedosto

Kieli: Python

Advanced Data Science -projektit

9. Kuvatekstigeneraattori

Tarkista projektin täydellinen toteutus lähdekoodilla − Kuvatekstigeneraattori CNN:n ja LSTM:n kanssa.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Kuvan sisällön kuvaaminen on helppoa ihmisille, mutta tietokoneille kuva on yksinkertaisesti sarja numeroita, jotka edustavat kunkin pikselin väriarvoa. Tämä on vaikea tehtävä tietokoneille. Toinen vaikea tehtävä on ymmärtää, mitä kuvassa on, ja sitten luoda kuvaus luonnollisella kielellä (kuten englanniksi). Tämä projekti käyttää syväoppimistekniikoita, joissa toteutamme konvoluutiohermoverkon (CNN) ja toistuvan hermoverkon (LSTM) luodaksemme kuvan kuvausgeneraattorin.

Tietojoukko: Flickr 8K

Kieli: Python

Kehys: Keras

10. Luottokorttipetosten havaitseminen

Tee parhaasi työskennellessäsi Data Science -projektiideasi parissa − havaita luottokorttipetokset koneoppimisen avulla.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Tähän mennessä olet alkanut ymmärtää tekniikoita ja käsitteitä. Siirrytään eteenpäin joihinkin edistyneisiin datatieteen projekteihin. Tässä projektissa käytämme R-kieltä algoritmien, kuten esim päätöspuita, logistinen regressio, keinotekoiset neuroverkot ja gradienttia tehostava luokitin. Käytämme korttitapahtumien tietojoukkoa luokitellaksemme luottokorttitapahtumat vilpillisiksi tai aidoiksi. Valitsemme niille erilaisia ​​malleja ja rakennamme suorituskykykäyriä.

Kieli: R

Tietojoukko/paketti: Korttitapahtumat -tietojoukko

11. Elokuvasuositusjärjestelmä

Tutki parhaan datatieteen projektin toteutusta lähdekoodilla - Elokuvasuositusjärjestelmä R-kielellä

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Tässä Data Science -projektissa käytämme R:tä elokuvan suositusten toteuttamiseen koneoppimisen avulla. Suositusjärjestelmä lähettää ehdotuksia käyttäjille suodatusprosessin kautta, joka perustuu muiden käyttäjien mieltymyksiin ja selaushistoriaan. Jos A ja B pitävät Home Alonesta ja B Mean Girlsistä, voit ehdottaa A:ta – he saattavat myös pitää siitä. Tämä antaa asiakkaille mahdollisuuden olla vuorovaikutuksessa alustan kanssa.

Kieli: R

Tietojoukko/paketti: MovieLens-tietojoukko

12. Asiakassegmentointi

Tee vaikutus työnantajiin Data Science -projektilla (mukaan lukien lähdekoodi) - Asiakkaiden segmentointi koneoppimisen avulla.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Ostajien segmentointi on suosittu sovellus ohjaamatonta oppimista. Klusteroinnin avulla yritykset tunnistavat asiakassegmenttejä kohdistaakseen potentiaalisen käyttäjäkunnan. He jakavat asiakkaat ryhmiin yhteisten ominaisuuksien, kuten sukupuolen, iän, kiinnostuksen kohteiden ja kulutustottumusten mukaan, jotta he voivat markkinoida tuotteitaan tehokkaasti jokaiselle ryhmälle. Me käytämme K tarkoittaa ryhmittelyä, sekä visualisoida jakauman sukupuolen ja iän mukaan. Sen jälkeen analysoimme heidän vuotuisia tuloja ja kuluja.

Kieli: R

Tietojoukko/paketti: Mall_Customers tietojoukko

13. Rintasyövän luokitus

Tutustu tietotiedeprojektin täydelliseen toteutukseen Pythonissa − Rintasyövän luokittelu syväoppimisen avulla.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Palatakseni datatieteen lääketieteelliseen panokseen, opitaan tunnistamaan rintasyöpä Pythonilla. Käytämme IDC_regular-tietosarjaa tunnistaaksemme invasiivisen duktaalisen karsinooman, yleisimmän rintasyövän muodon. Se kehittyy maitotiehyissä, tunkeutuen kuitu- tai rasvapitoiseen rintakudokseen kanavan ulkopuolella. Tässä tiedonkeruutieteen projektiideassa käytämme Deep Learning ja Keras-kirjasto luokittelua varten.

Kieli: Python

Tietojoukko/paketti: IDC_säännöllinen

14. Liikennemerkkien tunnistus

Tarkkuuden saavuttaminen itseohjautuvassa tekniikassa Data Science -projektin avulla liikennemerkkien tunnistus CNN:n avulla avoin lähdekoodi.

14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova)

Liikennemerkit ja liikennesäännöt ovat erittäin tärkeitä jokaiselle kuljettajalle onnettomuuksien välttämiseksi. Sääntöä noudattaaksesi sinun on ensin ymmärrettävä, miltä liikennemerkki näyttää. Ihmisen on opittava kaikki liikennemerkit ennen kuin hänelle myönnetään ajokortti. Mutta nyt autonomisten ajoneuvojen määrä kasvaa, ja lähitulevaisuudessa henkilö ei enää aja autoa itsenäisesti. Liikennemerkkien tunnistusprojektissa opit kuinka ohjelma tunnistaa liikennemerkkien tyypin ottamalla syötteeksi kuvan. German Traffic Sign Recognition Benchmark (GTSRB) -tietojoukon avulla rakennetaan syvä neuroverkko tunnistamaan luokka, johon liikennemerkki kuuluu. Luomme myös yksinkertaisen käyttöliittymän vuorovaikutukseen sovelluksen kanssa.

Kieli: Python

Tietojoukko: GTSRB (Saksan liikennemerkkien tunnistamisen vertailuarvo)

Lue lisää

Lähde: will.com

Lisää kommentti