Tietotiede aloittelijoille
1. Tunneanalyysi (mielianalyysi tekstin kautta)

Katso koko Data Science -projektin toteutus lähdekoodilla − .
Sentimenttianalyysi on sanojen analysointia tunteiden ja mielipiteiden määrittämiseksi, jotka voivat olla positiivisia tai negatiivisia. Tämä on eräänlainen luokittelu, jossa luokat voivat olla binäärisiä (positiivisia ja negatiivisia) tai monikkomuotoja (iloinen, vihainen, surullinen, ilkeä...). Toteutamme tämän Data Science -projektin R:ssä ja käytämme "janeaustenR" -paketin tietojoukkoa. Käytämme yleissanakirjoja, kuten AFINN, bing ja loughran, teemme sisäliitoksen ja lopuksi luomme sanapilven tuloksen näyttämiseksi.
Kieli: R
Tietojoukko/paketti: janeaustenR
Artikkeli on käännetty EDISON Softwaren tuella, joka Ja .
2. Fake News Detection
Vie taitosi uudelle tasolle työskentelemällä aloittelijoille tarkoitetussa Data Science -projektissa - .

Valeuutiset ovat valheellisia tietoja, joita levitetään sosiaalisessa mediassa ja muussa verkkomediassa poliittisten tavoitteiden saavuttamiseksi. Tässä Data Science -projektiideassa rakennamme Pythonin avulla mallin, joka voi määrittää tarkasti, onko uutinen todellinen vai väärennös. Luomme TfidfVectorizerin ja käytämme PassiveAggressiveClassifier -luokitusta uutisten luokitteluun "oikeisiin" ja "fakeihin". Käytämme tietojoukkoa, jonka muoto on 7796 × 4, ja suoritamme kaiken Jupyter Labissa.
Kieli: Python
Tietojoukko/paketti: uutiset.csv
3. Parkinsonin taudin havaitseminen
Siirry eteenpäin datatieteen projektiideassasi - .

Olemme alkaneet käyttää Data Scienceä terveydenhuollon ja palveluiden parantamiseen – jos pystymme ennustamaan sairauden varhaisessa vaiheessa, meillä on monia etuja. Joten tässä Data Science -projektiideassa opimme tunnistamaan Parkinsonin taudin Pythonin avulla. Se on neurodegeneratiivinen, etenevä keskushermoston sairaus, joka vaikuttaa liikkeisiin ja aiheuttaa vapinaa ja jäykkyyttä. Se vaikuttaa dopamiinia tuottaviin hermosoluihin aivoissa, ja joka vuosi se vaikuttaa yli 1 miljoonaan ihmiseen Intiassa.
Kieli: Python
Tietojoukko/paketti: UCI ML Parkinsons -aineisto
Keskikokoiset datatieteen projektit
4. Puheen tunteiden tunnistus
Tutustu Data Science -esimerkkiprojektin täydelliseen toteutukseen − .

Opitaan nyt käyttämään erilaisia kirjastoja. Tämä Data Science -projekti käyttää librosaa puheentunnistukseen. SER on prosessi ihmisen tunteiden ja affektiivisten tilojen tunnistamiseksi puheesta. Koska käytämme sävyä ja sävelkorkeutta ilmaistaksemme tunteita äänellämme, SER on olennainen. Mutta koska tunteet ovat subjektiivisia, äänimerkintä on haastava tehtävä. Käytämme mfcc-, chroma- ja mel-funktioita ja käytämme RAVDESS-tietojoukkoa tunteiden tunnistamiseen. Luomme tälle mallille MLPC-luokituksen.
Kieli: Python
Tietojoukko/paketti: RAVDESS tietojoukko
5. Sukupuolen ja iän tunnistus
Tee työnantajiin vaikutuksen uusimmalla Data Science -projektilla - .

Tämä on mielenkiintoinen tietotiede Pythonilla. Vain yhtä kuvaa käyttämällä opit ennustamaan henkilön sukupuolen ja iän. Tässä esittelemme sinulle Computer Visionin ja sen periaatteet. Me rakennamme ja käyttää Tal Hassnerin ja Gil Levyn Adience-tietojoukossa kouluttamia malleja. Matkan varrella käytämme joitain .pb-, .pbtxt-, .prototxt- ja .caffemodel-tiedostoja.
Kieli: Python
Tietojoukko/paketti: Adience
6. Uber-dataanalyysi
Katso koko Data Science -projektin toteutus lähdekoodilla − .

Tämä on datan visualisointiprojekti ggplot2:lla, jossa käytämme R:tä ja sen kirjastoja sekä analysoimme erilaisia parametreja. Käytämme Uber Pickups New York City -tietojoukkoa ja luomme visualisointeja vuoden eri aikajaksoille. Tämä kertoo meille, kuinka aika vaikuttaa asiakkaiden matkustamiseen.
Kieli: R
Tietojoukko/paketti: Uber Pickups in New York City -tietojoukko
7. Kuljettajan uneliaisuuden tunnistus
Paranna taitojasi työskentelemällä Top Data Science -projektissa - .

Uninen ajaminen on erittäin vaarallista, ja joka vuosi tapahtuu lähes tuhat onnettomuutta, jotka johtuvat kuljettajien nukahtamisesta ajon aikana. Tässä Python-projektissa luomme järjestelmän, joka tunnistaa uneliaiset kuljettajat ja myös hälyttää niitä äänisignaalilla.
Tämä projekti toteutetaan Kerasin ja OpenCV:n avulla. Käytämme OpenCV:tä kasvojen ja silmien havaitsemiseen ja Kerasilla luokittelemme silmän tilan (Avoin tai Kiinni) syvähermoverkkotekniikoilla.
8. Chatbot
Luo chatbot Pythonilla ja ota askel eteenpäin urallasi - .

Chatbotit ovat olennainen osa liiketoimintaa. Monien yritysten on tarjottava palveluja asiakkailleen, ja heidän palveleminen vie paljon työvoimaa, aikaa ja vaivaa. Chatbotit voivat automatisoida suuren osan asiakasvuorovaikutuksestasi vastaamalla joihinkin asiakkaiden esittämiin yleisiin kysymyksiin. Chatbotteja on periaatteessa kahta tyyppiä: Domain-specific ja Open-domain. Verkkotunnuskohtaista chatbotia käytetään usein tietyn ongelman ratkaisemiseen. Joten sinun on mukautettava se toimimaan tehokkaasti alallasi. Avoimen verkkotunnuksen chatboteille voidaan esittää mitä tahansa kysymyksiä, joten niiden kouluttaminen vaatii valtavan määrän dataa.
Tietojoukko: Intents json-tiedosto
Kieli: Python
Advanced Data Science -projektit
9. Kuvatekstigeneraattori
Tarkista projektin täydellinen toteutus lähdekoodilla − .

Kuvan sisällön kuvaaminen on helppoa ihmisille, mutta tietokoneille kuva on yksinkertaisesti sarja numeroita, jotka edustavat kunkin pikselin väriarvoa. Tämä on vaikea tehtävä tietokoneille. Toinen vaikea tehtävä on ymmärtää, mitä kuvassa on, ja sitten luoda kuvaus luonnollisella kielellä (kuten englanniksi). Tämä projekti käyttää syväoppimistekniikoita, joissa toteutamme konvoluutiohermoverkon (CNN) ja toistuvan hermoverkon (LSTM) luodaksemme kuvan kuvausgeneraattorin.
Tietojoukko: Flickr 8K
Kieli: Python
Kehys: Keras
10. Luottokorttipetosten havaitseminen
Tee parhaasi työskennellessäsi Data Science -projektiideasi parissa − .

Tähän mennessä olet alkanut ymmärtää tekniikoita ja käsitteitä. Siirrytään eteenpäin joihinkin edistyneisiin datatieteen projekteihin. Tässä projektissa käytämme R-kieltä algoritmien, kuten esim , logistinen regressio, keinotekoiset neuroverkot ja gradienttia tehostava luokitin. Käytämme korttitapahtumien tietojoukkoa luokitellaksemme luottokorttitapahtumat vilpillisiksi tai aidoiksi. Valitsemme niille erilaisia malleja ja rakennamme suorituskykykäyriä.
Kieli: R
Tietojoukko/paketti: Korttitapahtumat -tietojoukko
11. Elokuvasuositusjärjestelmä
Tutki parhaan datatieteen projektin toteutusta lähdekoodilla -

Tässä Data Science -projektissa käytämme R:tä elokuvan suositusten toteuttamiseen koneoppimisen avulla. Suositusjärjestelmä lähettää ehdotuksia käyttäjille suodatusprosessin kautta, joka perustuu muiden käyttäjien mieltymyksiin ja selaushistoriaan. Jos A ja B pitävät Home Alonesta ja B Mean Girlsistä, voit ehdottaa A:ta – he saattavat myös pitää siitä. Tämä antaa asiakkaille mahdollisuuden olla vuorovaikutuksessa alustan kanssa.
Kieli: R
Tietojoukko/paketti: MovieLens-tietojoukko
12. Asiakassegmentointi
Tee vaikutus työnantajiin Data Science -projektilla (mukaan lukien lähdekoodi) - .

Ostajien segmentointi on suosittu sovellus . Klusteroinnin avulla yritykset tunnistavat asiakassegmenttejä kohdistaakseen potentiaalisen käyttäjäkunnan. He jakavat asiakkaat ryhmiin yhteisten ominaisuuksien, kuten sukupuolen, iän, kiinnostuksen kohteiden ja kulutustottumusten mukaan, jotta he voivat markkinoida tuotteitaan tehokkaasti jokaiselle ryhmälle. Me käytämme , sekä visualisoida jakauman sukupuolen ja iän mukaan. Sen jälkeen analysoimme heidän vuotuisia tuloja ja kuluja.
Kieli: R
Tietojoukko/paketti: Mall_Customers tietojoukko
13. Rintasyövän luokitus
Tutustu tietotiedeprojektin täydelliseen toteutukseen Pythonissa − .

Palatakseni datatieteen lääketieteelliseen panokseen, opitaan tunnistamaan rintasyöpä Pythonilla. Käytämme IDC_regular-tietosarjaa tunnistaaksemme invasiivisen duktaalisen karsinooman, yleisimmän rintasyövän muodon. Se kehittyy maitotiehyissä, tunkeutuen kuitu- tai rasvapitoiseen rintakudokseen kanavan ulkopuolella. Tässä tiedonkeruutieteen projektiideassa käytämme ja Keras-kirjasto luokittelua varten.
Kieli: Python
Tietojoukko/paketti: IDC_säännöllinen
14. Liikennemerkkien tunnistus
Tarkkuuden saavuttaminen itseohjautuvassa tekniikassa Data Science -projektin avulla avoin lähdekoodi.

Liikennemerkit ja liikennesäännöt ovat erittäin tärkeitä jokaiselle kuljettajalle onnettomuuksien välttämiseksi. Sääntöä noudattaaksesi sinun on ensin ymmärrettävä, miltä liikennemerkki näyttää. Ihmisen on opittava kaikki liikennemerkit ennen kuin hänelle myönnetään ajokortti. Mutta nyt autonomisten ajoneuvojen määrä kasvaa, ja lähitulevaisuudessa henkilö ei enää aja autoa itsenäisesti. Liikennemerkkien tunnistusprojektissa opit kuinka ohjelma tunnistaa liikennemerkkien tyypin ottamalla syötteeksi kuvan. German Traffic Sign Recognition Benchmark (GTSRB) -tietojoukon avulla rakennetaan syvä neuroverkko tunnistamaan luokka, johon liikennemerkki kuuluu. Luomme myös yksinkertaisen käyttöliittymän vuorovaikutukseen sovelluksen kanssa.
Kieli: Python
Tietojoukko: GTSRB (Saksan liikennemerkkien tunnistamisen vertailuarvo)
Lue lisää
Lähde: will.com
