14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Duomenų mokslas pradedantiesiems

1. Nuotaikų analizė (sentimentų analizė naudojant tekstą)

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Peržiūrėkite visą duomenų mokslo projekto įgyvendinimą naudodami šaltinio kodą − Sentimentų analizės projektas R.

Sentimentų analizė yra žodžių analizė, siekiant nustatyti jausmus ir nuomones, kurios gali būti teigiamos arba neigiamos. Tai yra klasifikacijos tipas, kuriame klasės gali būti dvejetainės (teigiama ir neigiama) arba daugiskaita (linksma, pikta, liūdna, bjauri...). Mes įgyvendinsime šį duomenų mokslo projektą R ir naudosime duomenų rinkinį „janeaustenR“ pakete. Naudosime bendrosios paskirties žodynus, tokius kaip AFINN, bing ir loughran, atliksime vidinį sujungimą, o pabaigoje sukursime žodžių debesį rezultatui rodyti.

Kalba: R
Duomenų rinkinys / paketas: janeaustenR

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Straipsnis buvo išverstas su EDISON Software pagalba, kuri gamina virtualias įtaisymo patalpas kelių prekių ženklų parduotuvėmsIr testuoja programinę įrangą.

2. Netikrų naujienų aptikimas

Pakelkite savo įgūdžius į kitą lygį dirbdami su duomenų mokslo projektu pradedantiesiems – aptikti netikras naujienas naudojant Python.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Netikros naujienos – tai melaginga informacija, skleidžiama socialiniuose tinkluose ir kitose internetinėse žiniasklaidos priemonėse, siekiant politinių tikslų. Šioje duomenų mokslo projekto idėjoje naudosime Python, kad sukurtume modelį, galintį tiksliai nustatyti, ar naujienų istorija yra tikra, ar netikra. Mes sukursime TfidfVectorizer ir naudosime PassiveAggressiveClassifier naujienas klasifikuoti į „tikras“ ir „netikras“. Naudosime 7796 × 4 formos duomenų rinkinį ir viską vykdysime Jupyter Lab.

Kalba: Pitonas

Duomenų rinkinys / paketas: naujienos.csv

3. Parkinsono ligos nustatymas

Vykdykite savo duomenų mokslo projekto idėją – aptikti Parkinsono ligą naudojant XGBoost.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Pradėjome naudoti „Data Science“ sveikatos priežiūrai ir paslaugoms gerinti – jei galime numatyti ligą ankstyvoje stadijoje, turėsime daug privalumų. Taigi, šioje duomenų mokslo projekto idėjoje išmoksime aptikti Parkinsono ligą naudojant Python. Tai neurodegeneracinė, progresuojanti centrinės nervų sistemos liga, pažeidžianti judesius ir sukelianti drebulį bei sustingimą. Tai paveikia dopaminą gaminančius neuronus smegenyse, ir kiekvienais metais ji paveikia daugiau nei 1 milijoną žmonių Indijoje.

Kalba: Pitonas

Duomenų rinkinys / paketas: UCI ML Parkinsono duomenų rinkinys

Vidutinio sudėtingumo duomenų mokslo projektai

4. Kalbos emocijų atpažinimas

Peržiūrėkite visą duomenų mokslo pavyzdžio projekto įgyvendinimą − kalbos atpažinimas naudojant Librosa.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Dabar išmokime naudotis įvairiomis bibliotekomis. Šiame duomenų mokslo projekte kalbai atpažinti naudojama librosa. SER yra žmogaus emocijų ir emocinių būsenų atpažinimo iš kalbos procesas. Kadangi emocijoms išreikšti balsu naudojame toną ir aukštį, SER yra aktualus. Tačiau kadangi emocijos yra subjektyvios, garso anotacija yra sudėtinga užduotis. Naudosime mfcc, chroma ir mel funkcijas ir naudosime RAVDESS duomenų rinkinį emocijoms atpažinti. Šiam modeliui sukursime MLPC klasifikatorių.

Kalba: Pitonas

Duomenų rinkinys / paketas: RAVDESS duomenų rinkinys

5. Lyties ir amžiaus nustatymas

Sužavėkite darbdavius ​​naujausiu duomenų mokslo projektu – lyties ir amžiaus nustatymas naudojant OpenCV.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Tai įdomus duomenų mokslas su Python. Naudodami tik vieną vaizdą, išmoksite nuspėti žmogaus lytį ir amžių. Čia supažindinsime su kompiuterine vizija ir jos principais. Mes statysime konvoliucinis neuroninis tinklas ir naudos modelius, kuriuos apmokė Tal Hassner ir Gil Levy apie Adience duomenų rinkinį. Pakeliui naudosime kai kuriuos .pb, .pbtxt, .prototxt ir .caffemodel failus.

Kalba: Pitonas

Duomenų rinkinys / paketas: Adience

6. Uber duomenų analizė

Peržiūrėkite visą duomenų mokslo projekto įgyvendinimą su šaltinio kodu − „Uber“ duomenų analizės projektas R.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Tai duomenų vizualizacijos projektas su ggplot2, kuriame naudosime R ir jo bibliotekas bei analizuosime įvairius parametrus. Naudosime Uber Pickups New York City duomenų rinkinį ir kursime vizualizacijas įvairiems metų laikotarpiams. Tai parodo, kaip laikas veikia klientų keliones.

Kalba: R

Duomenų rinkinys / paketas: „Uber Pickups“ Niujorke duomenų rinkinys

7. Vairuotojo mieguistumo aptikimas

Tobulinkite savo įgūdžius dirbdami su geriausiu duomenų mokslo projektu – mieguistumo aptikimo sistema su OpenCV ir Keras.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Mieguistas vairavimas yra itin pavojingas, kasmet įvyksta beveik tūkstantis nelaimingų atsitikimų dėl vairuotojų užmigimo vairuojant. Šiame Python projekte sukursime sistemą, kuri gali aptikti snaudžiančius vairuotojus ir įspėti juos garso signalu.

Šis projektas įgyvendinamas naudojant Keras ir OpenCV. Naudosime OpenCV veido ir akių aptikimui, o su Keras klasifikuosime akių būseną (Atvira arba Uždaryta), naudodami giluminio neuroninio tinklo metodus.

8. „Chatbot“

Sukurkite pokalbių robotą naudodami Python ir ženkite žingsnį į priekį savo karjeroje - Pokalbių robotas su NLTK ir Keras.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Pokalbių robotai yra neatsiejama verslo dalis. Daugelis įmonių turi siūlyti paslaugas savo klientams, todėl jiems aptarnauti reikia daug darbo jėgos, laiko ir pastangų. Pokalbių robotai gali automatizuoti didžiąją dalį jūsų sąveikos su klientais atsakydami į kai kuriuos dažniausiai klientų užduodamus klausimus. Iš esmės yra dviejų tipų pokalbių robotai: specifinis domenas ir atvirasis domenas. Konkrečiam domenui skirtas pokalbių robotas dažnai naudojamas konkrečiai problemai išspręsti. Taigi, jūs turite jį pritaikyti, kad galėtumėte efektyviai dirbti savo srityje. Atviro domeno pokalbių robotams galima užduoti bet kokius klausimus, todėl jų mokymas reikalauja didžiulio duomenų kiekio.

Duomenų rinkinys: Intents json failą

Kalba: Pitonas

Pažangūs duomenų mokslo projektai

9. Vaizdo antraštės generatorius

Patikrinkite visą projekto įgyvendinimą su šaltinio kodu − Vaizdo antraštės generatorius su CNN ir LSTM.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Apibūdinti, kas yra vaizde, žmonėms yra lengva užduotis, tačiau kompiuteriams vaizdas yra tiesiog skaičių serija, nurodanti kiekvieno pikselio spalvos reikšmę. Tai sudėtinga užduotis kompiuteriams. Kita sudėtinga užduotis yra suprasti, kas yra paveikslėlyje, ir sukurti aprašymą natūralia kalba (pvz., anglų kalba). Šiame projekte naudojami giluminio mokymosi metodai, kuriuose įdiegiame konvoliucinį neuronų tinklą (CNN) su pasikartojančiu neuroniniu tinklu (LSTM), kad sukurtume vaizdo aprašymo generatorių.

Duomenų rinkinys: Flickr 8K

Kalba: Pitonas

Sistema: Keras

10. Sukčiavimo kredito kortelėmis aptikimas

Dirbdami su savo duomenų mokslo projekto idėją darykite viską, ką galite aptikti sukčiavimą kredito kortelėmis naudojant mašininį mokymąsi.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Iki šiol jūs pradėjote suprasti metodus ir sąvokas. Pereikime prie kai kurių pažangių duomenų mokslo projektų. Šiame projekte naudosime R kalbą su tokiais algoritmais kaip sprendimų medžiai, logistinė regresija, dirbtiniai neuroniniai tinklai ir gradiento didinimo klasifikatorius. Naudosime kortelių operacijų duomenų rinkinį, kad kreditinės kortelės operacijas klasifikuotume kaip nesąžiningas ar tikras. Jiems parinksime skirtingus modelius ir sukursime veikimo kreives.

Kalba: R

Duomenų rinkinys / paketas: Kortelių operacijų duomenų rinkinys

11. Filmų rekomendacijų sistema

Išstudijuokite geriausio duomenų mokslo projekto įgyvendinimą naudodami šaltinio kodą - Filmų rekomendacijų sistema R kalba

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Šiame duomenų mokslo projekte naudosime R, kad įgyvendintume filmo rekomendacijas per mašininį mokymąsi. Rekomendacijų sistema siunčia pasiūlymus vartotojams per filtravimo procesą, pagrįstą kitų vartotojų pageidavimais ir naršymo istorija. Jei A ir B patinka „Home Alone“, o B – „Mean Girls“, galite pasiūlyti A – gali patikti ir jiems. Tai leidžia klientams bendrauti su platforma.

Kalba: R

Duomenų rinkinys / paketas: MovieLens duomenų rinkinys

12. Klientų segmentavimas

Sužavėkite darbdavius ​​duomenų mokslo projektu (įskaitant šaltinio kodą) – Klientų segmentavimas naudojant mašininį mokymąsi.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Pirkėjų segmentavimas yra populiari programa mokymasis be priežiūros. Naudodamos klasterizavimą, įmonės nustato klientų segmentus, kad nukreiptų į potencialų vartotojų bazę. Jie suskirsto klientus į grupes pagal bendras ypatybes, tokias kaip lytis, amžius, pomėgiai ir išlaidų įpročiai, kad jie galėtų veiksmingai parduoti savo produktus kiekvienai grupei. Mes naudosime K reiškia grupavimą, taip pat vizualizuoti pasiskirstymą pagal lytį ir amžių. Tada išanalizuosime jų metinių pajamų ir išlaidų lygius.

Kalba: R

Duomenų rinkinys / paketas: „Mall_Customers“ duomenų rinkinys

13. Krūties vėžio klasifikacija

Peržiūrėkite visą duomenų mokslo projekto įgyvendinimą Python – Krūties vėžio klasifikacija naudojant gilųjį mokymąsi.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Grįždami prie medicininio duomenų mokslo indėlio, išmokime aptikti krūties vėžį naudojant Python. Naudosime IDC_regular duomenų rinkinį, norėdami nustatyti invazinę latakų karcinomą, labiausiai paplitusią krūties vėžio formą. Jis vystosi pieno latakuose, įsiskverbia į pluoštinį arba riebalinį krūties audinį už latako ribų. Šioje duomenų rinkimo mokslo projekto idėjoje naudosime Gilus mokymasis ir Kero biblioteką klasifikacijai.

Kalba: Pitonas

Duomenų rinkinys / paketas: IDC_reguliarus

14. Kelio ženklų atpažinimas

Pasiekti tikslumo savarankiško vairavimo technologijose su Data Science projektu kelio ženklų atpažinimas naudojant CNN atviro kodo.

14 atvirojo kodo projektų, skirtų tobulinti duomenų mokslo įgūdžius (lengvas, įprastas, sunkus)

Kelio ženklai ir eismo taisyklės yra labai svarbūs kiekvienam vairuotojui siekiant išvengti nelaimingų atsitikimų. Norėdami laikytis taisyklės, pirmiausia turite suprasti, kaip atrodo kelio ženklas. Asmuo turi išmokti visus kelio ženklus prieš suteikiant teisę vairuoti bet kurią transporto priemonę. Tačiau dabar autonominių transporto priemonių daugėja, o artimiausiu metu žmogus savarankiškai automobilio nebevairuos. Kelio ženklų atpažinimo projekte sužinosite, kaip programa gali atpažinti kelio ženklų tipą, paimdama vaizdą kaip įvestį. Vokietijos eismo ženklų atpažinimo etalonas (GTSRB) duomenų rinkinys naudojamas giliajam neuroniniam tinklui sukurti, kad atpažintų klasę, kuriai priklauso kelio ženklas. Taip pat sukuriame paprastą GUI, kad galėtume sąveikauti su programa.

Kalba: Pitonas

Duomenų rinkinys: GTSRB (vokiečių eismo ženklų atpažinimo etalonas)

Skaityti daugiau

Šaltinis: www.habr.com

Добавить комментарий