14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Datu zinātne iesācējiem

1. Sentimenta analīze (sentimenta analīze, izmantojot tekstu)

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

IepazÄ«stieties ar visu Data Science projekta ievieÅ”anu, izmantojot pirmkodu āˆ’ Sentimenta analÄ«zes projekts R.

Sentimenta analÄ«ze ir vārdu analÄ«ze, lai noteiktu noskaņojumu un viedokļus, kas var bÅ«t pozitÄ«vi vai negatÄ«vi. Å is ir klasifikācijas veids, kurā klases var bÅ«t bināras (pozitÄ«vas un negatÄ«vas) vai daudzskaitlÄ« (laimÄ«gas, dusmÄ«gas, skumjas, nejaukas...). Mēs Ä«stenosim Å”o datu zinātnes projektu R un izmantosim datu kopu pakotnē "janeaustenR". Mēs izmantosim vispārējas nozÄ«mes vārdnÄ«cas, piemēram, AFINN, bing un loughran, veiksim iekŔējo savienoÅ”anu, un beigās izveidosim vārdu mākoni, lai parādÄ«tu rezultātu.

Valoda: R
Datu kopa/pakete: janeaustenR

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Raksts tika tulkots ar EDISON Software atbalstu, kas veido virtuālās pielaikoŔanas telpas vairāku zīmolu veikaliemun pārbauda programmatūru.

2. Viltus ziņu noteikÅ”ana

Paceliet savas prasmes uz nākamo lÄ«meni, strādājot pie datu zinātnes projekta iesācējiem - viltus ziņu noteikÅ”ana ar Python.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Viltus ziņas ir nepatiesa informācija, kas tiek izplatÄ«ta sociālajos medijos un citos tieÅ”saistes medijos, lai sasniegtu politiskos mērÄ·us. Å ajā Data Science projekta idejā mēs izmantosim Python, lai izveidotu modeli, kas var precÄ«zi noteikt, vai ziņu stāsts ir Ä«sts vai viltots. Mēs izveidosim TfidfVectorizer un izmantosim PassiveAggressiveClassifier, lai klasificētu ziņas ā€œÄ«stāsā€ un ā€œviltusā€. Mēs izmantosim 7796 Ɨ 4 formas datu kopu un visu izpildÄ«sim programmā Jupyter Lab.

Valoda: Pitons

Datu kopa/pakete: ziņas.csv

3. Parkinsona slimības noteikŔana

Virzieties uz priekÅ”u ar savu datu zinātnes projekta ideju ā€” Parkinsona slimÄ«bas noteikÅ”ana, izmantojot XGBoost.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Mēs esam sākuÅ”i izmantot Data Science, lai uzlabotu veselÄ«bas aprÅ«pi un pakalpojumus ā€” ja mēs varam paredzēt slimÄ«bu agrÄ«nā stadijā, tad mums bÅ«s daudz priekÅ”rocÄ«bu. Tātad Å”ajā Data Science projekta idejā mēs uzzināsim, kā atklāt Parkinsona slimÄ«bu, izmantojot Python. Tā ir neirodeÄ£eneratÄ«va, progresējoÅ”a centrālās nervu sistēmas slimÄ«ba, kas ietekmē kustÄ«bas un izraisa trÄ«ci un stÄ«vumu. Tas ietekmē dopamÄ«nu ražojoÅ”os neironus smadzenēs, un katru gadu tas skar vairāk nekā 1 miljonu cilvēku Indijā.

Valoda: Pitons

Datu kopa/pakete: UCI ML Parkinsona datu kopa

Vidējas sarežģītības datu zinātnes projekti

4. Runas emociju atpazīŔana

Apskatiet datu zinātnes piemēru projekta pilnÄ«gu ievieÅ”anu runas atpazÄ«Å”ana, izmantojot Librosa.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Tagad iemācÄ«simies izmantot dažādas bibliotēkas. Å ajā datu zinātnes projektā runas atpazÄ«Å”anai tiek izmantota librosa. SER ir cilvēka emociju un afektÄ«vo stāvokļu identificÄ“Å”anas process no runas. Tā kā mēs izmantojam toni un toni, lai izteiktu emocijas ar savām balsÄ«m, SER ir bÅ«tisks. Taču, tā kā emocijas ir subjektÄ«vas, audio anotācija ir sarežģīts uzdevums. Mēs izmantosim mfcc, chroma un mel funkcijas un izmantosim RAVDESS datu kopu emociju atpazÄ«Å”anai. Å im modelim izveidosim MLPC klasifikatoru.

Valoda: Pitons

Datu kopa/pakete: RAVDESS datu kopa

5. Dzimuma un vecuma noteikŔana

Pārsteidziet darba devējus ar jaunāko datu zinātnes projektu - dzimuma un vecuma noteikÅ”ana, izmantojot OpenCV.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Šī ir interesanta datu zinātne ar Python. Izmantojot tikai vienu attēlu, jūs iemācīsities paredzēt personas dzimumu un vecumu. Šajā mēs jūs iepazīstināsim ar Computer Vision un tās principiem. Mēs būvēsim konvolucionālais neironu tīkls un izmantos modeļus, kurus Tal Hassner un Gil Levy apmācīja Adience datu kopā. Pa ceļam mēs izmantosim dažus .pb, .pbtxt, .prototxt un .caffemodel failus.

Valoda: Pitons

Datu kopa/pakete: Adience

6. Uber datu analÄ«ze

Apskatiet visu Data Science projekta ievieÅ”anu ar pirmkodu āˆ’ Uber datu analÄ«zes projekts R.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Å is ir datu vizualizācijas projekts ar ggplot2, kurā izmantosim R un tā bibliotēkas un analizēsim dažādus parametrus. Mēs izmantosim Uber Pickups New York City datu kopu un veidosim vizualizācijas dažādiem gada laika periodiem. Tas mums parāda, kā laiks ietekmē klientu ceļoÅ”anu.

Valoda: R

Datu kopa/pakete: Uber Pickups in New York City datu kopa

7. Vadītāja miegainības noteikŔana

Uzlabojiet savas prasmes, strādājot pie Top Data Science Project - miegainÄ«bas noteikÅ”anas sistēma ar OpenCV un Keras.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Miegains braukÅ”ana ir ārkārtÄ«gi bÄ«stama, un katru gadu notiek gandrÄ«z tÅ«kstotis negadÄ«jumu, jo autovadÄ«tāji aizmiguÅ”i braukÅ”anas laikā. Å ajā Python projektā mēs izveidosim sistēmu, kas spēj noteikt miegainos draiverus un arÄ« brÄ«dināt tos ar audio signālu.

Å is projekts tiek realizēts izmantojot Keras un OpenCV. Mēs izmantosim OpenCV sejas un acu noteikÅ”anai, un ar Keras mēs klasificēsim acu stāvokli (Atvērts vai Aizvērts), izmantojot dziļā neironu tÄ«kla metodes.

8. Čatbots

Izveidojiet tērzÄ“Å”anas robotu ar Python un speriet soli uz priekÅ”u savā karjerā - TērzÄ“Å”anas robots ar NLTK un Keras.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

TērzÄ“Å”anas roboti ir neatņemama biznesa sastāvdaļa. Daudziem uzņēmumiem ir jāpiedāvā pakalpojumi saviem klientiem, un to apkalpoÅ”ana prasa daudz darbaspēka, laika un pūļu. TērzÄ“Å”anas roboti var automatizēt lielu daļu jÅ«su mijiedarbÄ«bas ar klientiem, atbildot uz dažiem bieži uzdotiem jautājumiem. BÅ«tÄ«bā ir divu veidu tērzÄ“Å”anas roboti: domēna specifiskie un atvērtie domēni. Konkrētas problēmas risināŔanai bieži tiek izmantots domēna specifisks tērzÄ“Å”anas robots. Tātad, jums tas ir jāpielāgo, lai efektÄ«vi strādātu savā jomā. Atvērtā domēna tērzÄ“Å”anas robotiem var uzdot jebkādus jautājumus, tāpēc to apmācÄ«bai ir nepiecieÅ”ams milzÄ«gs datu apjoms.

Datu kopa: Intents json fails

Valoda: Pitons

Uzlaboti datu zinātnes projekti

9. Attēlu parakstu ģenerators

Pārbaudiet projekta pilnÄ«gu ievieÅ”anu ar pirmkodu āˆ’ Attēlu parakstu Ä£enerators ar CNN un LSTM.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Attēlā redzamā aprakstÄ«Å”ana ir viegls uzdevums cilvēkiem, bet datoriem attēls ir vienkārÅ”i skaitļu sērija, kas atspoguļo katra pikseļa krāsu vērtÄ«bu. Datoriem tas ir grÅ«ts uzdevums. Vēl viens grÅ«ts uzdevums ir saprast, kas ir attēlā, un pēc tam izveidot aprakstu dabiskā valodā (piemēram, angļu valodā). Å ajā projektā tiek izmantotas dziļas mācÄ«Å”anās metodes, kurās mēs ievieÅ”am konvolucionālo neironu tÄ«klu (CNN) ar atkārtotu neironu tÄ«klu (LSTM), lai izveidotu attēla apraksta Ä£eneratoru.

Datu kopa: Flickr 8K

Valoda: Pitons

Ietvars: Keras

10. KrāpŔanas ar kredītkarti noteikŔana

Dariet visu iespējamo, strādājot pie savas datu zinātnes projekta idejas atklāt kredÄ«tkarÅ”u krāpÅ”anu, izmantojot maŔīnmācÄ«Å”anos.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Tagad jÅ«s esat sācis izprast metodes un jēdzienus. Pāriesim pie dažiem progresÄ«viem datu zinātnes projektiem. Å ajā projektā mēs izmantosim R valodu ar tādiem algoritmiem kā lēmumu koki, loÄ£istikas regresija, mākslÄ«gie neironu tÄ«kli un gradientu paaugstināŔanas klasifikators. Mēs izmantosim karÅ”u darÄ«jumu datu kopu, lai klasificētu kredÄ«tkarÅ”u darÄ«jumus kā krāpnieciskus vai Ä«stus. Mēs tiem atlasÄ«sim dažādus modeļus un izveidosim veiktspējas lÄ«knes.

Valoda: R

Datu kopa/pakete: Kartes darījumu datu kopa

11. Filmu ieteikumu sistēma

Izpētiet labākā datu zinātnes projekta ievieÅ”anu ar avota kodu - Filmu ieteikumu sistēma R valodā

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Å ajā datu zinātnes projektā mēs izmantosim R, lai Ä«stenotu filmas ieteikumus, izmantojot maŔīnmācÄ«Å”anos. Ieteikumu sistēma lietotājiem nosÅ«ta ieteikumus, izmantojot filtrÄ“Å”anas procesu, pamatojoties uz citu lietotāju preferencēm un pārlÅ«koÅ”anas vēsturi. Ja A un B patÄ«k Home Alone, bet B patÄ«k Mean Girls, tad varat ieteikt A ā€” arÄ« viņiem tas varētu patikt. Tas ļauj klientiem mijiedarboties ar platformu.

Valoda: R

Datu kopa/pakete: MovieLens datu kopa

12. Klientu segmentēŔana

Pārsteidziet darba devējus ar datu zinātnes projektu (tostarp pirmkodu) - Klientu segmentÄ“Å”ana, izmantojot maŔīnmācÄ«Å”anos.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Pircēju segmentÄ“Å”ana ir populāra lietojumprogramma mācÄ«Å”anās bez uzraudzÄ«bas. Izmantojot klasterizāciju, uzņēmumi identificē klientu segmentus, lai mērķētu uz potenciālo lietotāju bāzi. Viņi iedala klientus grupās pēc kopÄ«gām pazÄ«mēm, piemēram, dzimuma, vecuma, interesēm un tērÄ“Å”anas paradumiem, lai viņi varētu efektÄ«vi tirgot savus produktus katrai grupai. Mēs izmantosim K nozÄ«mē klasterizāciju, kā arÄ« vizualizēt sadalÄ«jumu pēc dzimuma un vecuma. Pēc tam mēs analizēsim viņu gada ienākumu un izdevumu lÄ«meni.

Valoda: R

Datu kopa/pakete: Mall_Customers datu kopa

13. Krūts vēža klasifikācija

IepazÄ«stieties ar datu zinātnes projekta pilnÄ«gu ievieÅ”anu programmā Python āˆ’ KrÅ«ts vēža klasifikācija, izmantojot dziļu mācÄ«Å”anos.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Atgriežoties pie datu zinātnes medicÄ«niskā ieguldÄ«juma, uzzināsim, kā noteikt krÅ«ts vēzi, izmantojot Python. Mēs izmantosim IDC_regular datu kopu, lai identificētu invazÄ«vu ductal karcinomu, kas ir visizplatÄ«tākā krÅ«ts vēža forma. Tas attÄ«stās piena kanālos, urbjoties Ŕķiedru vai taukainajos krÅ«Å”u audos ārpus kanāla. Å ajā datu vākÅ”anas zinātnes projekta idejā mēs izmantosim Dziļa mācÄ«Å”anās un Keras bibliotēku klasifikācijai.

Valoda: Pitons

Datu kopa/pakete: IDC_regulārs

14. Ceļa zīmju atpazīŔana

Precizitātes sasniegÅ”ana paÅ”braukÅ”anas tehnoloÄ£ijā ar Data Science projektu ceļa zÄ«mju atpazÄ«Å”ana, izmantojot CNN atvērtais avots.

14 atvērtā koda projekti, lai uzlabotu jūsu datu zinātnes prasmes (viegli, normāli, grūti)

Ceļa zÄ«mes un satiksmes noteikumi ir ļoti svarÄ«gi ikvienam autovadÄ«tājam, lai izvairÄ«tos no negadÄ«jumiem. Lai ievērotu noteikumu, vispirms ir jāsaprot, kā izskatās ceļa zÄ«me. Personai ir jāapgÅ«st visas ceļa zÄ«mes, pirms viņam tiek pieŔķirta jebkura transportlÄ«dzekļa vadÄ«Å”anas tiesÄ«bas. Taču Å”obrÄ«d pieaug autonomo transportlÄ«dzekļu skaits, un tuvākajā nākotnē cilvēks vairs nebrauks ar auto patstāvÄ«gi. Ceļa zÄ«mju atpazÄ«Å”anas projektā jÅ«s uzzināsiet, kā programma var atpazÄ«t ceļa zÄ«mju veidus, uzņemot attēlu kā ievadi. Vācijas satiksmes zÄ«mju atpazÄ«Å”anas etalona (GTSRB) datu kopa tiek izmantota, lai izveidotu dziļu neironu tÄ«klu, lai atpazÄ«tu klasi, kurai ceļa zÄ«me pieder. Mēs arÄ« izveidojam vienkārÅ”u GUI, lai mijiedarbotos ar lietojumprogrammu.

Valoda: Pitons

Datu kopa: GTSRB (Vācijas ceļa zīmju atpazīŔanas etalons)

Lasīt vairāk

Avots: www.habr.com

Pievieno komentāru