14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Տվյալների գիտություն սկսնակների համար

1. Զգացմունքների վերլուծություն (Տրամադրության վերլուծություն տեքստի միջոցով)

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Դիտեք Data Science նախագծի ամբողջական իրականացումը, օգտագործելով սկզբնական կոդը − Զգացմունքների վերլուծության նախագիծ Ռ.

Զգացմունքների վերլուծությունը բառերի վերլուծություն է՝ տրամադրություններ և կարծիքներ բացահայտելու համար, որոնք կարող են լինել դրական կամ բացասական: Սա դասակարգման մի տեսակ է, որտեղ դասերը կարող են լինել երկուական (դրական և բացասական) կամ հոգնակի (ուրախ, զայրացած, տխուր, տհաճ...): Մենք կիրականացնենք տվյալների գիտության այս նախագիծը R-ում և կօգտագործենք տվյալների բազան «janeaustenR» փաթեթում: Մենք կօգտագործենք ընդհանուր նշանակության բառարաններ, ինչպիսիք են AFINN-ը, bing-ը և loughran-ը, կկատարենք ներքին միացում և վերջում կստեղծենք բառային ամպ՝ արդյունքը ցուցադրելու համար:

Լեզուն, R
Տվյալների հավաքածու/Փաթեթ: ժանեուստենՌ

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Հոդվածը թարգմանվել է EDISON Software-ի աջակցությամբ, որը պատրաստում է վիրտուալ կցամասեր բազմաբրենդային խանութների համարԻսկ թեստերի ծրագրային ապահովում.

2. Կեղծ լուրերի հայտնաբերում

Բարձրացրեք ձեր հմտությունները հաջորդ մակարդակում՝ աշխատելով Data Science Project for Beginners-ի վրա կեղծ լուրերի հայտնաբերում Python-ի միջոցով.

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Կեղծ լուրերը կեղծ տեղեկատվություն են, որոնք տարածվում են սոցիալական և այլ առցանց լրատվամիջոցների միջոցով՝ քաղաքական նպատակներին հասնելու համար: Տվյալների գիտության այս նախագծի գաղափարում մենք կօգտագործենք Python-ը մոդել կառուցելու համար, որը կարող է ճշգրիտ որոշել՝ արդյոք լուրերը իրական են, թե կեղծ: Մենք կստեղծենք TfidfVetorizer և կօգտագործենք PassiveAggressiveClassifier-ը, որպեսզի դասակարգենք լուրերը «իրական» և «կեղծ»: Մենք կօգտագործենք 7796×4 ձևի տվյալների բազա և կանենք ամեն ինչ Jupyter Lab-ում:

Լեզուն, Python

Տվյալների հավաքածու/Փաթեթ: news.csv

3. Պարկինսոնի հիվանդության հայտնաբերում

Շարժվեք առաջ՝ աշխատելով Data Science Project Idea-ի վրա Պարկինսոնի հիվանդության հայտնաբերում XGBoost-ով.

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Մենք սկսել ենք օգտագործել Data Science-ը առողջապահությունը և ծառայությունները բարելավելու համար. եթե մենք կարողանանք կանխատեսել հիվանդությունը վաղ փուլում, ապա կունենանք շատ առավելություններ: Այսպիսով, Data Science նախագծի այս գաղափարում մենք կսովորենք, թե ինչպես հայտնաբերել Պարկինսոնի հիվանդությունը Python-ի միջոցով: Դա կենտրոնական նյարդային համակարգի նեյրոդեգեներատիվ, առաջադեմ հիվանդություն է, որն ազդում է շարժման վրա և առաջացնում դող և կոշտություն: Այն ազդում է ուղեղի դոֆամին արտադրող նեյրոնների վրա, և ամեն տարի այն ազդում է Հնդկաստանում ավելի քան 1 միլիոն մարդու վրա:

Լեզուն, Python

Տվյալների հավաքածու/Փաթեթ: UCI ML Parkinsons տվյալների բազա

Միջին բարդության Data Science նախագծեր

4. Խոսքի զգացմունքների ճանաչում

Ստուգեք Data Science նմուշի նախագծի ամբողջական իրականացումը − խոսքի ճանաչում Librosa-ի հետ.

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Եկեք հիմա սովորենք, թե ինչպես օգտագործել տարբեր գրադարաններ: Տվյալների գիտության այս նախագիծն օգտագործում է librosa խոսքի ճանաչման համար: SER-ը խոսքից մարդկային հույզերի և աֆեկտիվ վիճակների բացահայտման գործընթաց է: Քանի որ մենք օգտագործում ենք տոնայնություն և բարձրախոսություն՝ մեր ձայնով զգացմունքներ արտահայտելու համար, SER-ը տեղին է: Բայց քանի որ զգացմունքները սուբյեկտիվ են, աուդիո անոտացիան դժվար գործ է: Մենք կօգտագործենք mfcc, chroma և mel ֆունկցիաները և կօգտագործենք RAVDESS տվյալների բազան զգացմունքների ճանաչման համար: Այս մոդելի համար մենք կստեղծենք MLPC դասակարգիչ:

Լեզուն, Python

Տվյալների հավաքածու/Փաթեթ: RAVDESS տվյալների բազա

5. Սեռի և տարիքի հայտնաբերում

Տպավորեք գործատուներին տվյալների գիտության վերջին նախագծով. սեռի և տարիքի հայտնաբերում OpenCV-ով.

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Սա հետաքրքիր տվյալների գիտություն է Python-ի հետ: Օգտագործելով միայն մեկ պատկեր՝ դուք կսովորեք, թե ինչպես կանխատեսել մարդու սեռը և տարիքը։ Այստեղ մենք ձեզ կծանոթացնենք Computer Vision-ին և դրա սկզբունքներին: Մենք կկառուցենք կոնվոլյուցիոն նեյրոնային ցանց և կօգտագործի մոդելներ, որոնք վերապատրաստվել են Թալ Հասների և Գիլ Լևիի կողմից Adience տվյալների բազայի վրա: Ճանապարհին մենք կօգտագործենք որոշ .pb, .pbtxt, .prototxt և .caffemodel ֆայլեր:

Լեզուն, Python

Տվյալների հավաքածու/Փաթեթ: Հանդիսություն

6. Uber տվյալների վերլուծություն

Դիտեք Data Science նախագծի ամբողջական իրականացումը սկզբնական կոդով − Uber տվյալների վերլուծության նախագիծը Ռ.

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Սա տվյալների վիզուալիզացիայի նախագիծ է ggplot2-ով, որտեղ մենք կօգտագործենք R-ն ու նրա գրադարանները և կվերլուծենք տարբեր պարամետրեր: Մենք կօգտագործենք Uber Pickups New York տվյալների բազան և կստեղծենք վիզուալիզացիաներ տարվա տարբեր ժամանակաշրջանների համար: Սա մեզ ասում է, թե ինչպես է ժամանակը ազդում հաճախորդների ճամփորդությունների վրա:

Լեզուն, R

Տվյալների հավաքածու/Փաթեթ: Uber Pickups Նյու Յորքի տվյալների բազայում

7. Վարորդի քնկոտության հայտնաբերում

Բարելավեք ձեր հմտությունները՝ աշխատելով Top Data Science Project-ի վրա. քնկոտության հայտնաբերման համակարգ OpenCV & Keras-ով.

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Քնկոտ վարելը չափազանց վտանգավոր է, ամեն տարի մոտ հազար վթար է տեղի ունենում, քանի որ վարորդները քնել են վարելիս: Python-ի այս նախագծում մենք կկառուցենք համակարգ, որը կարող է հայտնաբերել քնկոտ վարորդներին և նաև ազդանշան տալ նրանց ձայնային ազդանշանի միջոցով:

Այս նախագիծն իրականացվում է Keras-ի և OpenCV-ի միջոցով: Մենք կօգտագործենք OpenCV-ն դեմքը և աչքերը հայտնաբերելու համար և Keras-ի օգնությամբ կդասակարգենք աչքի վիճակը (բաց կամ փակ)՝ օգտագործելով խորը նյարդային ցանցի մեթոդները։

8. Չաթբոտ

Կառուցեք չաթ-բոտ Python-ի հետ և մի քայլ առաջ կատարեք ձեր կարիերայում. Chatbot NLTK-ի և Keras-ի հետ.

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Chatbots-ը բիզնեսի անբաժանելի մասն է: Շատ ձեռնարկություններ պետք է ծառայություններ առաջարկեն իրենց հաճախորդներին, և նրանց սպասարկելու համար պահանջվում է մեծ աշխատուժ, ժամանակ և ջանք: Chatbots-ը կարող է ավտոմատացնել հաճախորդների հետ փոխգործակցության մեծ մասը՝ պատասխանելով հաճախորդների կողմից տրվող որոշ ընդհանուր հարցերին: Հիմնականում գոյություն ունեն չաթ-բոտերի երկու տեսակ՝ հատուկ տիրույթի և բաց տիրույթի: Դոմենի հատուկ չաթբոտը հաճախ օգտագործվում է կոնկրետ խնդիր լուծելու համար։ Այսպիսով, դուք պետք է հարմարեցնեք այն ձեր ոլորտում արդյունավետ աշխատելու համար: Բաց տիրույթի չաթ-բոտերին կարող են տրվել ցանկացած հարց, ուստի նրանց վերապատրաստումը պահանջում է հսկայական քանակությամբ տվյալներ:

Տվյալների հավաքածու. Intents json ֆայլ

Լեզուն, Python

Ընդլայնված տվյալների գիտության նախագծեր

9. Պատկերի վերնագրերի գեներատոր

Ստուգեք ծրագրի ամբողջական իրականացումը սկզբնական կոդով − Պատկերի վերնագրերի գեներատոր CNN և LSTM-ով.

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Պատկերում եղածը նկարագրելը հեշտ խնդիր է մարդկանց համար, սակայն համակարգիչների համար պատկերն ընդամենը թվերի հավաքածու է, որոնք ներկայացնում են յուրաքանչյուր պիքսելի գույնի արժեքը: Սա բարդ խնդիր է համակարգիչների համար: Պատկերում պատկերվածը հասկանալը և այնուհետև բնական լեզվի նկարագրություն (օրինակ՝ անգլերեն) ստեղծելը ևս մեկ բարդ խնդիր է: Այս նախագիծը օգտագործում է խորը ուսուցման մեթոդներ, որոնցում մենք իրականացնում ենք Convolutional Neural Network (CNN)՝ կրկնվող նեյրոնային ցանցով (LSTM)՝ պատկերների նկարագրության գեներատոր ստեղծելու համար:

Տվյալների հավաքածու. Flickr 8K

Լեզուն, Python

Շրջանակ: Կերաս

10. Վարկային քարտի խարդախության հայտնաբերում

Արեք ձեր լավագույնը՝ աշխատելով Data Science նախագծի գաղափարի վրա վարկային քարտի խարդախության հայտնաբերում մեքենայական ուսուցման միջոցով.

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Մինչ այժմ դուք սկսել եք հասկանալ մեթոդներն ու հասկացությունները: Եկեք անցնենք տվյալների գիտության մի քանի առաջադեմ նախագծերին: Այս նախագծում մենք կօգտագործենք R լեզուն այնպիսի ալգորիթմներով, ինչպիսիք են որոշման ծառեր, լոգիստիկ ռեգրեսիա, արհեստական ​​նեյրոնային ցանցեր և գրադիենտ խթանող դասակարգիչ։ Մենք կօգտագործենք քարտային գործարքների հավաքածուն՝ վարկային քարտով գործարքները դասակարգելու համար որպես կեղծ և իրական: Մենք նրանց համար կընտրենք տարբեր մոդելներ և կկառուցենք կատարողականության կորեր:

Լեզուն, R

Տվյալների հավաքածու/Փաթեթ: Քարտային գործարքների տվյալների շտեմարան

11. Ֆիլմերի առաջարկությունների համակարգ

Ուսումնասիրեք տվյալների գիտության լավագույն նախագծի իրականացումը Աղբյուրի կոդով - Ֆիլմերի առաջարկությունների համակարգ Ռ

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Տվյալների գիտության այս նախագծում մենք կօգտագործենք R-ը՝ մեքենայական ուսուցման միջոցով ֆիլմի առաջարկությունները կատարելու համար: Առաջարկությունների համակարգը օգտատերերին առաջարկներ է ուղարկում զտման գործընթացի միջոցով՝ հիմնված այլ օգտատերերի նախասիրությունների և զննարկման պատմության վրա: Եթե ​​A-ին և B-ին դուր է գալիս Home Alone-ը, իսկ B-ն հավանում է Mean Girls-ը, ապա դուք կարող եք առաջարկել Ա-ին, դա նրանց նույնպես կարող է դուր գալ: Սա թույլ է տալիս հաճախորդներին շփվել հարթակի հետ:

Լեզուն, R

Տվյալների հավաքածու/Փաթեթ: MovieLens տվյալների հավաքածու

12. Հաճախորդների սեգմենտավորում

Տպավորեք գործատուներին Data Science նախագծով (ներառյալ սկզբնական կոդը) - Հաճախորդների սեգմենտավորում մեքենայական ուսուցմամբ.

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Գնորդների հատվածավորումը հայտնի հավելված է չվերահսկվող ուսուցում. Օգտագործելով կլաստերավորումը՝ ընկերությունները սահմանում են հաճախորդների սեգմենտներ՝ պոտենցիալ օգտագործողների բազայի հետ աշխատելու համար: Նրանք բաժանում են հաճախորդներին խմբերի` ըստ ընդհանուր բնութագրերի, ինչպիսիք են սեռը, տարիքը, հետաքրքրությունները և ծախսերի սովորությունները, որպեսզի նրանք կարողանան արդյունավետորեն շուկա հանել իրենց արտադրանքը յուրաքանչյուր խմբի համար: Մենք կօգտագործենք K-ն նշանակում է կլաստերավորում, ինչպես նաև պատկերացնել բաշխումն ըստ սեռի և տարիքի: Այնուհետև մենք վերլուծում ենք նրանց տարեկան եկամուտների և ծախսերի մակարդակը:

Լեզուն, R

Տվյալների հավաքածու/Փաթեթ: Mall_Customers տվյալների բազա

13. Կրծքագեղձի քաղցկեղի դասակարգում

Տե՛ս Python-ում Data Science նախագծի ամբողջական իրականացումը − Կրծքագեղձի քաղցկեղի դասակարգում խորը ուսուցման միջոցով.

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Վերադառնալով տվյալների գիտության բժշկական ներդրմանը, եկեք սովորենք, թե ինչպես հայտնաբերել կրծքագեղձի քաղցկեղը Python-ի միջոցով: Մենք կօգտագործենք IDC_regular տվյալների բազան՝ հայտնաբերելու ինվազիվ ծորանային կարցինոման՝ կրծքագեղձի քաղցկեղի ամենատարածված ձևը: Այն զարգանում է կաթնային խողովակներում՝ ներթափանցելով ծորանից դուրս գտնվող կաթնագեղձի թելքավոր կամ ճարպային հյուսվածքի մեջ։ Այս տվյալների հավաքագրման գիտական ​​նախագծի գաղափարում մենք կօգտագործենք Խորը ուսուցում և Կերասի գրադարանը՝ դասակարգման համար։

Լեզուն, Python

Տվյալների հավաքածու/Փաթեթ: IDC_կանոնավոր

14. Ճանապարհային նշանների ճանաչում

Ինքնավար մեքենաների տեխնոլոգիայի ճշգրտության հասնելը Data Science նախագծի միջոցով Ճանապարհային նշանների ճանաչում՝ օգտագործելով CNN-ը բաց կոդով։

14 բաց կոդով նախագծեր՝ տվյալների գիտության հմտությունները բարելավելու համար (հեշտ, նորմալ, դժվար)

Ճանապարհային նշանները և երթևեկության կանոնները շատ կարևոր են յուրաքանչյուր վարորդի համար՝ վթարներից խուսափելու համար։ Կանոնին հետևելու համար նախ պետք է հասկանալ, թե ինչ տեսք ունի ճանապարհային նշանը: Մարդը պետք է սովորի բոլոր ճանապարհային նշանները, նախքան իրեն տրվի որևէ տրանսպորտային միջոց վարելու իրավունք: Բայց հիմա ինքնավար մեքենաների թիվն աճում է, և մոտ ապագայում մարդն այլևս ինքնուրույն մեքենա չի վարի։ Ճանապարհային նշանների ճանաչման նախագծում դուք կսովորեք, թե ինչպես ծրագիրը կարող է ճանաչել ճանապարհային նշանի տեսակը՝ որպես մուտքագրում պատկեր վերցնելով: Գերմանական ճանապարհային նշանների ճանաչման տեղեկատու տվյալների հավաքածուն (GTSRB) օգտագործվում է խորը նեյրոնային ցանց կառուցելու համար՝ ճանաչելու այն դասը, որին պատկանում է ճանապարհային նշանը: Մենք նաև ստեղծում ենք պարզ GUI հավելվածի հետ փոխազդելու համար:

Լեզուն, Python

Տվյալների հավաքածու. GTRB (գերմանական երթևեկության նշանների ճանաչման չափանիշ)

Կարդալ ավելին

Source: www.habr.com

Добавить комментарий