Զգացմունքների վերլուծությունը բառերի վերլուծություն է՝ տրամադրություններ և կարծիքներ բացահայտելու համար, որոնք կարող են լինել դրական կամ բացասական: Սա դասակարգման մի տեսակ է, որտեղ դասերը կարող են լինել երկուական (դրական և բացասական) կամ հոգնակի (ուրախ, զայրացած, տխուր, տհաճ...): Մենք կիրականացնենք տվյալների գիտության այս նախագիծը R-ում և կօգտագործենք տվյալների բազան «janeaustenR» փաթեթում: Մենք կօգտագործենք ընդհանուր նշանակության բառարաններ, ինչպիսիք են AFINN-ը, bing-ը և loughran-ը, կկատարենք ներքին միացում և վերջում կստեղծենք բառային ամպ՝ արդյունքը ցուցադրելու համար:
Կեղծ լուրերը կեղծ տեղեկատվություն են, որոնք տարածվում են սոցիալական և այլ առցանց լրատվամիջոցների միջոցով՝ քաղաքական նպատակներին հասնելու համար: Տվյալների գիտության այս նախագծի գաղափարում մենք կօգտագործենք Python-ը մոդել կառուցելու համար, որը կարող է ճշգրիտ որոշել՝ արդյոք լուրերը իրական են, թե կեղծ: Մենք կստեղծենք TfidfVetorizer և կօգտագործենք PassiveAggressiveClassifier-ը, որպեսզի դասակարգենք լուրերը «իրական» և «կեղծ»: Մենք կօգտագործենք 7796×4 ձևի տվյալների բազա և կանենք ամեն ինչ Jupyter Lab-ում:
Մենք սկսել ենք օգտագործել Data Science-ը առողջապահությունը և ծառայությունները բարելավելու համար. եթե մենք կարողանանք կանխատեսել հիվանդությունը վաղ փուլում, ապա կունենանք շատ առավելություններ: Այսպիսով, Data Science նախագծի այս գաղափարում մենք կսովորենք, թե ինչպես հայտնաբերել Պարկինսոնի հիվանդությունը Python-ի միջոցով: Դա կենտրոնական նյարդային համակարգի նեյրոդեգեներատիվ, առաջադեմ հիվանդություն է, որն ազդում է շարժման վրա և առաջացնում դող և կոշտություն: Այն ազդում է ուղեղի դոֆամին արտադրող նեյրոնների վրա, և ամեն տարի այն ազդում է Հնդկաստանում ավելի քան 1 միլիոն մարդու վրա:
Լեզուն, Python
Տվյալների հավաքածու/Փաթեթ: UCI ML Parkinsons տվյալների բազա
Եկեք հիմա սովորենք, թե ինչպես օգտագործել տարբեր գրադարաններ: Տվյալների գիտության այս նախագիծն օգտագործում է librosa խոսքի ճանաչման համար: SER-ը խոսքից մարդկային հույզերի և աֆեկտիվ վիճակների բացահայտման գործընթաց է: Քանի որ մենք օգտագործում ենք տոնայնություն և բարձրախոսություն՝ մեր ձայնով զգացմունքներ արտահայտելու համար, SER-ը տեղին է: Բայց քանի որ զգացմունքները սուբյեկտիվ են, աուդիո անոտացիան դժվար գործ է: Մենք կօգտագործենք mfcc, chroma և mel ֆունկցիաները և կօգտագործենք RAVDESS տվյալների բազան զգացմունքների ճանաչման համար: Այս մոդելի համար մենք կստեղծենք MLPC դասակարգիչ:
Սա հետաքրքիր տվյալների գիտություն է Python-ի հետ: Օգտագործելով միայն մեկ պատկեր՝ դուք կսովորեք, թե ինչպես կանխատեսել մարդու սեռը և տարիքը։ Այստեղ մենք ձեզ կծանոթացնենք Computer Vision-ին և դրա սկզբունքներին: Մենք կկառուցենք կոնվոլյուցիոն նեյրոնային ցանց և կօգտագործի մոդելներ, որոնք վերապատրաստվել են Թալ Հասների և Գիլ Լևիի կողմից Adience տվյալների բազայի վրա: Ճանապարհին մենք կօգտագործենք որոշ .pb, .pbtxt, .prototxt և .caffemodel ֆայլեր:
Սա տվյալների վիզուալիզացիայի նախագիծ է ggplot2-ով, որտեղ մենք կօգտագործենք R-ն ու նրա գրադարանները և կվերլուծենք տարբեր պարամետրեր: Մենք կօգտագործենք Uber Pickups New York տվյալների բազան և կստեղծենք վիզուալիզացիաներ տարվա տարբեր ժամանակաշրջանների համար: Սա մեզ ասում է, թե ինչպես է ժամանակը ազդում հաճախորդների ճամփորդությունների վրա:
Լեզուն, R
Տվյալների հավաքածու/Փաթեթ: Uber Pickups Նյու Յորքի տվյալների բազայում
Քնկոտ վարելը չափազանց վտանգավոր է, ամեն տարի մոտ հազար վթար է տեղի ունենում, քանի որ վարորդները քնել են վարելիս: Python-ի այս նախագծում մենք կկառուցենք համակարգ, որը կարող է հայտնաբերել քնկոտ վարորդներին և նաև ազդանշան տալ նրանց ձայնային ազդանշանի միջոցով:
Այս նախագիծն իրականացվում է Keras-ի և OpenCV-ի միջոցով: Մենք կօգտագործենք OpenCV-ն դեմքը և աչքերը հայտնաբերելու համար և Keras-ի օգնությամբ կդասակարգենք աչքի վիճակը (բաց կամ փակ)՝ օգտագործելով խորը նյարդային ցանցի մեթոդները։
Chatbots-ը բիզնեսի անբաժանելի մասն է: Շատ ձեռնարկություններ պետք է ծառայություններ առաջարկեն իրենց հաճախորդներին, և նրանց սպասարկելու համար պահանջվում է մեծ աշխատուժ, ժամանակ և ջանք: Chatbots-ը կարող է ավտոմատացնել հաճախորդների հետ փոխգործակցության մեծ մասը՝ պատասխանելով հաճախորդների կողմից տրվող որոշ ընդհանուր հարցերին: Հիմնականում գոյություն ունեն չաթ-բոտերի երկու տեսակ՝ հատուկ տիրույթի և բաց տիրույթի: Դոմենի հատուկ չաթբոտը հաճախ օգտագործվում է կոնկրետ խնդիր լուծելու համար։ Այսպիսով, դուք պետք է հարմարեցնեք այն ձեր ոլորտում արդյունավետ աշխատելու համար: Բաց տիրույթի չաթ-բոտերին կարող են տրվել ցանկացած հարց, ուստի նրանց վերապատրաստումը պահանջում է հսկայական քանակությամբ տվյալներ:
Պատկերում եղածը նկարագրելը հեշտ խնդիր է մարդկանց համար, սակայն համակարգիչների համար պատկերն ընդամենը թվերի հավաքածու է, որոնք ներկայացնում են յուրաքանչյուր պիքսելի գույնի արժեքը: Սա բարդ խնդիր է համակարգիչների համար: Պատկերում պատկերվածը հասկանալը և այնուհետև բնական լեզվի նկարագրություն (օրինակ՝ անգլերեն) ստեղծելը ևս մեկ բարդ խնդիր է: Այս նախագիծը օգտագործում է խորը ուսուցման մեթոդներ, որոնցում մենք իրականացնում ենք Convolutional Neural Network (CNN)՝ կրկնվող նեյրոնային ցանցով (LSTM)՝ պատկերների նկարագրության գեներատոր ստեղծելու համար:
Մինչ այժմ դուք սկսել եք հասկանալ մեթոդներն ու հասկացությունները: Եկեք անցնենք տվյալների գիտության մի քանի առաջադեմ նախագծերին: Այս նախագծում մենք կօգտագործենք R լեզուն այնպիսի ալգորիթմներով, ինչպիսիք են որոշման ծառեր, լոգիստիկ ռեգրեսիա, արհեստական նեյրոնային ցանցեր և գրադիենտ խթանող դասակարգիչ։ Մենք կօգտագործենք քարտային գործարքների հավաքածուն՝ վարկային քարտով գործարքները դասակարգելու համար որպես կեղծ և իրական: Մենք նրանց համար կընտրենք տարբեր մոդելներ և կկառուցենք կատարողականության կորեր:
Լեզուն, R
Տվյալների հավաքածու/Փաթեթ: Քարտային գործարքների տվյալների շտեմարան
Տվյալների գիտության այս նախագծում մենք կօգտագործենք R-ը՝ մեքենայական ուսուցման միջոցով ֆիլմի առաջարկությունները կատարելու համար: Առաջարկությունների համակարգը օգտատերերին առաջարկներ է ուղարկում զտման գործընթացի միջոցով՝ հիմնված այլ օգտատերերի նախասիրությունների և զննարկման պատմության վրա: Եթե A-ին և B-ին դուր է գալիս Home Alone-ը, իսկ B-ն հավանում է Mean Girls-ը, ապա դուք կարող եք առաջարկել Ա-ին, դա նրանց նույնպես կարող է դուր գալ: Սա թույլ է տալիս հաճախորդներին շփվել հարթակի հետ:
Լեզուն, R
Տվյալների հավաքածու/Փաթեթ: MovieLens տվյալների հավաքածու
Գնորդների հատվածավորումը հայտնի հավելված է չվերահսկվող ուսուցում. Օգտագործելով կլաստերավորումը՝ ընկերությունները սահմանում են հաճախորդների սեգմենտներ՝ պոտենցիալ օգտագործողների բազայի հետ աշխատելու համար: Նրանք բաժանում են հաճախորդներին խմբերի` ըստ ընդհանուր բնութագրերի, ինչպիսիք են սեռը, տարիքը, հետաքրքրությունները և ծախսերի սովորությունները, որպեսզի նրանք կարողանան արդյունավետորեն շուկա հանել իրենց արտադրանքը յուրաքանչյուր խմբի համար: Մենք կօգտագործենք K-ն նշանակում է կլաստերավորում, ինչպես նաև պատկերացնել բաշխումն ըստ սեռի և տարիքի: Այնուհետև մենք վերլուծում ենք նրանց տարեկան եկամուտների և ծախսերի մակարդակը:
Լեզուն, R
Տվյալների հավաքածու/Փաթեթ: Mall_Customers տվյալների բազա
Վերադառնալով տվյալների գիտության բժշկական ներդրմանը, եկեք սովորենք, թե ինչպես հայտնաբերել կրծքագեղձի քաղցկեղը Python-ի միջոցով: Մենք կօգտագործենք IDC_regular տվյալների բազան՝ հայտնաբերելու ինվազիվ ծորանային կարցինոման՝ կրծքագեղձի քաղցկեղի ամենատարածված ձևը: Այն զարգանում է կաթնային խողովակներում՝ ներթափանցելով ծորանից դուրս գտնվող կաթնագեղձի թելքավոր կամ ճարպային հյուսվածքի մեջ։ Այս տվյալների հավաքագրման գիտական նախագծի գաղափարում մենք կօգտագործենք Խորը ուսուցում և Կերասի գրադարանը՝ դասակարգման համար։
Ճանապարհային նշանները և երթևեկության կանոնները շատ կարևոր են յուրաքանչյուր վարորդի համար՝ վթարներից խուսափելու համար։ Կանոնին հետևելու համար նախ պետք է հասկանալ, թե ինչ տեսք ունի ճանապարհային նշանը: Մարդը պետք է սովորի բոլոր ճանապարհային նշանները, նախքան իրեն տրվի որևէ տրանսպորտային միջոց վարելու իրավունք: Բայց հիմա ինքնավար մեքենաների թիվն աճում է, և մոտ ապագայում մարդն այլևս ինքնուրույն մեքենա չի վարի։ Ճանապարհային նշանների ճանաչման նախագծում դուք կսովորեք, թե ինչպես ծրագիրը կարող է ճանաչել ճանապարհային նշանի տեսակը՝ որպես մուտքագրում պատկեր վերցնելով: Գերմանական ճանապարհային նշանների ճանաչման տեղեկատու տվյալների հավաքածուն (GTSRB) օգտագործվում է խորը նեյրոնային ցանց կառուցելու համար՝ ճանաչելու այն դասը, որին պատկանում է ճանապարհային նշանը: Մենք նաև ստեղծում ենք պարզ GUI հավելվածի հետ փոխազդելու համար:
Լեզուն, Python
Տվյալների հավաքածու. GTRB (գերմանական երթևեկության նշանների ճանաչման չափանիշ)