Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Жаңадан бастаушыларға арналған деректер туралы ғылым

1. Сезімдерді талдау (мәтін арқылы сезімді талдау)

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Бастапқы кодты пайдаланып Data Science жобасының толық орындалуын тексеріңіз - R-де көңіл-күйді талдау жобасы.

Сезімдерді талдау - бұл оң немесе теріс болуы мүмкін сезімдер мен пікірлерді анықтау үшін сөздерді талдау. Бұл класстар екілік (оң және теріс) немесе көпше (бақытты, ашулы, қайғылы, жағымсыз...) болуы мүмкін классификация түрі. Біз бұл Data Science жобасын R тілінде жүзеге асырамыз және деректер жинағын "janeaustenR" бумасында қолданамыз. Біз AFINN, bing және loughran сияқты жалпы мақсаттағы сөздіктерді қолданамыз, ішкі біріктіруді орындаймыз және соңында нәтижені көрсету үшін сөз бұлтын жасаймыз.

Тіл: R
Деректер жинағы/пакет: janeaustenR

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Мақала EDISON Software қолдауымен аударылған, ол мультибрендтік дүкендер үшін виртуалды фитинг бөлмелерін жасайды, және де бағдарламалық қамтамасыз етуді сынайды.

2. Жалған жаңалықтарды анықтау

Жаңадан бастаушыларға арналған Data Science жобасында жұмыс істеу арқылы дағдыларыңызды келесі деңгейге көтеріңіз - Python көмегімен жалған жаңалықтарды анықтау.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Фейк жаңалықтар – саяси мақсаттарға жету үшін әлеуметтік желілер мен басқа да желілік БАҚ арқылы таралатын жалған ақпарат. Бұл Data Science жобасының идеясында біз Python-ды жаңалықтың шынайы немесе жалған екенін дәл анықтай алатын модель құру үшін қолданамыз. Біз TfidfVectorizer жасаймыз және жаңалықтарды «нақты» және «жалған» деп жіктеу үшін PassiveAggressiveClassifier қолданамыз. Біз 7796×4 пішінінің деректер жинағын қолданамыз және барлығын Jupyter Lab жүйесінде іске қосамыз.

Тіл: Python

Деректер жинағы/пакет: news.csv

3. Паркинсон ауруын анықтау

Деректер туралы ғылым жобасының идеясымен алға жылжыңыз - XGBoost көмегімен Паркинсон ауруын анықтау.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Біз денсаулық сақтау мен қызметтерді жақсарту үшін Data Science қолданбасын пайдалана бастадық – егер ауруды ерте кезеңде болжай алсақ, онда бізде көптеген артықшылықтар болады. Сонымен, бұл Data Science жобасының идеясында біз Python көмегімен Паркинсон ауруын қалай анықтау керектігін үйренеміз. Бұл қозғалысқа әсер ететін және тремор мен қаттылықты тудыратын орталық жүйке жүйесінің нейродегенеративті, үдемелі ауруы. Бұл мидағы допаминді шығаратын нейрондарға әсер етеді және жыл сайын Үндістанда 1 миллионнан астам адамға әсер етеді.

Тіл: Python

Деректер жинағы/пакет: UCI ML Parkinsons деректер жинағы

Орташа күрделіліктегі Data Science жобалары

4. Сөйлеу эмоциясын тану

Data Science мысалы жобасының толық орындалуын тексеріңіз - Librosa көмегімен сөйлеуді тану.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Енді әртүрлі кітапханаларды қалай пайдалану керектігін үйренейік. Бұл Data Science жобасы сөйлеуді тану үшін librosa пайдаланады. SER – сөйлеуден адамның эмоциялары мен аффективті күйлерін анықтау процесі. Дауысымызбен эмоцияны білдіру үшін тон мен дыбыс деңгейін пайдаланатындықтан, SER өзекті болып табылады. Бірақ эмоциялар субъективті болғандықтан, дыбыстық аннотация - қиын тапсырма. Біз mfcc, chroma және mel функцияларын қолданамыз және эмоцияны тану үшін RAVDESS деректер жинағын қолданамыз. Біз осы үлгі үшін MLPC классификаторын жасаймыз.

Тіл: Python

Деректер жинағы/пакет: RAVDESS деректер жинағы

5. Жыныс пен жасты анықтау

Жұмыс берушілерді соңғы Data Science жобасымен таң қалдырыңыз - OpenCV көмегімен жыныс пен жасты анықтау.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Бұл Python көмегімен қызықты деректер ғылымы. Бір ғана суретті пайдаланып, сіз адамның жынысы мен жасын болжауды үйренесіз. Бұл жерде біз сізді Computer Vision және оның принциптерімен таныстырамыз. Біз саламыз конволюциялық нейрондық желі және Adience деректер жинағында Тал Хасснер мен Гил Леви үйреткен үлгілерді пайдаланады. Жолда біз кейбір .pb, .pbtxt, .prototxt және .caffemodel файлдарын қолданамыз.

Тіл: Python

Деректер жинағы/пакет: Адиенс

6. Uber деректерін талдау

Бастапқы кодпен Data Science жобасының толық орындалуын тексеріңіз - R. Uber деректерін талдау жобасы.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Бұл ggplot2 бар деректерді визуализациялау жобасы, онда біз R және оның кітапханаларын қолданамыз және әртүрлі параметрлерді талдаймыз. Біз Uber Pickups New York City деректер жинағын қолданамыз және жылдың әртүрлі уақыт шеңберлері үшін визуализация жасаймыз. Бұл бізге уақыттың тұтынушылардың саяхатына қалай әсер ететінін көрсетеді.

Тіл: R

Деректер жинағы/пакет: Нью-Йорк қаласындағы Uber Pickups деректер жинағы

7. Драйвердің ұйқышылдығын анықтау

Top Data Science жобасында жұмыс істеу арқылы дағдыларыңызды жетілдіріңіз - OpenCV & Keras көмегімен ұйқышылдықты анықтау жүйесі.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Ұйқылықпен жүргізу өте қауіпті және жыл сайын мыңға жуық апаттар жүргізушілердің көлік жүргізу кезінде ұйықтап қалуынан болады. Бұл Python жобасында біз ұйқышыл драйверлерді анықтай алатын, сондай-ақ оларды дыбыстық сигналмен ескертетін жүйені жасаймыз.

Бұл жоба Keras және OpenCV көмегімен жүзеге асырылады. Біз бет пен көзді анықтау үшін OpenCV пайдаланамыз және Keras көмегімен терең нейрондық желі әдістерін қолдана отырып, көз күйін (Ашық немесе Жабық) жіктейміз.

8. Чатбот

Python көмегімен чатбот жасаңыз және мансабыңызда алға қадам жасаңыз - NLTK және Keras көмегімен чатбот.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Чат-боттар бизнестің ажырамас бөлігі болып табылады. Көптеген кәсіпорындар өз тұтынушыларына қызмет көрсетуі керек және оларға қызмет көрсету үшін көп жұмыс күші, уақыт пен күш қажет. Чатботтар тұтынушылар қоятын кейбір жалпы сұрақтарға жауап беру арқылы тұтынушылармен өзара әрекеттесудің көп бөлігін автоматтандырады. Чат-боттардың негізінен екі түрі бар: арнайы домендік және ашық домендік. Белгілі бір мәселені шешу үшін жиі доменге арналған чатбот қолданылады. Сонымен, сіз оны өз салаңызда тиімді жұмыс істеу үшін теңшеуіңіз керек. Ашық домендік чат-боттарға кез келген сұрақ қоюға болады, сондықтан оларды оқыту үлкен көлемдегі деректерді қажет етеді.

Деректер жинағы: Niyet json файлы

Тіл: Python

Жетілдірілген деректер ғылымының жобалары

9. Кескін субтитрлерінің генераторы

Бастапқы кодпен жобаның толық орындалуын тексеріңіз - CNN және LSTM бар кескіннің субтитр генераторы.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Кескінде не бар екенін сипаттау адамдар үшін оңай тапсырма, бірақ компьютерлер үшін кескін жай ғана әр пикселдің түс мәнін көрсететін сандар қатары болып табылады. Бұл компьютерлер үшін қиын жұмыс. Суретте не бар екенін түсіну, содан кейін табиғи тілде (мысалы, ағылшын тілінде) сипаттама жасау - тағы бір қиын мәселе. Бұл жоба суретті сипаттау генераторын жасау үшін қайталанатын нейрондық желі (LSTM) бар конволюционды нейрондық желіні (CNN) жүзеге асыратын терең оқыту әдістерін пайдаланады.

Деректер жинағы: Flickr 8K

Тіл: Python

Рамка: Керас

10. Несие картасы бойынша алаяқтықты анықтау

Data Science жобасының идеясымен жұмыс істеу кезінде бар күшіңізді салыңыз - машиналық оқыту арқылы несие картасының алаяқтығын анықтау.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Осы уақытқа дейін сіз әдістер мен ұғымдарды түсіне бастадыңыз. Кейбір алдыңғы қатарлы деректер ғылымының жобаларына көшейік. Бұл жобада біз R тілін сияқты алгоритмдермен қолданамыз шешім ағаштары, логистикалық регрессия, жасанды нейрондық желілер және градиентті күшейтетін классификатор. Несие картасы транзакцияларын жалған немесе шынайы деп жіктеу үшін карта транзакцияларының деректер жинағын пайдаланамыз. Біз олар үшін әртүрлі үлгілерді таңдап, өнімділік қисықтарын құрастырамыз.

Тіл: R

Деректер жинағы/пакет: Карточкалық транзакциялар деректер жинағы

11. Фильмді ұсыну жүйесі

Бастапқы кодпен ең жақсы Data Science жобасын іске асыруды зерттеңіз - R тіліндегі фильмді ұсыну жүйесі

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Бұл Data Science жобасында біз R тілін машиналық оқыту арқылы фильмнің ұсыныстарын орындау үшін қолданамыз. Ұсыныстар жүйесі пайдаланушыларға ұсыныстарды басқа пайдаланушылардың қалаулары мен шолу тарихы негізінде сүзу процесі арқылы жібереді. Егер А және В "Үйде жалғыз" дегенді ұнатса, ал В "Орман қыздарды" ұнатса, онда сіз А ұсынысын бере аласыз - оларға да ұнауы мүмкін. Бұл тұтынушыларға платформамен өзара әрекеттесуге мүмкіндік береді.

Тіл: R

Деректер жинағы/пакет: MovieLens деректер жинағы

12. Тұтынушыны сегменттеу

Жұмыс берушілерді Data Science жобасымен таң қалдырыңыз (бастапқы кодты қоса) - Машиналық оқытуды қолдану арқылы тұтынушыларды сегменттеу.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Сатып алушыларды сегменттеу - танымал қолданба бақылаусыз оқыту. Кластерлеуді пайдалана отырып, компаниялар әлеуетті пайдаланушы базасын мақсатты ету үшін тұтынушылар сегменттерін анықтайды. Олар тұтынушыларды жынысы, жасы, қызығушылықтары және жұмсау әдеттері сияқты ортақ сипаттамаларға қарай топтарға бөледі, осылайша олар өз өнімдерін әр топқа тиімді сатады. пайдаланамыз К-кластерлеуді білдіреді, сондай-ақ жынысы мен жасы бойынша бөлуді визуализациялау. Содан кейін біз олардың жылдық кірісі мен шығыс деңгейін талдаймыз.

Тіл: R

Деректер жинағы/пакет: Mall_Customers деректер жинағы

13. Сүт безі обыры классификациясы

Python-да Data Science жобасының толық орындалуын тексеріңіз - Терең оқытуды қолдану арқылы сүт безі қатерлі ісігінің жіктелуі.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Деректер ғылымының медициналық үлесіне оралсақ, Python көмегімен сүт безі обырын қалай анықтау керектігін білейік. Біз IDC_regular деректер жинағын сүт безі қатерлі ісігінің ең көп тараған түрі болып табылатын инвазивті каналдық карциноманы анықтау үшін қолданамыз. Ол сүт жолдарында дамиды, түтік сыртындағы талшықты немесе майлы сүт безінің тініне енеді. Бұл деректерді жинауда біз ғылыми жоба идеясын қолданамыз Deep Learning және жіктеу үшін Керас кітапханасы.

Тіл: Python

Деректер жинағы/пакет: IDC_regular

14. Жол белгілерін тану

Data Science жобасымен өзін-өзі басқару технологиясында дәлдікке қол жеткізу CNN көмегімен жол белгілерін тану ашық дереккөз.

Data Science дағдыларын жақсартуға арналған 14 ашық бастапқы жоба (жеңіл, қалыпты, қиын)

Жол белгілері мен жол қозғалысы ережелері әрбір жүргізуші үшін апатты болдырмау үшін өте маңызды. Ережені сақтау үшін алдымен жол белгісінің қандай екенін түсіну керек. Адам кез келген көлік құралын жүргізуге рұқсат бермес бұрын барлық жол белгілерін білуі керек. Бірақ қазір автономды көліктер саны артып келеді және жақын арада адам өз бетінше көлік жүргізбейтін болады. Жол белгілерін тану жобасында сіз бағдарламаның суретті кіріс ретінде алу арқылы жол белгілерінің түрін қалай тануға болатынын білесіз. Неміс Traffic Sign Recognition Benchmark (GTSRB) деректер жинағы жол белгісі жататын классты тану үшін терең нейрондық желіні құру үшін пайдаланылады. Біз сондай-ақ қолданбамен әрекеттесу үшін қарапайым GUI жасаймыз.

Тіл: Python

Деректер жинағы: GTSRB (Германдық жол белгілерін танудың эталоны)

Ары қарай оқу

Ақпарат көзі: www.habr.com

пікір қалдыру