Сезімдерді талдау - бұл оң немесе теріс болуы мүмкін сезімдер мен пікірлерді анықтау үшін сөздерді талдау. Бұл класстар екілік (оң және теріс) немесе көпше (бақытты, ашулы, қайғылы, жағымсыз...) болуы мүмкін классификация түрі. Біз бұл Data Science жобасын R тілінде жүзеге асырамыз және деректер жинағын "janeaustenR" бумасында қолданамыз. Біз AFINN, bing және loughran сияқты жалпы мақсаттағы сөздіктерді қолданамыз, ішкі біріктіруді орындаймыз және соңында нәтижені көрсету үшін сөз бұлтын жасаймыз.
Фейк жаңалықтар – саяси мақсаттарға жету үшін әлеуметтік желілер мен басқа да желілік БАҚ арқылы таралатын жалған ақпарат. Бұл Data Science жобасының идеясында біз Python-ды жаңалықтың шынайы немесе жалған екенін дәл анықтай алатын модель құру үшін қолданамыз. Біз TfidfVectorizer жасаймыз және жаңалықтарды «нақты» және «жалған» деп жіктеу үшін PassiveAggressiveClassifier қолданамыз. Біз 7796×4 пішінінің деректер жинағын қолданамыз және барлығын Jupyter Lab жүйесінде іске қосамыз.
Біз денсаулық сақтау мен қызметтерді жақсарту үшін Data Science қолданбасын пайдалана бастадық – егер ауруды ерте кезеңде болжай алсақ, онда бізде көптеген артықшылықтар болады. Сонымен, бұл Data Science жобасының идеясында біз Python көмегімен Паркинсон ауруын қалай анықтау керектігін үйренеміз. Бұл қозғалысқа әсер ететін және тремор мен қаттылықты тудыратын орталық жүйке жүйесінің нейродегенеративті, үдемелі ауруы. Бұл мидағы допаминді шығаратын нейрондарға әсер етеді және жыл сайын Үндістанда 1 миллионнан астам адамға әсер етеді.
Тіл: Python
Деректер жинағы/пакет: UCI ML Parkinsons деректер жинағы
Енді әртүрлі кітапханаларды қалай пайдалану керектігін үйренейік. Бұл Data Science жобасы сөйлеуді тану үшін librosa пайдаланады. SER – сөйлеуден адамның эмоциялары мен аффективті күйлерін анықтау процесі. Дауысымызбен эмоцияны білдіру үшін тон мен дыбыс деңгейін пайдаланатындықтан, SER өзекті болып табылады. Бірақ эмоциялар субъективті болғандықтан, дыбыстық аннотация - қиын тапсырма. Біз mfcc, chroma және mel функцияларын қолданамыз және эмоцияны тану үшін RAVDESS деректер жинағын қолданамыз. Біз осы үлгі үшін MLPC классификаторын жасаймыз.
Бұл Python көмегімен қызықты деректер ғылымы. Бір ғана суретті пайдаланып, сіз адамның жынысы мен жасын болжауды үйренесіз. Бұл жерде біз сізді Computer Vision және оның принциптерімен таныстырамыз. Біз саламыз конволюциялық нейрондық желі және Adience деректер жинағында Тал Хасснер мен Гил Леви үйреткен үлгілерді пайдаланады. Жолда біз кейбір .pb, .pbtxt, .prototxt және .caffemodel файлдарын қолданамыз.
Бұл ggplot2 бар деректерді визуализациялау жобасы, онда біз R және оның кітапханаларын қолданамыз және әртүрлі параметрлерді талдаймыз. Біз Uber Pickups New York City деректер жинағын қолданамыз және жылдың әртүрлі уақыт шеңберлері үшін визуализация жасаймыз. Бұл бізге уақыттың тұтынушылардың саяхатына қалай әсер ететінін көрсетеді.
Тіл: R
Деректер жинағы/пакет: Нью-Йорк қаласындағы Uber Pickups деректер жинағы
Ұйқылықпен жүргізу өте қауіпті және жыл сайын мыңға жуық апаттар жүргізушілердің көлік жүргізу кезінде ұйықтап қалуынан болады. Бұл Python жобасында біз ұйқышыл драйверлерді анықтай алатын, сондай-ақ оларды дыбыстық сигналмен ескертетін жүйені жасаймыз.
Бұл жоба Keras және OpenCV көмегімен жүзеге асырылады. Біз бет пен көзді анықтау үшін OpenCV пайдаланамыз және Keras көмегімен терең нейрондық желі әдістерін қолдана отырып, көз күйін (Ашық немесе Жабық) жіктейміз.
Чат-боттар бизнестің ажырамас бөлігі болып табылады. Көптеген кәсіпорындар өз тұтынушыларына қызмет көрсетуі керек және оларға қызмет көрсету үшін көп жұмыс күші, уақыт пен күш қажет. Чатботтар тұтынушылар қоятын кейбір жалпы сұрақтарға жауап беру арқылы тұтынушылармен өзара әрекеттесудің көп бөлігін автоматтандырады. Чат-боттардың негізінен екі түрі бар: арнайы домендік және ашық домендік. Белгілі бір мәселені шешу үшін жиі доменге арналған чатбот қолданылады. Сонымен, сіз оны өз салаңызда тиімді жұмыс істеу үшін теңшеуіңіз керек. Ашық домендік чат-боттарға кез келген сұрақ қоюға болады, сондықтан оларды оқыту үлкен көлемдегі деректерді қажет етеді.
Кескінде не бар екенін сипаттау адамдар үшін оңай тапсырма, бірақ компьютерлер үшін кескін жай ғана әр пикселдің түс мәнін көрсететін сандар қатары болып табылады. Бұл компьютерлер үшін қиын жұмыс. Суретте не бар екенін түсіну, содан кейін табиғи тілде (мысалы, ағылшын тілінде) сипаттама жасау - тағы бір қиын мәселе. Бұл жоба суретті сипаттау генераторын жасау үшін қайталанатын нейрондық желі (LSTM) бар конволюционды нейрондық желіні (CNN) жүзеге асыратын терең оқыту әдістерін пайдаланады.
Осы уақытқа дейін сіз әдістер мен ұғымдарды түсіне бастадыңыз. Кейбір алдыңғы қатарлы деректер ғылымының жобаларына көшейік. Бұл жобада біз R тілін сияқты алгоритмдермен қолданамыз шешім ағаштары, логистикалық регрессия, жасанды нейрондық желілер және градиентті күшейтетін классификатор. Несие картасы транзакцияларын жалған немесе шынайы деп жіктеу үшін карта транзакцияларының деректер жинағын пайдаланамыз. Біз олар үшін әртүрлі үлгілерді таңдап, өнімділік қисықтарын құрастырамыз.
Тіл: R
Деректер жинағы/пакет: Карточкалық транзакциялар деректер жинағы
Бұл Data Science жобасында біз R тілін машиналық оқыту арқылы фильмнің ұсыныстарын орындау үшін қолданамыз. Ұсыныстар жүйесі пайдаланушыларға ұсыныстарды басқа пайдаланушылардың қалаулары мен шолу тарихы негізінде сүзу процесі арқылы жібереді. Егер А және В "Үйде жалғыз" дегенді ұнатса, ал В "Орман қыздарды" ұнатса, онда сіз А ұсынысын бере аласыз - оларға да ұнауы мүмкін. Бұл тұтынушыларға платформамен өзара әрекеттесуге мүмкіндік береді.
Сатып алушыларды сегменттеу - танымал қолданба бақылаусыз оқыту. Кластерлеуді пайдалана отырып, компаниялар әлеуетті пайдаланушы базасын мақсатты ету үшін тұтынушылар сегменттерін анықтайды. Олар тұтынушыларды жынысы, жасы, қызығушылықтары және жұмсау әдеттері сияқты ортақ сипаттамаларға қарай топтарға бөледі, осылайша олар өз өнімдерін әр топқа тиімді сатады. пайдаланамыз К-кластерлеуді білдіреді, сондай-ақ жынысы мен жасы бойынша бөлуді визуализациялау. Содан кейін біз олардың жылдық кірісі мен шығыс деңгейін талдаймыз.
Тіл: R
Деректер жинағы/пакет: Mall_Customers деректер жинағы
Деректер ғылымының медициналық үлесіне оралсақ, Python көмегімен сүт безі обырын қалай анықтау керектігін білейік. Біз IDC_regular деректер жинағын сүт безі қатерлі ісігінің ең көп тараған түрі болып табылатын инвазивті каналдық карциноманы анықтау үшін қолданамыз. Ол сүт жолдарында дамиды, түтік сыртындағы талшықты немесе майлы сүт безінің тініне енеді. Бұл деректерді жинауда біз ғылыми жоба идеясын қолданамыз Deep Learning және жіктеу үшін Керас кітапханасы.
Жол белгілері мен жол қозғалысы ережелері әрбір жүргізуші үшін апатты болдырмау үшін өте маңызды. Ережені сақтау үшін алдымен жол белгісінің қандай екенін түсіну керек. Адам кез келген көлік құралын жүргізуге рұқсат бермес бұрын барлық жол белгілерін білуі керек. Бірақ қазір автономды көліктер саны артып келеді және жақын арада адам өз бетінше көлік жүргізбейтін болады. Жол белгілерін тану жобасында сіз бағдарламаның суретті кіріс ретінде алу арқылы жол белгілерінің түрін қалай тануға болатынын білесіз. Неміс Traffic Sign Recognition Benchmark (GTSRB) деректер жинағы жол белгісі жататын классты тану үшін терең нейрондық желіні құру үшін пайдаланылады. Біз сондай-ақ қолданбамен әрекеттесу үшін қарапайым GUI жасаймыз.
Тіл: Python
Деректер жинағы: GTSRB (Германдық жол белгілерін танудың эталоны)