ProHoster > Blog > интернет жаңылыктары > Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)
Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)
Жаңы баштагандар үчүн маалымат илими
1. Сезимди талдоо (Текст аркылуу сезимди талдоо)
Булак кодун колдонуу менен Data Science долбоорунун толук аткарылышын текшериңиз - Сезимдерди талдоо долбоору Р.
Сезим талдоо - бул оң же терс болушу мүмкүн болгон сезимдерди жана пикирлерди аныктоо үчүн сөздөрдү талдоо. Бул класстар бинардык (оң жана терс) же көптүк (бактылуу, ачуулуу, кайгылуу, жаман...) боло турган классификациянын бир түрү. Бул Data Science долбоорун R ичинде ишке ашырабыз жана берилиштер топтомун "janeaustenR" пакетинде колдонобуз. Биз AFINN, bing жана loughran сыяктуу жалпы максаттагы сөздүктөрдү колдонобуз, ички кошулууну аткарабыз жана аягында жыйынтыкты көрсөтүү үчүн сөз булутун түзөбүз.
Фейк жаңылыктар – бул саясий максаттарга жетүү үчүн социалдык тармактар жана башка интернет ЖМКлар аркылуу таратылган жалган маалымат. Бул Data Science долбоорунун идеясында биз Pythonду жаңы окуянын чыныгы же жасалма экенин так аныктай ала турган моделди куруу үчүн колдонобуз. Биз TfidfVectorizer түзөбүз жана жаңылыктарды “чыныгы” жана “жалган” деп классификациялоо үчүн PassiveAggressiveClassifier колдонобуз. Биз 7796×4 формасындагы берилиштер топтомун колдонобуз жана бардыгын Jupyter лабораториясында иштетебиз.
Биз саламаттыкты сактоону жана кызматтарды жакшыртуу үчүн Data Scienceти колдоно баштадык – эгерде ооруну алгачкы этапта алдын ала билсек, анда биз көптөгөн артыкчылыктарга ээ болобуз. Ошентип, бул Data Science долбоорунун идеясында биз Python аркылуу Паркинсон оорусун кантип аныктоону үйрөнөбүз. Бул борбордук нерв системасынын нейродегенеративдик, прогрессивдүү оорусу, кыймылга таасирин тийгизип, титирөөнү жана катуулукту пайда кылат. Бул мээдеги дофаминди өндүрүүчү нейрондорго таасир этет жана жыл сайын Индияда 1 миллиондон ашык адамга таасир этет.
тили: Python
Берилиштер топтому/пакет: UCI ML Parkinsons маалымат топтому
Эми ар кандай китепканаларды кантип колдонууну үйрөнөлү. Бул Data Science долбоору кепти таануу үчүн librosa колдонот. SER – сөздөн адамдын эмоцияларын жана аффективдүү абалын аныктоо процесси. Үнүбүз менен эмоцияны билдирүү үчүн тонду жана бийиктикти колдонгондуктан, SER актуалдуу. Бирок эмоциялар субъективдүү болгондуктан, аудио аннотациялоо татаал иш. Биз mfcc, chroma жана mel функцияларын колдонобуз жана эмоцияларды таануу үчүн RAVDESS маалымат топтомун колдонобуз. Биз бул модель үчүн MLPC классификаторун түзөбүз.
тили: Python
Берилиштер топтому/пакет: RAVDESS маалымат топтому
Бул Python менен кызыктуу маалымат илими. Бир эле сүрөттү колдонуу менен сиз адамдын жынысын жана жашын алдын ала айтууну үйрөнөсүз. Бул жерде биз сизди Computer Vision жана анын принциптери менен тааныштырабыз. Биз курабыз конволюциялык нейрон тармагы жана Adience маалымат топтомунда Тал Хасснер жана Гил Леви үйрөткөн моделдерди колдонот. Жолдо биз кээ бир .pb, .pbtxt, .prototxt жана .caffemodel файлдарын колдонобуз.
Бул ggplot2 менен маалыматтарды визуализациялоо долбоору, анда биз R жана анын китепканаларын колдонуп, ар кандай параметрлерди талдайбыз. Биз Uber Pickups New York City маалымат топтомун колдонуп, жылдын ар кандай убакыт алкактары үчүн визуализацияларды түзөбүз. Бул бизге убакыт кардарлардын саякатына кандай таасир этээрин айтып берет.
тили: R
Берилиштер топтому/пакет: Нью-Йорктогу Uber Pickups маалымат топтому
Уйкулуу айдоо өтө кооптуу жана жыл сайын айдоочулардын айдап баратып уктап калышынан миңге жакын жол кырсыгы катталат. Бул Python долбоорунда биз уйкулуу айдоочуларды аныктай турган системаны түзөбүз жана аларды аудио сигнал менен эскертебиз.
Бул долбоор Keras жана OpenCV аркылуу ишке ашырылат. Биз бетти жана көздү аныктоо үчүн OpenCV колдонобуз жана Керас менен терең нейрон тармагынын ыкмаларын колдонуу менен көздүн абалын (Ачык же Жабык) классификациялайбыз.
Чатботтор бизнестин ажырагыс бөлүгү болуп саналат. Көптөгөн ишканалар өз кардарларына кызматтарды сунуш кылышы керек жана аларды тейлөө үчүн көп жумушчу күчү, убакыт жана күч талап кылынат. Чатботтор кардарлар берген кээ бир жалпы суроолорго жооп берүү менен кардарлардын өз ара аракеттенүүсүн автоматташтыра алат. Негизинен чатботтордун эки түрү бар: Доменге тиешелүү жана Ачык домен. Доменге тиешелүү чатбот көбүнчө белгилүү бир маселени чечүү үчүн колдонулат. Демек, сиз өз тармагында натыйжалуу иштөө үчүн аны өзгөчөлөштүрүү керек. Ачык домендик чатботторго ар кандай суроолорду берсе болот, андыктан аларды окутуу чоң көлөмдөгү маалыматтарды талап кылат.
Сүрөттөгү нерсени сүрөттөө адамдар үчүн оңой иш, ал эми компьютерлер үчүн сүрөт бул ар бир пикселдин түс маанисин билдирген сандардын сериясы. Бул компьютерлер үчүн кыйын иш. Сүрөттө эмне бар экенин түшүнүү жана андан кийин табигый тилде (мисалы, англисче) сүрөттөмө түзүү дагы бир татаал маселе. Бул долбоор терең үйрөнүү ыкмаларын колдонот, анда биз сүрөттөлүштүн сүрөттөмө генераторун түзүү үчүн Кайталануучу нейрон тармагы (LSTM) менен Convolutional Neural Network (CNN) ишке ашырабыз.
Азырынча сиз ыкмаларды жана түшүнүктөрдү түшүнө баштадыңыз. Келгиле, кээ бир өнүккөн маалымат илими долбоорлоруна өтөбүз. Бул долбоордо биз R тилин сыяктуу алгоритмдер менен колдонобуз чечим дарактары, логистикалык регрессия, жасалма нейрон тармактары жана градиентти жогорулатуу классификатору. Биз кредиттик карта транзакцияларын алдамчылык же чыныгы деп классификациялоо үчүн карта транзакцияларынын маалымат топтомун колдонобуз. Биз алар үчүн ар кандай моделдерди тандап, аткаруу ийри сызыктарын түзөбүз.
тили: R
Берилиштер топтому/пакет: Карта транзакцияларынын маалымат топтому
Бул Data Science долбоорунда биз машинаны үйрөнүү аркылуу тасманын сунуштарын ишке ашыруу үчүн R колдонобуз. Сунуштоо системасы башка колдонуучулардын каалоолоруна жана серептөө тарыхына негизделген чыпкалоо процесси аркылуу колдонуучуларга сунуштарды жөнөтөт. Эгер А менен В "Үйдө жалгыз" дегенди жактырса, ал эми В "Меан кыздарды" жактырса, анда сиз А сунуштасаңыз болот - аларга да жагат. Бул кардарларга платформа менен өз ара аракеттенүүгө мүмкүндүк берет.
тили: R
Берилиштер топтому/пакет: MovieLens маалымат топтому
Сатып алуучуну сегменттөө популярдуу колдонмо болуп саналат көзөмөлсүз окутуу. Кластерлөө аркылуу компаниялар потенциалдуу колдонуучу базасын максаттуу үчүн кардарлардын сегменттерин аныкташат. Алар кардарларды жынысы, жашы, кызыкчылыктары жана сарптоо адаттары сыяктуу жалпы өзгөчөлүктөргө жараша топторго бөлүшөт, ошондуктан алар өз өнүмдөрүн ар бир топко натыйжалуу сатууга мүмкүнчүлүк алышат. Биз колдонобуз К-кластерлөө дегенди билдирет, ошондой эле жынысы жана жашы боюнча бөлүштүрүүнү элестетиңиз. Андан кийин алардын жылдык киреше жана чыгаша деңгээлин анализдейбиз.
тили: R
Берилиштер топтому/пакет: Mall_Customers маалымат топтому
Маалымат илиминин медициналык салымына кайтып келсек, келгиле, Python аркылуу эмчек рагын кантип аныктоону үйрөнөлү. Биз IDC_regular маалымат топтомун инвазивдүү каналдык карциноманы, эмчек рагынын эң кеңири тараган түрүн аныктоо үчүн колдонобуз. Ал сүт түтүкчөлөрүндө өнүгүп, каналдын сыртындагы жипчелүү же майлуу эмчек тканына кирип кетет. Бул маалыматтарды чогултуу боюнча илимий долбоордун идеясын колдонобуз Deep Learning жана классификация үчүн Керас китепканасы.
Жол белгилери жана жол эрежелери ар бир айдоочу үчүн кырсыктарды болтурбоо үчүн абдан маанилүү. Эрежени сактоо үчүн алгач жол белгиси кандай болорун түшүнүү керек. Кандайдыр бир транспорт каражатын айдоо укугуна ээ болгонго чейин адам бардык жол белгилерин үйрөнүшү керек. Бирок азыр автономдуу унаалардын саны өсүүдө жана жакынкы келечекте адам өз алдынча машина айдабай калат. Жол белгилерин таануу долбоорунда сиз программа жол белгилеринин түрүн кантип тааный аларын үйрөнөсүз. Германиянын Traffic Sign Recognition Benchmark (GTSRB) маалымат топтому жол белгиси таандык классты таануу үчүн терең нейрон тармагын куруу үчүн колдонулат. Биз ошондой эле колдонмо менен иштешүү үчүн жөнөкөй GUI түзөбүз.
тили: Python
Маалымат топтому: GTSRB (Германиянын жол белгилерин таануу эталону)