Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Жаңы баштагандар үчүн маалымат илими

1. Сезимди талдоо (Текст аркылуу сезимди талдоо)

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Булак кодун колдонуу менен Data Science долбоорунун толук аткарылышын текшериңиз - Сезимдерди талдоо долбоору Р.

Сезим талдоо - бул оң же терс болушу мүмкүн болгон сезимдерди жана пикирлерди аныктоо үчүн сөздөрдү талдоо. Бул класстар бинардык (оң жана терс) же көптүк (бактылуу, ачуулуу, кайгылуу, жаман...) боло турган классификациянын бир түрү. Бул Data Science долбоорун R ичинде ишке ашырабыз жана берилиштер топтомун "janeaustenR" пакетинде колдонобуз. Биз AFINN, bing жана loughran сыяктуу жалпы максаттагы сөздүктөрдү колдонобуз, ички кошулууну аткарабыз жана аягында жыйынтыкты көрсөтүү үчүн сөз булутун түзөбүз.

тили: R
Берилиштер топтому/пакет: janeaustenR

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Макала EDISON Software компаниясынын колдоосу менен которулган көп бренд дүкөндөр үчүн виртуалдык бөлмөлөрдү түзөт, дагы программалык камсыздоону сынайт.

2. Фейк жаңылыктарды аныктоо

Жаңы баштагандар үчүн Data Science долбоорунун үстүндө иштөө менен жөндөмүңүздү кийинки деңгээлге көтөрүңүз - Python менен жалган жаңылыктарды аныктоо.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Фейк жаңылыктар – бул саясий максаттарга жетүү үчүн социалдык тармактар ​​жана башка интернет ЖМКлар аркылуу таратылган жалган маалымат. Бул Data Science долбоорунун идеясында биз Pythonду жаңы окуянын чыныгы же жасалма экенин так аныктай ала турган моделди куруу үчүн колдонобуз. Биз TfidfVectorizer түзөбүз жана жаңылыктарды “чыныгы” жана “жалган” деп классификациялоо үчүн PassiveAggressiveClassifier колдонобуз. Биз 7796×4 формасындагы берилиштер топтомун колдонобуз жана бардыгын Jupyter лабораториясында иштетебиз.

тили: Python

Берилиштер топтому/пакет: news.csv

3. Паркинсон оорусун аныктоо

Сиздин Data Science Долбоор идеяңыз менен алдыга жылыңыз - XGBoost аркылуу Паркинсон оорусун аныктоо.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Биз саламаттыкты сактоону жана кызматтарды жакшыртуу үчүн Data Scienceти колдоно баштадык – эгерде ооруну алгачкы этапта алдын ала билсек, анда биз көптөгөн артыкчылыктарга ээ болобуз. Ошентип, бул Data Science долбоорунун идеясында биз Python аркылуу Паркинсон оорусун кантип аныктоону үйрөнөбүз. Бул борбордук нерв системасынын нейродегенеративдик, прогрессивдүү оорусу, кыймылга таасирин тийгизип, титирөөнү жана катуулукту пайда кылат. Бул мээдеги дофаминди өндүрүүчү нейрондорго таасир этет жана жыл сайын Индияда 1 миллиондон ашык адамга таасир этет.

тили: Python

Берилиштер топтому/пакет: UCI ML Parkinsons маалымат топтому

Орточо татаалдыктагы Data Science долбоорлору

4. Сүйлөө сезимдерин таануу

Data Science мисалы долбоорунун толук ишке ашырылышын текшериңиз - Librosa аркылуу кеп таануу.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Эми ар кандай китепканаларды кантип колдонууну үйрөнөлү. Бул Data Science долбоору кепти таануу үчүн librosa колдонот. SER – сөздөн адамдын эмоцияларын жана аффективдүү абалын аныктоо процесси. Үнүбүз менен эмоцияны билдирүү үчүн тонду жана бийиктикти колдонгондуктан, SER актуалдуу. Бирок эмоциялар субъективдүү болгондуктан, аудио аннотациялоо татаал иш. Биз mfcc, chroma жана mel функцияларын колдонобуз жана эмоцияларды таануу үчүн RAVDESS маалымат топтомун колдонобуз. Биз бул модель үчүн MLPC классификаторун түзөбүз.

тили: Python

Берилиштер топтому/пакет: RAVDESS маалымат топтому

5. Жынысты жана жашты аныктоо

Иш берүүчүлөрдү акыркы Data Science долбоору менен таң калтырыңыз - OpenCV аркылуу жынысын жана жашын аныктоо.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Бул Python менен кызыктуу маалымат илими. Бир эле сүрөттү колдонуу менен сиз адамдын жынысын жана жашын алдын ала айтууну үйрөнөсүз. Бул жерде биз сизди Computer Vision жана анын принциптери менен тааныштырабыз. Биз курабыз конволюциялык нейрон тармагы жана Adience маалымат топтомунда Тал Хасснер жана Гил Леви үйрөткөн моделдерди колдонот. Жолдо биз кээ бир .pb, .pbtxt, .prototxt жана .caffemodel файлдарын колдонобуз.

тили: Python

Берилиштер топтому/пакет: Adience

6. Uber маалыматтарын талдоо

Булак коду менен Data Science долбоорунун толук аткарылышын текшериңиз - Uber маалыматтарын талдоо долбоору Р.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Бул ggplot2 менен маалыматтарды визуализациялоо долбоору, анда биз R жана анын китепканаларын колдонуп, ар кандай параметрлерди талдайбыз. Биз Uber Pickups New York City маалымат топтомун колдонуп, жылдын ар кандай убакыт алкактары үчүн визуализацияларды түзөбүз. Бул бизге убакыт кардарлардын саякатына кандай таасир этээрин айтып берет.

тили: R

Берилиштер топтому/пакет: Нью-Йорктогу Uber Pickups маалымат топтому

7. Айдоочунун уйкулуулугун аныктоо

Top Data Science долбоорунда иштөө менен жөндөмүңүздү өркүндөтүңүз - OpenCV & Keras менен уйкучулукту аныктоо системасы.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Уйкулуу айдоо өтө кооптуу жана жыл сайын айдоочулардын айдап баратып уктап калышынан миңге жакын жол кырсыгы катталат. Бул Python долбоорунда биз уйкулуу айдоочуларды аныктай турган системаны түзөбүз жана аларды аудио сигнал менен эскертебиз.

Бул долбоор Keras жана OpenCV аркылуу ишке ашырылат. Биз бетти жана көздү аныктоо үчүн OpenCV колдонобуз жана Керас менен терең нейрон тармагынын ыкмаларын колдонуу менен көздүн абалын (Ачык же Жабык) классификациялайбыз.

8. Чатбот

Python менен чатбот түзүп, карьераңызда алдыга кадам таштаңыз - NLTK жана Keras менен чатбот.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Чатботтор бизнестин ажырагыс бөлүгү болуп саналат. Көптөгөн ишканалар өз кардарларына кызматтарды сунуш кылышы керек жана аларды тейлөө үчүн көп жумушчу күчү, убакыт жана күч талап кылынат. Чатботтор кардарлар берген кээ бир жалпы суроолорго жооп берүү менен кардарлардын өз ара аракеттенүүсүн автоматташтыра алат. Негизинен чатботтордун эки түрү бар: Доменге тиешелүү жана Ачык домен. Доменге тиешелүү чатбот көбүнчө белгилүү бир маселени чечүү үчүн колдонулат. Демек, сиз өз тармагында натыйжалуу иштөө үчүн аны өзгөчөлөштүрүү керек. Ачык домендик чатботторго ар кандай суроолорду берсе болот, андыктан аларды окутуу чоң көлөмдөгү маалыматтарды талап кылат.

Маалымат топтому: Json файлы

тили: Python

Advanced Data Science долбоорлору

9. Image Caption Generator

Булак коду менен долбоордун толук ишке ашырылышын текшерүү - CNN & LSTM менен сүрөттүн коштоо генератору.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Сүрөттөгү нерсени сүрөттөө адамдар үчүн оңой иш, ал эми компьютерлер үчүн сүрөт бул ар бир пикселдин түс маанисин билдирген сандардын сериясы. Бул компьютерлер үчүн кыйын иш. Сүрөттө эмне бар экенин түшүнүү жана андан кийин табигый тилде (мисалы, англисче) сүрөттөмө түзүү дагы бир татаал маселе. Бул долбоор терең үйрөнүү ыкмаларын колдонот, анда биз сүрөттөлүштүн сүрөттөмө генераторун түзүү үчүн Кайталануучу нейрон тармагы (LSTM) менен Convolutional Neural Network (CNN) ишке ашырабыз.

Маалымат топтому: Flickr 8K

тили: Python

Алкак: кызыл

10. Кредиттик карта боюнча алдамчылыкты аныктоо

Data Science долбоору идеяңыздын үстүндө иштеп жатып, колуңуздан келгендин баарын кылыңыз - машина үйрөнүү аркылуу кредиттик карта алдамчылыгын аныктоо.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Азырынча сиз ыкмаларды жана түшүнүктөрдү түшүнө баштадыңыз. Келгиле, кээ бир өнүккөн маалымат илими долбоорлоруна өтөбүз. Бул долбоордо биз R тилин сыяктуу алгоритмдер менен колдонобуз чечим дарактары, логистикалык регрессия, жасалма нейрон тармактары жана градиентти жогорулатуу классификатору. Биз кредиттик карта транзакцияларын алдамчылык же чыныгы деп классификациялоо үчүн карта транзакцияларынын маалымат топтомун колдонобуз. Биз алар үчүн ар кандай моделдерди тандап, аткаруу ийри сызыктарын түзөбүз.

тили: R

Берилиштер топтому/пакет: Карта транзакцияларынын маалымат топтому

11. Кинону сунуштоо системасы

Булак коду менен мыкты Data Science долбоорун ишке ашырууну изилдөө - R тилиндеги кино сунуштоо системасы

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Бул Data Science долбоорунда биз машинаны үйрөнүү аркылуу тасманын сунуштарын ишке ашыруу үчүн R колдонобуз. Сунуштоо системасы башка колдонуучулардын каалоолоруна жана серептөө тарыхына негизделген чыпкалоо процесси аркылуу колдонуучуларга сунуштарды жөнөтөт. Эгер А менен В "Үйдө жалгыз" дегенди жактырса, ал эми В "Меан кыздарды" жактырса, анда сиз А сунуштасаңыз болот - аларга да жагат. Бул кардарларга платформа менен өз ара аракеттенүүгө мүмкүндүк берет.

тили: R

Берилиштер топтому/пакет: MovieLens маалымат топтому

12. Кардарларды сегменттөө

Иш берүүчүлөрдү Data Science долбоору менен таң калтырыңыз (анын ичинде булак коду) - Машина үйрөнүү аркылуу кардарларды сегменттөө.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Сатып алуучуну сегменттөө популярдуу колдонмо болуп саналат көзөмөлсүз окутуу. Кластерлөө аркылуу компаниялар потенциалдуу колдонуучу базасын максаттуу үчүн кардарлардын сегменттерин аныкташат. Алар кардарларды жынысы, жашы, кызыкчылыктары жана сарптоо адаттары сыяктуу жалпы өзгөчөлүктөргө жараша топторго бөлүшөт, ошондуктан алар өз өнүмдөрүн ар бир топко натыйжалуу сатууга мүмкүнчүлүк алышат. Биз колдонобуз К-кластерлөө дегенди билдирет, ошондой эле жынысы жана жашы боюнча бөлүштүрүүнү элестетиңиз. Андан кийин алардын жылдык киреше жана чыгаша деңгээлин анализдейбиз.

тили: R

Берилиштер топтому/пакет: Mall_Customers маалымат топтому

13. Эмчек рагы классификациясы

Python-да Data Science долбоорунун толук аткарылышын текшериңиз Терең үйрөнүүнүн жардамы менен эмчек рагы классификациясы.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Маалымат илиминин медициналык салымына кайтып келсек, келгиле, Python аркылуу эмчек рагын кантип аныктоону үйрөнөлү. Биз IDC_regular маалымат топтомун инвазивдүү каналдык карциноманы, эмчек рагынын эң кеңири тараган түрүн аныктоо үчүн колдонобуз. Ал сүт түтүкчөлөрүндө өнүгүп, каналдын сыртындагы жипчелүү же майлуу эмчек тканына кирип кетет. Бул маалыматтарды чогултуу боюнча илимий долбоордун идеясын колдонобуз Deep Learning жана классификация үчүн Керас китепканасы.

тили: Python

Берилиштер топтому/пакет: IDC_regular

14. Жол белгилерин таануу

Data Science долбоору менен өзүн-өзү башкаруу технологиясында тактыкка жетишүү CNN аркылуу жол белгилерин таануу ачык булак.

Сиздин Data Science көндүмдөрүн жакшыртуу үчүн 14 ачык булак долбоорлору (жеңил, кадимки, кыйын)

Жол белгилери жана жол эрежелери ар бир айдоочу үчүн кырсыктарды болтурбоо үчүн абдан маанилүү. Эрежени сактоо үчүн алгач жол белгиси кандай болорун түшүнүү керек. Кандайдыр бир транспорт каражатын айдоо укугуна ээ болгонго чейин адам бардык жол белгилерин үйрөнүшү керек. Бирок азыр автономдуу унаалардын саны өсүүдө жана жакынкы келечекте адам өз алдынча машина айдабай калат. Жол белгилерин таануу долбоорунда сиз программа жол белгилеринин түрүн кантип тааный аларын үйрөнөсүз. Германиянын Traffic Sign Recognition Benchmark (GTSRB) маалымат топтому жол белгиси таандык классты таануу үчүн терең нейрон тармагын куруу үчүн колдонулат. Биз ошондой эле колдонмо менен иштешүү үчүн жөнөкөй GUI түзөбүз.

тили: Python

Маалымат топтому: GTSRB (Германиянын жол белгилерин таануу эталону)

Кененирээк окуу

Source: www.habr.com

Комментарий кошуу