Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Эхлэгчдэд зориулсан мэдээллийн шинжлэх ухаан

1. Мэдрэмжийн шинжилгээ (Текстээр дамжуулан сэтгэл санааны дүн шинжилгээ)

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Эх кодыг ашиглан Data Science төслийн бүрэн хэрэгжилтийг харах боломжтой Р дахь мэдрэмжийн шинжилгээний төсөл.

Мэдрэмжийн шинжилгээ гэдэг нь эерэг эсвэл сөрөг байж болох мэдрэмж, үзэл бодлыг тодорхойлох үгсийн шинжилгээ юм. Энэ нь ангиуд нь хоёртын (эерэг ба сөрөг) эсвэл олон тооны (баяртай, ууртай, гунигтай, муухай...) байж болох ангиллын төрөл юм. Бид энэ Data Science төслийг R хэл дээр хэрэгжүүлэх бөгөөд "janeaustenR" багц дахь өгөгдлийн багцыг ашиглах болно. Бид AFINN, bing, loughran зэрэг ерөнхий зориулалтын толь бичгүүдийг ашиглаж, дотоод холболт хийж, эцэст нь үр дүнг харуулах үгийн үүл үүсгэнэ.

Хэл: R
Өгөгдлийн багц/Багц: janeoustenR

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Нийтлэлийг EDISON програм хангамжийн дэмжлэгтэйгээр орчуулсан олон брэндийн дэлгүүрүүдэд зориулсан виртуал тоноглолын өрөө хийдэгТэгээд програм хангамжийг турших.

2. Хуурамч мэдээ илрүүлэх

Эхлэгчдэд зориулсан мэдээллийн шинжлэх ухааны төсөл дээр ажиллаж ур чадвараа дараагийн түвшинд ав Python ашиглан хуурамч мэдээ илрүүлэх.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Хуурамч мэдээ гэдэг нь улс төрийн зорилгодоо хүрэхийн тулд олон нийтийн сүлжээ болон бусад цахим мэдээллийн хэрэгслээр цацагдаж буй худал мэдээлэл юм. Энэхүү Data Science төслийн санаан дээр бид Python ашиглан мэдээ бодит эсвэл хуурамч эсэхийг нарийн тодорхойлох загвар бүтээх болно. Бид TfidfVectorizer үүсгээд PassiveAggressiveClassifier ашиглан мэдээг "бодит" болон "хуурамч" гэж ангилах болно. Бид 7796×4 хэлбэрийн өгөгдлийн багцыг ашиглаж, Jupyter Lab дээр бүх зүйлийг хийх болно.

Хэл: Python

Өгөгдлийн багц/Багц: news.csv

3. Паркинсоны өвчнийг илрүүлэх

Өгөгдлийн шинжлэх ухааны төслийн санаа дээр ажиллах замаар урагшлах XGBoost ашиглан Паркинсоны өвчнийг илрүүлэх.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Бид эрүүл мэнд, үйлчилгээг сайжруулахын тулд Data Science-ийг ашиглаж эхэлсэн - хэрэв бид өвчнийг эрт үе шатанд урьдчилан таамаглаж чадвал олон давуу талтай болно. Тиймээс, энэхүү Data Science төслийн санаагаар бид Python ашиглан Паркинсоны өвчнийг хэрхэн илрүүлэх талаар сурах болно. Энэ нь хөдөлгөөнд нөлөөлж, чичрэх, хөшихөд хүргэдэг төв мэдрэлийн тогтолцооны мэдрэлийн дегенератив, дэвшилтэт өвчин юм. Энэ нь тархинд допамин үүсгэдэг мэдрэлийн эсүүдэд нөлөөлдөг бөгөөд жил бүр Энэтхэгт 1 сая гаруй хүн өвчилдөг.

Хэл: Python

Өгөгдлийн багц/Багц: UCI ML Паркинсоны мэдээллийн багц

Дунд зэргийн нарийн төвөгтэй мэдээллийн шинжлэх ухааны төслүүд

4. Ярианы сэтгэл хөдлөлийг таних

Өгөгдлийн шинжлэх ухааны жишээ төслийн бүрэн хэрэгжилтийг шалгана уу − Librosa-тай яриа таних.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Одоо янз бүрийн номын сангуудыг хэрхэн ашиглах талаар сурцгаая. Энэхүү Data Science төсөл нь яриа танихад librosa ашигладаг. SER нь ярианаас хүний ​​сэтгэл хөдлөл, нөлөөллийн төлөв байдлыг тодорхойлох үйл явц юм. Бид дуу хоолойгоороо сэтгэл хөдлөлөө илэрхийлэхийн тулд өнгө аяс, өндөр давтамжийг ашигладаг тул SER нь хамааралтай. Гэхдээ сэтгэл хөдлөл нь субьектив шинж чанартай байдаг тул аудио тайлбар хийх нь хэцүү ажил юм. Бид mfcc, chroma болон mel функцуудыг ашиглах ба сэтгэл хөдлөлийг танихад RAVDESS мэдээллийн багцыг ашиглах болно. Бид энэ загварт MLPC ангилагч үүсгэх болно.

Хэл: Python

Өгөгдлийн багц/Багц: RAVDESS мэдээллийн багц

5. Хүйс ба насыг илрүүлэх

Хамгийн сүүлийн үеийн Data Science төслөөр ажил олгогчдыг гайхшруулаарай - OpenCV ашиглан хүйс, нас илрүүлэх.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Энэ бол Python-той сонирхолтой өгөгдлийн шинжлэх ухаан юм. Зөвхөн нэг зургийг ашигласнаар та хүний ​​хүйс, насыг хэрхэн таамаглах талаар сурах болно. Үүн дээр бид танд Computer Vision болон түүний зарчмуудыг танилцуулах болно. Бид барих болно эргэлтийн мэдрэлийн сүлжээ мөн Тал Хасснер, Гил Леви нарын бэлтгэсэн загваруудыг Adience мэдээллийн багц дээр ашиглах болно. Бид замдаа .pb, .pbtxt, .prototxt болон .caffemodel файлуудыг ашиглах болно.

Хэл: Python

Өгөгдлийн багц/Багц: Адиенс

6. Uber мэдээллийн шинжилгээ

Мэдээллийн шинжлэх ухааны төслийн бүрэн хэрэгжилтийг эх кодоор харах − R дахь Uber Data Analysis Project.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Энэ бол ggplot2 бүхий өгөгдлийн дүрслэлийн төсөл бөгөөд бид R болон түүний сангуудыг ашиглаж, янз бүрийн параметрүүдийг шинжлэх болно. Бид Uber Pickups New York өгөгдлийн багцыг ашиглаж, жилийн өөр өөр цаг хугацааны хувьд дүрслэлийг бий болгоно. Энэ нь үйлчлүүлэгчийн аялалд цаг хугацаа хэрхэн нөлөөлдөгийг хэлж өгдөг.

Хэл: R

Өгөгдлийн багц/Багц: Нью Йорк хотын Uber Pickups мэдээллийн багц

7. Жолооч нойрмог байдлыг илрүүлэх

Top Data Science төсөл дээр ажиллаж ур чадвараа дээшлүүлээрэй - OpenCV & Keras бүхий нойрмоглолт илрүүлэх систем.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Нойрмог жолоо барих нь маш аюултай бөгөөд жолооч нар жолоо барьж байхдаа унтсанаас болж жил бүр мянга орчим осол гардаг. Энэхүү Python төслийн хүрээнд бид нойрмог жолооч нарыг илрүүлж, дохио өгөх системийг бий болгоно.

Энэ төслийг Keras болон OpenCV ашиглан хэрэгжүүлдэг. Бид OpenCV ашиглан нүүр, нүдийг илрүүлэх ба Керасын тусламжтайгаар гүн мэдрэлийн сүлжээний аргыг ашиглан нүдний төлөвийг (Нээлттэй эсвэл Хаалттай) ангилах болно.

8. Чатбот

Python ашиглан чатбот бүтээж, карьертаа нэг алхам урагшлаарай - NLTK & Keras-тай чатбот.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Чатбот бол бизнесийн салшгүй хэсэг юм. Олон бизнес эрхлэгчид үйлчлүүлэгчиддээ үйлчилгээ үзүүлэх ёстой бөгөөд тэдэнд үйлчлэхийн тулд маш их хүн хүч, цаг хугацаа, хүчин чармайлт шаардагдана. Чатбот нь үйлчлүүлэгчдийн асуудаг нийтлэг асуултуудад хариулснаар харилцагчийн харилцааны ихэнх хэсгийг автоматжуулж чадна. Үндсэндээ хоёр төрлийн чатбот байдаг: Domain-specific and Open-domain. Домэйн тусгай чатботыг ихэвчлэн тодорхой асуудлыг шийдвэрлэхэд ашигладаг. Тиймээс та өөрийн салбарт үр дүнтэй ажиллахын тулд үүнийг тохируулах хэрэгтэй. Нээлттэй домэйн чатботуудаас ямар ч асуулт асууж болох тул тэднийг сургахад асар их мэдээлэл шаардагдана.

Өгөгдлийн багц: Json файлын зорилго

Хэл: Python

Өгөгдлийн шинжлэх ухааны дэвшилтэт төслүүд

9. Зургийн тайлбар үүсгэгч

Төслийн бүрэн хэрэгжилтийг эх кодын хамт шалгана уу CNN & LSTM бүхий зургийн тайлбар үүсгэгч.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Зурганд юу байгааг дүрслэх нь хүний ​​хувьд хялбар ажил боловч компьютерийн хувьд зураг нь пиксел бүрийн өнгөний утгыг илэрхийлэх тоонуудын цуглуулга л юм. Энэ бол компьютерийн хувьд хэцүү ажил юм. Зураг дээр юу байгааг ойлгож, дараа нь байгалийн хэлээр тайлбар хийх (жишээлбэл, англи хэл) нь бас нэг хэцүү ажил юм. Энэхүү төсөл нь зургийн тайлбар үүсгэгчийг бий болгохын тулд давтагдах мэдрэлийн сүлжээ (LSTM) бүхий Convolutional Neural Network (CNN)-ийг хэрэгжүүлдэг гүнзгий суралцах арга техникийг ашигладаг.

Өгөгдлийн багц: Flickr 8K

Хэл: Python

Хүрээ: Керас

10. Зээлийн картын луйврыг илрүүлэх

Өгөгдлийн шинжлэх ухааны төслийн санаа дээр ажиллаж чадах бүхнээ хий - машин сургалтын тусламжтайгаар зээлийн картын луйврыг илрүүлэх.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Одоо та арга, ойлголтыг ойлгож эхэлсэн. Мэдээллийн шинжлэх ухааны дэвшилтэт төслүүд рүү шилжье. Энэ төсөлд бид R хэлийг алгоритмтай ашиглах болно шийдвэрийн мод, логистик регресс, хиймэл мэдрэлийн сүлжээ болон градиент нэмэгдүүлэх ангилагч. Бид зээлийн картын гүйлгээг хуурамч, жинхэнэ гэж ангилахын тулд картын гүйлгээний мэдээллийн багцыг ашиглана. Бид өөр өөр загваруудыг сонгож, гүйцэтгэлийн муруйг бий болгоно.

Хэл: R

Өгөгдлийн багц/Багц: Картын гүйлгээний мэдээллийн багц

11. Киноны зөвлөмжийн систем

Мэдээллийн шинжлэх ухааны шилдэг төслийн хэрэгжилтийг Source Code ашиглан судлаарай - R хэл дээрх киноны зөвлөмжийн систем

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Энэхүү Data Science төсөлд бид R-г ашиглан киноны зөвлөмжийг машин сургалтаар хэрэгжүүлэх болно. Зөвлөмжийн систем нь бусад хэрэглэгчдийн сонголт, хайлтын түүх дээр үндэслэн шүүлтүүрийн аргаар хэрэглэгчдэд санал илгээдэг. Хэрэв A, B нь "Гэртээ ганцаараа", Б нь "Mean Girls"-д дуртай бол та А-г санал болгож болно - тэдэнд ч таалагдаж магадгүй юм. Энэ нь үйлчлүүлэгчдэд платформтой харилцах боломжийг олгодог.

Хэл: R

Өгөгдлийн багц/Багц: MovieLens мэдээллийн багц

12. Хэрэглэгчийн сегментчилэл

Мэдээллийн шинжлэх ухааны төслөөр ажил олгогчдод сэтгэгдэл төрүүлээрэй (эх кодыг оруулаад) - Машин сургалтын тусламжтайгаар хэрэглэгчийн сегментчилэл.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Худалдан авагчийн сегментчилэл нь алдартай програм юм хяналтгүй суралцах. Кластерийг ашиглан компаниуд боломжит хэрэглэгчийн баазтай ажиллахын тулд хэрэглэгчийн сегментийг тодорхойлдог. Тэд үйлчлүүлэгчдийг хүйс, нас, сонирхол, зарцуулалтын зуршил гэх мэт нийтлэг шинж чанараар нь бүлэг болгон хуваадаг бөгөөд ингэснээр тэд бүтээгдэхүүнээ бүлэг болгонд үр дүнтэй борлуулах боломжтой болно. Бид ашиглах болно К-нь бөөгнөрөх гэсэн утгатай, түүнчлэн хүйс, насаар хуваарилалтыг төсөөлөх. Дараа нь бид тэдний жилийн орлого, зарлагын түвшинд дүн шинжилгээ хийдэг.

Хэл: R

Өгөгдлийн багц/Багц: Mall_Customers өгөгдлийн багц

13. Хөхний хорт хавдрын ангилал

Python хэл дээрх Data Science төслийн бүрэн хэрэгжилтийг харна уу Гүнзгий сургалтыг ашиглан хөхний хорт хавдрын ангилал.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Мэдээллийн шинжлэх ухааны анагаах ухааны хувь нэмэр рүү буцахдаа Python ашиглан хөхний хорт хавдрыг хэрхэн илрүүлэх талаар сурцгаая. Бид IDC_regular мэдээллийн багцыг ашиглан хөхний хорт хавдрын хамгийн түгээмэл хэлбэр болох инвазив сувгийн хорт хавдарыг илрүүлэх болно. Энэ нь сүүний сувагт хөгжиж, сувгийн гаднах хөхний фиброз эсвэл өөхний эдэд нэвчдэг. Энэхүү мэдээлэл цуглуулах шинжлэх ухааны төслийн санааг бид ашиглах болно Гүн сурах болон ангиллын Керасын номын сан.

Хэл: Python

Өгөгдлийн багц/Багц: IDC_regular

14. Замын хөдөлгөөний тэмдгийг таних

Өгөгдлийн шинжлэх ухааны төслийг хэрэгжүүлснээр өөрөө жолооддог машины технологийн нарийвчлалд хүрэх CNN ашиглан замын хөдөлгөөний тэмдэг таних нээлттэй эх сурвалж.

Мэдээллийн шинжлэх ухааны ур чадварыг сайжруулах 14 нээлттэй эхийн төсөл (хялбар, хэвийн, хэцүү)

Замын тэмдэг, замын хөдөлгөөний дүрэм нь жолооч бүрийг ослоос урьдчилан сэргийлэхэд маш чухал юм. Дүрмийг дагаж мөрдөхийн тулд эхлээд замын тэмдэг ямар харагддагийг ойлгох хэрэгтэй. Хүн аливаа тээврийн хэрэгсэл жолоодох эрх өгөхөөс өмнө замын бүх тэмдгийг мэдэж байх ёстой. Харин одоо автомат жолоодлоготой тээврийн хэрэгслийн тоо нэмэгдэж, ойрын ирээдүйд хүн өөрөө машин жолоодохоо болино. Замын тэмдэг таних төсөлд та ямар нэгэн программ нь дүрсийг оруулснаар замын тэмдгийн төрлийг хэрхэн таних талаар суралцах болно. Германы Замын тэмдгийг таних лавлагааны өгөгдлийн багц (GTSRB) нь замын хөдөлгөөний тэмдэг хамаарах ангиллыг таних гүн мэдрэлийн сүлжээг бий болгоход ашиглагддаг. Мөн бид програмтай харьцах энгийн GUI үүсгэж байна.

Хэл: Python

Өгөгдлийн багц: GTRB (Германы замын тэмдгийг таних жишиг)

Цааш унших

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх