د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

د پیل کونکو لپاره د معلوماتو ساینس

1. د احساساتو تحلیل (د متن له لارې د مزاج تحلیل)

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

د سرچینې کوډ - په کارولو سره د ډیټا ساینس پروژې بشپړ پلي کول وګورئ د احساس تحلیل پروژه په R.

د احساساتو تحلیل د احساساتو او نظرونو پیژندلو لپاره د کلمو تحلیل دی، کوم چې مثبت یا منفي وي. دا د ډلبندۍ یو ډول دی چیرې چې ټولګي بائنری (مثبت او منفي) یا جمع (خوشحاله، ناراضه، غمجن، بد ...) کیدی شي. موږ به دا د ډیټا ساینس پروژه په R کې پلي کړو او ډیټاسیټ به په "janeaustenR" بسته کې وکاروو. موږ به د عمومي هدف لغتونه لکه AFINN، bing او loughran وکاروو، یو داخلي ګډون وکړو او په پای کې به د نتیجې د ښودلو لپاره د کلاؤډ کلمه جوړه کړو.

موضوع: R
ډیټاسیټ/پیکیج: janeoustenR

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

مقاله د EDISON سافټویر په ملاتړ ژباړل شوې ، کوم چې د څو برانډ پلورنځیو لپاره مجازی فټینګ خونې جوړوياو همدارنګه سافټویر ازموي.

2. د جعلي خبرونو کشف

د پیل کونکو لپاره د ډیټا ساینس پروژې په کار کولو سره خپل مهارتونه بلې کچې ته ورسوئ - د Python سره د جعلي خبرونو کشف.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

جعلي خبرونه هغه غلط معلومات دي چې د سیاسي اهدافو د ترلاسه کولو لپاره د ټولنیزو رسنیو او نورو آنلاین رسنیو له لارې خپریږي. د دې ډیټا ساینس پروژې مفکورې کې، موږ به د Python څخه کار واخلو ترڅو یو ماډل جوړ کړو چې په سمه توګه معلومه کړي چې ایا خبرونه ریښتیا دي که جعلي. موږ به یو TfidfVectorizer جوړ کړو او PassiveAggressiveClassifier به وکاروو ترڅو خبرونه په "ریښتیني" او "جعلي" کې طبقه بندي کړو. موږ به د 7796 × 4 شکل ډیټاسیټ وکاروو او هرڅه به په Jupyter Lab کې ترسره کړو.

موضوع: Python

ډیټاسیټ/پیکیج: news.csv

3. د پارکینسن د ناروغۍ کشف کول

د ډیټا ساینس پروژې نظریه - باندې کار کولو سره مخ په وړاندې لاړشئ د XGBoost سره د پارکینسن ناروغۍ کشف.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

موږ د روغتیا پاملرنې او خدماتو د ښه کولو لپاره د ډیټا ساینس کارول پیل کړي - که موږ په لومړي مرحله کې د ناروغۍ وړاندوینه وکړو، نو موږ به ډیرې ګټې ولرو. نو، د دې ډیټا ساینس پروژې نظریه کې، موږ به زده کړو چې څنګه د Python په کارولو سره د پارکینسن ناروغۍ کشف کړو. دا د مرکزي عصبي سیسټم یو عصبي ، پرمختللی ناروغي ده چې په حرکت اغیزه کوي او د لړزیدو او سختیدو لامل کیږي. دا په مغز کې د ډاپامین تولیدونکي نیورون اغیزه کوي، او هر کال، دا په هند کې له 1 ملیون څخه ډیر خلک اغیزمن کوي.

موضوع: Python

ډیټاسیټ/پیکیج: د UCI ML پارکینسن ډیټاسیټ

د متوسط ​​​​پیچلتیا ډیټا ساینس پروژې

4. د وینا احساساتو پیژندنه

د ډیټا ساینس نمونې پروژې بشپړ پلي کول چیک کړئ - د لیبروسا سره د وینا پیژندنه.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

اوس راځئ چې د مختلفو کتابتونونو کارولو څرنګوالی زده کړو. دا د ډیټا ساینس پروژه د وینا پیژندنې لپاره لیبروسا کاروي. SER د وینا څخه د انساني احساساتو او اغیزمنو حالتونو پیژندلو پروسه ده. ځکه چې موږ د خپل غږ سره د احساساتو څرګندولو لپاره سر او پیچ کاروو، SER اړونده ده. مګر څنګه چې احساسات موضوعي دي، د آډیو تشریح یو ستونزمن کار دی. موږ به د mfcc، کروما او میل افعال وکاروو او د RAVDESS ډیټاسیټ به د احساساتو پیژندلو لپاره وکاروو. موږ به د دې ماډل لپاره MLPC کټګوري جوړ کړو.

موضوع: Python

ډیټاسیټ/پیکیج: د RAVDESS ډیټاسیټ

5. د جندر او عمر معلومول

د وروستي ډیټا ساینس پروژې سره کارګمارونکي متاثر کړئ - د OpenCV سره د جندر او عمر کشف.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

دا د Python سره په زړه پوري ډیټا ساینس دی. یوازې د یو انځور په کارولو سره، تاسو به زده کړئ چې څنګه د یو شخص جنسیت او عمر وړاندوینه وکړئ. پدې کې به موږ تاسو ته د کمپیوټر ویژن او د هغې اصول معرفي کړو. موږ به جوړ کړو convolutional عصبي شبکه او د اډینس ډیټاسیټ کې به د تال هاسنر او ګیل لیوي لخوا روزل شوي ماډلونه وکاروي. موږ به د لارې په اوږدو کې ځینې .pb، .pbtxt، .prototxt او .caffemodel فایلونه وکاروو.

موضوع: Python

ډیټاسیټ/پیکیج: ایډینس

6. د اوبر ډیټا تحلیل

د سرچینې کوډ - سره د ډیټا ساینس پروژې بشپړ پلي کول وګورئ په R کې د Uber ډیټا تحلیل پروژه.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

دا د ggplot2 سره د معلوماتو لید پروژه ده په کوم کې چې موږ به R او د هغې کتابتونونه وکاروو او مختلف پیرامیټونه تحلیل کړو. موږ به د Uber Pickups نیویارک ډیټاسیټ وکاروو او د کال مختلف وخت چوکاټونو لپاره لیدونه رامینځته کړو. دا موږ ته وایی چې وخت څنګه د پیرودونکو سفر اغیزه کوي.

موضوع: R

ډیټاسیټ/پیکیج: د نیویارک ښار ډیټاسیټ کې Uber Pickups

7. د موټر چلوونکي د خوب معلومول

د غوره ډیټا ساینس پروژې په کار کولو سره خپل مهارتونه لوړ کړئ - د OpenCV او Keras سره د خوب کشف سیسټم.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

په خوب کې موټر چلول خورا خطرناک دي، هر کال شاوخوا زر حادثې د موټر چلوونکو د خوب کولو له امله رامنځته کیږي. د Python په دې پروژه کې، موږ به یو داسې سیسټم جوړ کړو چې کولی شي د خوب چلونکي کشف کړي او د بیپ سره خبرداری ورکړي.

دا پروژه د Keras او OpenCV په کارولو سره پلي کیږي. موږ به د مخ او سترګو د موندلو لپاره OpenCV وکاروو او د Keras په مرسته به د ژورې عصبي شبکې میتودونو په کارولو سره د سترګو حالت (خلاص یا بند) طبقه بندي کړو.

8. چیټ بوټ

د Python سره چیټ بوټ جوړ کړئ او په خپل مسلک کې یو ګام مخکې واخلئ - د NLTK او Keras سره چیټ بوټ.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

چیټ بوټ د سوداګرۍ لازمي برخه ده. ډیری سوداګری باید خپلو پیرودونکو ته خدمتونه وړاندې کړي او دا د دوی خدمت کولو لپاره ډیر ځواک ، وخت او هڅې ته اړتیا لري. چیټ بوټس کولی شي د پیرودونکو ډیری پوښتنو ته ځواب ویلو سره د پیرودونکي متقابل عمل اتومات کړي. اساسا دوه ډوله چیټ بوټونه شتون لري: د ډومین ځانګړي او خلاص ډومین. د ډومین ځانګړي چیټ بوټ اکثرا د یوې ځانګړې ستونزې حل کولو لپاره کارول کیږي. پدې توګه ، تاسو اړتیا لرئ دا تنظیم کړئ ترڅو ستاسو په ساحه کې مؤثره کار وکړي. د خلاص ډومین چیٹ بوټونه هره پوښتنه کیدی شي ، نو د دوی روزنه خورا لوی ډیټا ته اړتیا لري.

د معلوماتو ترتیب: د ارادې json فایل

موضوع: Python

د ډیټا ساینس پرمختللي پروژې

9. د انځور کیپشن جنراتور

د سرچینې کوډ - سره د پروژې بشپړ پلي کول وګورئ د CNN او LSTM سره د عکس کیپشن جنریټر.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

په انځور کې د څه شی تشریح کول د انسانانو لپاره یو اسانه کار دی، مګر د کمپیوټر لپاره، یو انځور یوازې د شمیرو مجموعه ده چې د هر پکسل رنګ ارزښت څرګندوي. دا د کمپیوټر لپاره یو ستونزمن کار دی. په انځور کې د څه شی په اړه پوهیدل او بیا د طبیعي ژبې تشریح (د بیلګې په توګه انګلیسي) رامینځته کول یو بل ستونزمن کار دی. دا پروژه د ژورې زده کړې تخنیکونه کاروي په کوم کې چې موږ د عکس تشریح جنریټر رامینځته کولو لپاره د تکرار عصبي شبکې (LSTM) سره د Convolutional Neural Network (CNN) پلي کوو.

د معلوماتو ترتیب: فلکر 8K

موضوع: Python

چوکاټ: کیراس

10. د کریډیټ کارت درغلۍ کشف

د ډیټا ساینس پروژې نظریه - باندې کار کولو سره خپله غوره هڅه وکړئ د ماشین زده کړې سره د کریډیټ کارت درغلۍ کشف.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

اوس تاسو د میتودونو او مفاهیمو په پوهیدو پیل کړی. راځئ چې د ډیټا ساینس ځینې پرمختللي پروژو ته لاړ شو. پدې پروژه کې به موږ د R ژبه د الګوریتمونو سره کاروو لکه د پریکړې ونې، لوژستیک ریګریشن، مصنوعي عصبي شبکې او د تدریجي وده کونکي طبقه بندي. موږ به د کریډیټ کارت لیږدونه د جعلي او ریښتیني په توګه طبقه بندي کولو لپاره د کارت لیږد ډیټا سیټ وکاروو. موږ به د دوی لپاره مختلف ماډلونه وټاکو او د فعالیت منحني جوړ کړو.

موضوع: R

ډیټاسیټ/پیکیج: د کارت لیږد ډیټاسیټ

11. د فلم د سپارښتنې سیسټم

د سرچینې کوډ سره د ډیټا ساینس غوره پروژې پلي کول وپلټئ - په R کې د فلم د سپارښتنې سیسټم

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

د ډیټا ساینس په دې پروژه کې، موږ به د ماشین زده کړې له لارې د فلم سپارښتنې اجرا کولو لپاره R وکاروو. د سپارښتنې سیسټم د نورو کاروونکو غوره توبونو او د لټون کولو تاریخ پراساس د فلټر کولو پروسې له لارې کاروونکو ته وړاندیزونه لیږي. که A او B یوازې کور خوښوي، او B مینې نجونې خوښوي، نو تاسو کولی شئ د A وړاندیز وکړئ - ممکن دوی هم خوښ کړي. دا پیرودونکو ته اجازه ورکوي چې د پلیټ فارم سره اړیکه ونیسي.

موضوع: R

ډیټاسیټ/پیکیج: د فلم لینس ډیټاسیټ

12. د پیرودونکو ویش

د ډیټا ساینس پروژې سره کارمندان متاثر کړئ (د سرچینې کوډ په شمول) - د ماشین زده کړې سره د پیرودونکي قطع کول.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

د پیرودونکي قطع کول یو مشهور غوښتنلیک دی بې څارنې زده کړه. د کلستر کولو په کارولو سره، شرکتونه د احتمالي کاروونکي بیس سره کار کولو لپاره د پیرودونکو برخې تعریفوي. دوی مشتریان په ګروپونو ویشي لکه د جندر، عمر، ګټو او مصرف کولو عادتونو له مخې، ترڅو دوی وکولی شي په اغیزمنه توګه هر ګروپ ته خپل محصولات بازار موندنه وکړي. موږ به وکاروو د K- معنی د کلستر کول، په بیله بیا د جنس او ​​عمر له مخې ویش لید. بیا موږ د دوی کلني عاید او لګښتونه تحلیل کوو.

موضوع: R

ډیټاسیټ/پیکیج: Mall_Customers dataset

13. د سینې سرطان طبقه بندي

په Python - کې د ډیټا ساینس پروژې بشپړ پلي کول وګورئ د سینې سرطان طبقه بندي د ژورې زده کړې په کارولو سره.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

د ډیټا ساینس طبي مرستې ته بیرته راګرځیدل ، راځئ چې د Python سره د سینې سرطان کشف کولو څرنګوالي زده کړو. موږ به د IDC_regular ډیټاسیټ څخه کار واخلو ترڅو د برید کونکي ډیکټل کارسنوما کشف کړي ، د سینې سرطان ترټولو عام ډول. دا د شیدو په نلونو کې وده کوي، د نسج څخه بهر د مور د غدې فایبر یا غوړ نسج ته ننوځي. پدې ډیټا راټولولو کې د ساینس پروژې مفکوره ، موږ به وکاروو ژوره زده کړه او د طبقه بندي لپاره د Keras کتابتون.

موضوع: Python

ډیټاسیټ/پیکیج: IDC_regular

14. د ترافیکي نښو پیژندنه

د ډیټا ساینس پروژې سره د ځان چلولو موټر ټیکنالوژۍ کې دقیقیت ترلاسه کول د CNN په کارولو سره د ترافیک نښه پیژندنه خلاص سرچینه.

د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت)

د سړک نښې او ترافیکي قواعد د هر موټر چلوونکي لپاره خورا مهم دي ترڅو د ترافیکي پیښو مخه ونیول شي. د قانون د تعقیب لپاره، تاسو باید لومړی پوه شئ چې د سړک نښه څه ډول ښکاري. یو شخص باید مخکې له دې چې د موټر چلولو حق ورکړل شي د سړک ټولې نښې زده کړي. مګر اوس د خپلواکو موټرو شمیر مخ په ډیریدو دی، او په نږدې راتلونکي کې به یو څوک نور په خپل ځان موټر ونه چلوي. د سړک نښان پیژندنې پروژه کې، تاسو به زده کړئ چې څنګه یو برنامه د ان پټ په توګه د عکس په اخیستلو سره د سړک نښې پیژندل کیدی شي. د آلمان د سړک نښې پیژندنې حوالې ډیټاسیټ (GTSRB) د ژور عصبي شبکې رامینځته کولو لپاره کارول کیږي ترڅو هغه ټولګي وپیژني چې د ترافیک نښه ده. موږ د غوښتنلیک سره د متقابل عمل لپاره یو ساده GUI هم رامینځته کوو.

موضوع: Python

د معلوماتو ترتیب: GTRB (د آلمان د ترافیک نښه پیژندنې بنچمارک)

نور یی ولوله

سرچینه: www.habr.com

Add a comment