ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

شروعاتي لاء ڊيٽا سائنس

1. جذبي جو تجزيو (متن ذريعي جذبي جو تجزيو)

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

ماخذ ڪوڊ استعمال ڪندي مڪمل ڊيٽا سائنس پروجيڪٽ تي عمل درآمد چيڪ ڪريو - آر ۾ جذبي تجزيي پروجيڪٽ.

جذبن جو تجزيو لفظن جو تجزيو آهي جذبات ۽ رايا جو تعين ڪرڻ لاءِ، جيڪي ٿي سگهن ٿا مثبت يا منفي. هي هڪ قسم جي درجه بندي آهي جنهن ۾ طبقن کي بائنري ٿي سگهي ٿو (مثبت ۽ منفي) يا جمع (خوش، ناراض، اداس، گندو ...). اسان هن ڊيٽا سائنس پروجيڪٽ کي R ۾ لاڳو ڪنداسين ۽ ڊيٽا سيٽ کي "janeaustenR" پيڪيج ۾ استعمال ڪنداسين. اسان عام مقصد جي لغتن کي استعمال ڪنداسين جيئن ته AFINN، bing ۽ loughran، هڪ اندروني جوائن کي انجام ڏيو، ۽ آخر ۾ اسين نتيجو ڏيکارڻ لاء هڪ لفظ ڪلائوڊ ٺاهينداسين.

ٻولي R
ڊيٽا سيٽ / پيڪيج: جانوسٽن آر

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

مضمون جو ترجمو EDISON سافٽ ويئر جي مدد سان ڪيو ويو، جيڪو ملٽي برانڊ اسٽورن لاءِ ورچوئل فيٽنگ روم ٺاهي ٿو، انهي سان گڏوگڏ ٽيسٽ سافٽ ويئر.

2. جعلي خبرن جو پتو لڳائڻ

شروعات ڪندڙن لاءِ ڊيٽا سائنس پروجيڪٽ تي ڪم ڪندي پنهنجي صلاحيتن کي ايندڙ سطح تي وٺي وڃو - پٿون سان جعلي خبرون ڳولڻ.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

جعلي خبر سياسي مقصدن حاصل ڪرڻ لاءِ سوشل ميڊيا ۽ ٻين آن لائين ميڊيا ذريعي پکڙيل غلط معلومات آهي. هن ڊيٽا سائنس پروجيڪٽ خيال ۾، اسان هڪ ماڊل ٺاهڻ لاءِ پٿون استعمال ڪنداسين جيڪو صحيح طور تي اهو طئي ڪري سگهي ٿو ته خبر ڪهاڻي حقيقي آهي يا جعلي. اسان هڪ TfidfVectorizer ٺاهينداسين ۽ خبرن کي ”حقيقي“ ۽ ”جعلي“ ۾ ورهائڻ لاءِ PassiveAggressiveClassifier استعمال ڪنداسين. اسان 7796 × 4 جي شڪل جو ڊيٽا سيٽ استعمال ڪنداسين ۽ هر شي کي Jupyter Lab ۾ هلائينداسين.

ٻولي Python

ڊيٽا سيٽ / پيڪيج: news.csv

3. پارڪنسن جي بيماري کي ڳولڻ

اڳتي وڌو پنھنجي ڊيٽا سائنس پروجيڪٽ آئيڊيا سان - XGBoost استعمال ڪندي پارڪنسن جي بيماري کي ڳولڻ.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

اسان صحت جي سار سنڀار ۽ خدمتن کي بهتر بڻائڻ لاءِ ڊيٽا سائنس کي استعمال ڪرڻ شروع ڪيو آهي - جيڪڏهن اسان شروعاتي اسٽيج تي ڪنهن بيماري جي اڳڪٿي ڪري سگهون ٿا، ته پوءِ اسان جا ڪيترائي فائدا هوندا. تنهن ڪري، هن ڊيٽا سائنس پروجيڪٽ خيال ۾، اسان سيکارينداسين ته پارڪنسن جي بيماري کي ڪيئن معلوم ڪجي Python استعمال ڪندي. اهو مرڪزي نروس سسٽم جي هڪ نيوروڊجينيريٽو، ترقي پسند بيماري آهي جيڪا حرڪت کي متاثر ڪري ٿي ۽ زلزلي ۽ سختي جو سبب بڻجي ٿي. اهو دماغ ۾ ڊومامين پيدا ڪندڙ نيورسن کي متاثر ڪري ٿو، ۽ هر سال، هندستان ۾ 1 ملين کان وڌيڪ ماڻهن کي متاثر ڪري ٿو.

ٻولي Python

ڊيٽا سيٽ / پيڪيج: UCI ML Parkinson dataset

وچولي پيچيدگي جي ڊيٽا سائنس منصوبن

4. تقرير جذبات جي سڃاڻپ

ڊيٽا سائنس جي مثالي منصوبي جي مڪمل عمل کي چيڪ ڪريو - Librosa استعمال ڪندي تقرير جي سڃاڻپ.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

اچو ته ھاڻي سکو ته مختلف لائبريرين کي ڪيئن استعمال ڪجي. هي ڊيٽا سائنس پروجيڪٽ ليبروسا استعمال ڪري ٿو تقرير جي سڃاڻپ لاءِ. SER تقرير مان انساني جذبات ۽ متاثر ٿيندڙ رياستن کي سڃاڻڻ جو عمل آهي. جيئن ته اسان اسان جي آوازن سان جذبات کي ظاهر ڪرڻ لاء سر ۽ پچ استعمال ڪندا آهيون، SER لاڳاپيل آهي. پر جيئن ته جذبات تابع آهن، آڊيو تشريح هڪ مشڪل ڪم آهي. اسان استعمال ڪنداسين ايم ايف سي سي، ڪروما ۽ ميل افعال ۽ استعمال ڪنداسين RAVDESS ڊيٽا سيٽ جذبات جي سڃاڻپ لاءِ. اسان هن ماڊل لاءِ MLPC ڪلاسفير ٺاهينداسين.

ٻولي Python

ڊيٽا سيٽ / پيڪيج: RAVDESS ڊيٽا سيٽ

5. جنس ۽ عمر جي چڪاس

ملازمن کي متاثر ڪريو جديد ڊيٽا سائنس پروجيڪٽ سان - OpenCV استعمال ڪندي جنس ۽ عمر جو تعين ڪرڻ.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

هي پائٿون سان گڏ هڪ دلچسپ ڊيٽا سائنس آهي. صرف هڪ تصوير استعمال ڪندي، توهان هڪ شخص جي جنس ۽ عمر جي اڳڪٿي ڪرڻ سکندا. ان ۾ اسان توهان کي ڪمپيوٽر ويزن ۽ ان جي اصولن کان واقف ڪنداسين. اسان تعمير ڪنداسين convolutional neural نيٽ ورڪ ۽ Adience dataset تي Tal Hassner ۽ Gil Levy پاران تربيت يافته ماڊل استعمال ڪندا. رستي ۾ اسان ڪجهه .pb، .pbtxt، .prototxt ۽ .caffemodel فائلون استعمال ڪنداسين.

ٻولي Python

ڊيٽا سيٽ / پيڪيج: ايڊينس

6. Uber ڊيٽا تجزيو

چيڪ ڪريو مڪمل ڊيٽا سائنس پروجيڪٽ تي عمل درآمد سان سورس ڪوڊ - Uber ڊيٽا تجزيو پروجيڪٽ ۾ R.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

هي هڪ ڊيٽا بصري منصوبو آهي ggplot2 سان جنهن ۾ اسين استعمال ڪنداسين R ۽ ان جي لائبريرين ۽ مختلف پيٽرولن جو تجزيو ڪنداسين. اسان Uber Pickups New York City dataset استعمال ڪنداسين ۽ سال جي مختلف وقتن جي فريم لاءِ تصويري شڪل ٺاهينداسين. اهو اسان کي ٻڌائي ٿو ته وقت ڪيئن اثر انداز ڪري ٿو گراهڪ جي سفر.

ٻولي R

ڊيٽا سيٽ / پيڪيج: نيو يارڪ شهر جي ڊيٽا سيٽ ۾ Uber Pickups

7. ڊرائيور Drowsiness جو پتو لڳائڻ

مٿين ڊيٽا سائنس پروجيڪٽ تي ڪم ڪندي پنهنجون صلاحيتون بهتر ڪريو - اوپن سي وي ۽ ڪيراس سان ننڊ جي چڪاس جو نظام.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

اوندهه ۾ ڊرائيونگ انتهائي خطرناڪ آهي، ۽ هر سال لڳ ڀڳ هڪ هزار حادثا ٿين ٿا ڊرائيورن جي ڊرائيونگ دوران سمهڻ سبب. هن Python پروجيڪٽ ۾، اسان هڪ اهڙو سسٽم ٺاهينداسين جيڪو ننڊ جي ڊرائيورن کي ڳولي سگهي ٿو ۽ انهن کي آڊيو سگنل سان پڻ خبردار ڪري سگهي ٿو.

هي منصوبو Keras ۽ OpenCV استعمال ڪندي لاڳو ڪيو ويو آهي. اسان منهن ۽ اکين جي چڪاس لاءِ OpenCV استعمال ڪنداسين ۽ Keras سان اسان اکين جي حالت (اوپن يا بند) کي ڊيپ نيورل نيٽ ورڪ ٽيڪنالاجي استعمال ڪندي درجه بندي ڪنداسين.

8. چيٽبوٽ

Python سان هڪ چيٽ بوٽ ٺاهيو ۽ پنهنجي ڪيريئر ۾ هڪ قدم اڳتي وڌو - NLTK ۽ Keras سان چيٽ بوٽ.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

Chatbots ڪاروبار جو هڪ لازمي حصو آهن. گھڻن ڪاروبارن کي پنھنجي گراهڪن کي خدمتون پيش ڪرڻيون پونديون آھن ۽ انھن جي خدمت ڪرڻ لاءِ تمام گھڻي افرادي قوت، وقت ۽ ڪوشش لڳندي آھي. Chatbots ڪجھ عام سوالن جو جواب ڏيڻ سان توھان جي گراهڪ جي رابطي جو گھڻو حصو پاڻمرادو ڪري سگھي ٿو جيڪي گراهڪ پڇن ٿا. هتي بنيادي طور تي ٻه قسم جا چيٽ بوٽس آهن: ڊومين مخصوص ۽ اوپن ڊومين. هڪ ڊومين-مخصوص چيٽ بوٽ اڪثر ڪري استعمال ڪيو ويندو آهي مخصوص مسئلو حل ڪرڻ لاءِ. تنهن ڪري، توهان کي پنهنجي فيلڊ ۾ مؤثر طريقي سان ڪم ڪرڻ لاء ان کي ترتيب ڏيڻ جي ضرورت آهي. اوپن ڊومين چيٽ بوٽس ڪي به سوال پڇي سگهجن ٿا، تنهن ڪري انهن کي تربيت ڏيڻ لاءِ ڊيٽا جي وڏي مقدار جي ضرورت آهي.

ڊيٽا سيٽ: ارادو json فائل

ٻولي Python

ترقي يافته ڊيٽا سائنس پروجيڪٽ

9. تصويري ڪيپشن جنريٽر

ماخذ ڪوڊ سان پروجيڪٽ جي مڪمل عمل کي چيڪ ڪريو - تصويري ڪيپشن جنريٽر CNN ۽ LSTM سان.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

تصوير ۾ ڇا آهي بيان ڪرڻ انسانن لاءِ هڪ آسان ڪم آهي، پر ڪمپيوٽرن لاءِ، هڪ تصوير صرف انگن جو هڪ سلسلو آهي، جيڪا هر پکسل جي رنگ جي قيمت جي نمائندگي ڪري ٿي. ڪمپيوٽرن لاءِ اهو ڏکيو ڪم آهي. تصوير ۾ ڇا آهي سمجھڻ ۽ پوءِ قدرتي ٻولي (جهڙوڪ انگريزي) ۾ وضاحت ٺاهڻ هڪ ٻيو ڏکيو ڪم آهي. هي پروجيڪٽ ڊيپ لرننگ ٽيڪنڪ استعمال ڪري ٿو جنهن ۾ اسان هڪ Convolutional Neural Network (CNN) کي هڪ Recurrent Neural Network (LSTM) سان لاڳو ڪريون ٿا هڪ تصوير جي وضاحت جنريٽر ٺاهڻ لاءِ.

ڊيٽا سيٽ: فلڪر 8K

ٻولي Python

فريم ورڪ: ڪيرا

10. ڪريڊٽ ڪارڊ فراڊ جو پتو لڳائڻ

پنهنجي ڊيٽا سائنس پروجيڪٽ جي خيال تي ڪم ڪرڻ دوران پنهنجو بهترين ڪم ڪريو - مشين لرننگ استعمال ڪندي ڪريڊٽ ڪارڊ فراڊ کي ڳوليو.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

هينئر تائين توهان ٽيڪنالاجي ۽ تصورن کي سمجهڻ شروع ڪيو آهي. اچو ته ڪجهه ترقي يافته ڊيٽا سائنس منصوبن ڏانهن وڃو. هن پروجيڪٽ ۾ اسين آر ٻولي استعمال ڪنداسين الورورٿمز سان فيصلي جا وڻ، لاجسٽڪ ريگريشن، مصنوعي نيورل نيٽ ورڪ ۽ گريڊيئنٽ بوسٽنگ ڪلاسفير. اسان ڪريڊٽ ڪارڊ ٽرانزيڪشن کي فريب يا حقيقي طور تي درجه بندي ڪرڻ لاءِ ڪارڊ ٽرانزيڪشن جي ڊيٽا سيٽ استعمال ڪنداسين. اسان انهن لاءِ مختلف ماڊل چونڊينداسين ۽ ڪارڪردگي وکر ٺاهينداسين.

ٻولي R

ڊيٽا سيٽ / پيڪيج: ڪارڊ ٽرانزيڪشن ڊيٽا سيٽ

11. فلم جي سفارش جو نظام

ماخذ ڪوڊ سان گڏ بهترين ڊيٽا سائنس پروجيڪٽ جي نفاذ جو مطالعو ڪريو - آر ٻولي ۾ فلم جي سفارش جو نظام

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

هن ڊيٽا سائنس پروجيڪٽ ۾، اسان مشين سکيا ذريعي فلم جي سفارشن تي عمل ڪرڻ لاءِ آر استعمال ڪنداسين. سفارش وارو نظام ٻين صارفين جي ترجيحن ۽ برائوزنگ تاريخ جي بنياد تي فلٽرنگ جي عمل ذريعي صارفين کي تجويزون موڪلي ٿو. جيڪڏهن A ۽ B پسند ڪن ٿا گهر اڪيلو، ۽ B پسند ڪن ٿا مون ڇوڪرين کي، ته پوءِ توهان تجويز ڪري سگهو ٿا A - اهي به پسند ڪري سگهن ٿا. هي گراهڪن کي پليٽ فارم سان لهه وچڙ ڪرڻ جي اجازت ڏئي ٿو.

ٻولي R

ڊيٽا سيٽ / پيڪيج: مووي لينس ڊيٽا سيٽ

12. ڪسٽمر سيگمينٽيشن

ملازمن کي ڊيٽا سائنس پروجيڪٽ سان متاثر ڪريو (بشمول سورس ڪوڊ) - مشين سکيا استعمال ڪندي ڪسٽمر ڀاڱيداري.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

خريدار جي ڀاڱيداري هڪ مشهور ايپليڪيشن آهي غير نگراني تعليم. ڪلسترنگ استعمال ڪندي، ڪمپنيون ڪسٽمر حصن کي سڃاڻڻ لاء هڪ امڪاني صارف جي بنياد کي نشانو بڻائڻ لاء. اهي گراهڪ کي گروپن ۾ ورهائيندا آهن عام خاصيتن جهڙوڪ جنس، عمر، مفادن ۽ خرچ جي عادتن جي مطابق ته جيئن اهي مؤثر طريقي سان هر گروهه کي پنهنجون شيون مارڪيٽ ۾ آڻي سگهن. اسان استعمال ڪنداسين K- جو مطلب آهي ڪلستر ڪرڻ، انهي سان گڏ جنس ۽ عمر جي لحاظ کان ورڇ کي ڏسو. اسان ان کان پوء انهن جي سالياني آمدني ۽ خرچ جي سطح جو تجزيو ڪنداسين.

ٻولي R

ڊيٽا سيٽ / پيڪيج: Mall_Customers dataset

13. چھاتی جي ڪينسر جي درجه بندي

پٿون - ۾ ڊيٽا سائنس پروجيڪٽ جي مڪمل عمل درآمد کي ڏسو گہرے سکيا استعمال ڪندي چھاتی جي ڪينسر جي درجه بندي.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

ڊيٽا سائنس جي طبي تعاون ڏانهن واپس اچون ٿا، اچو ته سکو ته ڪيئن پٿون استعمال ڪندي چھاتی جي ڪينسر جي سڃاڻپ ڪجي. اسان استعمال ڪنداسين IDC_regular dataset invasive ductal carcinoma جي سڃاڻپ ڪرڻ لاءِ، جيڪا چھاتی جي ڪينسر جو سڀ کان عام روپ آهي. اهو کير جي نلڪن ۾ پيدا ٿئي ٿو، ڊڪٽ کان ٻاهر فائبر يا ٿلهي سيني جي ٽشو ۾ دفن ٿي. هن ڊيٽا گڏ ڪرڻ ۾ سائنس پروجيڪٽ خيال اسان استعمال ڪنداسين گروي سکيا ۽ درجه بندي لاءِ ڪيراس لائبريري.

ٻولي Python

ڊيٽا سيٽ / پيڪيج: IDC_regular

14. ٽرئفڪ جي نشانين جي سڃاڻپ

ڊيٽا سائنس پروجيڪٽ سان خود ڊرائيونگ ٽيڪنالاجي ۾ درستگي حاصل ڪرڻ CNN استعمال ڪندي ٽرئفڪ جي نشاني جي سڃاڻپ کليل ذريعو.

ڊيٽا سائنس جي صلاحيتن کي بهتر ڪرڻ لاءِ 14 اوپن سورس پروجيڪٽ (آسان، عام، سخت)

حادثن کان بچڻ لاءِ هر ڊرائيور لاءِ روڊ نشانيون ۽ ٽريفڪ ضابطا تمام ضروري آهن. قاعدي جي پيروي ڪرڻ لاء، توهان کي پهريان سمجهڻ جي ضرورت آهي ته روڊ جي نشاني ڪيئن نظر اچي ٿي. هڪ شخص کي لازمي طور تي سڀني روڊن جي نشانين کي سکڻ گهرجي ان کان اڳ جو هن کي ڪنهن به گاڏي هلائڻ جو لائسنس ڏنو وڃي. پر هاڻي خود مختيار گاڏين جو تعداد وڌي رهيو آهي، ۽ ويجهي مستقبل ۾ هڪ شخص هاڻي آزاديء سان ڪار هلائڻ نه ڪندو. روڊ سائن ريڪگنيشن پروجيڪٽ ۾، توهان سکندا ته ڪيئن هڪ پروگرام روڊ جي نشانين جي قسم کي ان پٽ طور تصوير ڪڍڻ سان سڃاڻي سگهي ٿو. جرمن ٽريفڪ سائن ريڪگنيشن بينچ مارڪ (GTSRB) ڊيٽا سيٽ کي استعمال ڪيو ويندو آهي هڪ گہرے اعصابي نيٽ ورڪ کي تعمير ڪرڻ لاءِ انهي طبقي کي سڃاڻڻ لاءِ جنهن سان ٽرئفڪ جي نشاني جو تعلق آهي. اسان ايپليڪيشن سان رابطو ڪرڻ لاءِ هڪ سادي GUI پڻ ٺاهيندا آهيون.

ٻولي Python

ڊيٽا سيٽ: GTSRB (جرمن ٽريفڪ سائن ريڪگنيشن بينچ مارڪ)

وڌيڪ پڙهو

جو ذريعو: www.habr.com

تبصرو شامل ڪريو