ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

ابتدائی افراد کے لیے ڈیٹا سائنس

1. جذبات کا تجزیہ (متن کے ذریعے مزاج کا تجزیہ)

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

ماخذ کوڈ - کا استعمال کرتے ہوئے ڈیٹا سائنس پروجیکٹ کا مکمل نفاذ دیکھیں آر میں جذباتی تجزیہ پروجیکٹ.

جذباتی تجزیہ جذبات اور آراء کی شناخت کے لیے الفاظ کا تجزیہ ہے، جو مثبت یا منفی ہو سکتے ہیں۔ یہ درجہ بندی کی ایک قسم ہے جہاں کلاسیں بائنری (مثبت اور منفی) یا جمع (خوش، ناراض، غمگین، گندی...) ہوسکتی ہیں۔ ہم اس ڈیٹا سائنس پروجیکٹ کو R میں نافذ کریں گے اور ڈیٹاسیٹ کو "janeaustenR" پیکیج میں استعمال کریں گے۔ ہم AFINN، bing اور loughran جیسی عمومی مقاصد کی لغات استعمال کریں گے، ایک اندرونی جوائن کریں گے اور آخر میں ہم نتیجہ ظاہر کرنے کے لیے ایک لفظ کلاؤڈ بنائیں گے۔

زبان: R
ڈیٹا سیٹ/پیکیج: janeoustenR

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

مضمون کا ترجمہ EDISON سافٹ ویئر کے تعاون سے کیا گیا تھا، جو ملٹی برانڈ اسٹورز کے لیے ورچوئل فٹنگ رومز بناتا ہے۔اور ٹیسٹ سافٹ ویئر.

2. جعلی خبروں کا پتہ لگانا

ڈیٹا سائنس پروجیکٹ فار بیگنرز - پر کام کرکے اپنی صلاحیتوں کو اگلی سطح تک لے جائیں۔ Python کے ساتھ جعلی خبروں کا پتہ لگانا.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

جعلی خبریں سیاسی مقاصد کے حصول کے لیے سوشل میڈیا اور دیگر آن لائن میڈیا کے ذریعے پھیلائی جانے والی غلط معلومات ہیں۔ ڈیٹا سائنس پروجیکٹ کے اس آئیڈیا میں، ہم ایک ایسا ماڈل بنانے کے لیے Python کا استعمال کریں گے جو درست طریقے سے اس بات کا تعین کر سکے کہ خبر اصلی ہے یا جعلی۔ ہم ایک TfidfVectorizer بنائیں گے اور خبروں کو "حقیقی" اور "جعلی" میں درجہ بندی کرنے کے لیے PassiveAggressiveClassifier استعمال کریں گے۔ ہم 7796×4 شکل کا ڈیٹاسیٹ استعمال کریں گے اور Jupyter Lab میں سب کچھ کریں گے۔

زبان: ازگر

ڈیٹا سیٹ/پیکیج: news.csv

3. پارکنسن کی بیماری کا پتہ لگانا

ڈیٹا سائنس پروجیکٹ آئیڈیا - پر کام کرکے آگے بڑھیں۔ XGBoost کے ساتھ پارکنسن کی بیماری کا پتہ لگانا.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

ہم نے صحت کی دیکھ بھال اور خدمات کو بہتر بنانے کے لیے ڈیٹا سائنس کا استعمال شروع کر دیا ہے - اگر ہم ابتدائی مرحلے میں بیماری کی پیش گوئی کر سکتے ہیں، تو ہمیں بہت سے فوائد حاصل ہوں گے۔ لہذا، اس ڈیٹا سائنس پروجیکٹ آئیڈیا میں، ہم سیکھیں گے کہ Python کا استعمال کرتے ہوئے پارکنسن کی بیماری کا کیسے پتہ لگایا جائے۔ یہ مرکزی اعصابی نظام کی ایک نیوروڈیجنریٹیو، ترقی پسند بیماری ہے جو حرکت کو متاثر کرتی ہے اور کانپنے اور سختی کا باعث بنتی ہے۔ یہ دماغ میں ڈوپامائن پیدا کرنے والے نیوران کو متاثر کرتا ہے، اور ہر سال، یہ ہندوستان میں 1 لاکھ سے زیادہ لوگوں کو متاثر کرتا ہے۔

زبان: ازگر

ڈیٹا سیٹ/پیکیج: UCI ML پارکنسنز ڈیٹاسیٹ

درمیانی پیچیدگی کے ڈیٹا سائنس پروجیکٹس

4. تقریر جذبات کی شناخت

ڈیٹا سائنس کے نمونے کے منصوبے کے مکمل نفاذ کو چیک کریں۔ Librosa کے ساتھ تقریر کی شناخت.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

آئیے اب سیکھتے ہیں کہ مختلف لائبریریوں کو کیسے استعمال کیا جائے۔ یہ ڈیٹا سائنس پروجیکٹ تقریر کی شناخت کے لیے لبروسا کا استعمال کرتا ہے۔ SER تقریر سے انسانی جذبات اور جذباتی حالتوں کی شناخت کا عمل ہے۔ چونکہ ہم اپنی آواز سے جذبات کے اظہار کے لیے لہجے اور پچ کا استعمال کرتے ہیں، اس لیے SER متعلقہ ہے۔ لیکن چونکہ جذبات موضوعی ہوتے ہیں، اس لیے آڈیو تشریح ایک مشکل کام ہے۔ ہم ایم ایف سی سی، کروما اور میل فنکشنز استعمال کریں گے اور جذبات کی شناخت کے لیے RAVDESS ڈیٹاسیٹ استعمال کریں گے۔ ہم اس ماڈل کے لیے ایک MLPC درجہ بندی بنائیں گے۔

زبان: ازگر

ڈیٹا سیٹ/پیکیج: RAVDESS ڈیٹاسیٹ

5. جنس اور عمر کا پتہ لگانا

تازہ ترین ڈیٹا سائنس پروجیکٹ سے آجروں کو متاثر کریں - OpenCV کے ساتھ جنس اور عمر کا پتہ لگانا.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

یہ Python کے ساتھ ایک دلچسپ ڈیٹا سائنس ہے۔ صرف ایک تصویر کا استعمال کرتے ہوئے، آپ سیکھیں گے کہ کس طرح کسی شخص کی جنس اور عمر کا اندازہ لگایا جائے۔ اس میں ہم آپ کو کمپیوٹر ویژن اور اس کے اصولوں سے متعارف کرائیں گے۔ ہم تعمیر کریں گے۔ convolutional عصبی نیٹ ورک اور Adience ڈیٹاسیٹ پر Tal Hassner اور Gil Levy کے تربیت یافتہ ماڈلز کا استعمال کریں گے۔ ہم راستے میں کچھ .pb، .pbtxt، .prototxt اور .caffemodel فائلیں استعمال کریں گے۔

زبان: ازگر

ڈیٹا سیٹ/پیکیج: حاضرین

6. Uber ڈیٹا کا تجزیہ

ماخذ کوڈ - کے ساتھ ڈیٹا سائنس پروجیکٹ کا مکمل نفاذ دیکھیں آر میں Uber ڈیٹا تجزیہ پروجیکٹ.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

یہ ggplot2 کے ساتھ ڈیٹا ویژولائزیشن پروجیکٹ ہے جس میں ہم R اور اس کی لائبریریوں کا استعمال کریں گے اور مختلف پیرامیٹرز کا تجزیہ کریں گے۔ ہم Uber Pickups New York ڈیٹاسیٹ استعمال کریں گے اور سال کے مختلف ٹائم فریموں کے لیے تصورات بنائیں گے۔ یہ ہمیں بتاتا ہے کہ وقت کس طرح کسٹمر کے سفر کو متاثر کرتا ہے۔

زبان: R

ڈیٹا سیٹ/پیکیج: نیو یارک سٹی ڈیٹاسیٹ میں Uber پک اپس

7. ڈرائیور کی غنودگی کا پتہ لگانا

ٹاپ ڈیٹا سائنس پروجیکٹ پر کام کرکے اپنی صلاحیتوں کو اپ گریڈ کریں۔ اوپن سی وی اور کیراس کے ساتھ نیند کا پتہ لگانے کا نظام.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

نیند میں گاڑی چلانا انتہائی خطرناک ہے، ہر سال تقریباً ایک ہزار حادثات ڈرائیورز کے ڈرائیونگ کے دوران سو جانے کی وجہ سے ہوتے ہیں۔ اس Python پروجیکٹ میں، ہم ایک ایسا سسٹم بنائیں گے جو نیند میں آنے والے ڈرائیوروں کا پتہ لگا سکے گا اور انہیں بیپ کے ساتھ الرٹ بھی کر سکے گا۔

یہ پروجیکٹ Keras اور OpenCV کا استعمال کرتے ہوئے لاگو کیا گیا ہے۔ ہم چہرے اور آنکھوں کا پتہ لگانے کے لیے OpenCV کا استعمال کریں گے اور Keras کی مدد سے ہم گہری نیورل نیٹ ورک کے طریقوں کا استعمال کرتے ہوئے آنکھ کی حالت (کھلی یا بند) کی درجہ بندی کریں گے۔

8. چیٹ بوٹ

Python کے ساتھ ایک چیٹ بوٹ بنائیں اور اپنے کیریئر میں ایک قدم آگے بڑھیں۔ NLTK اور Keras کے ساتھ چیٹ بوٹ.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

چیٹ بوٹس کاروبار کا ایک لازمی حصہ ہیں۔ بہت سے کاروباروں کو اپنے صارفین کو خدمات پیش کرنی پڑتی ہیں اور ان کی خدمت کے لیے بہت زیادہ افرادی قوت، وقت اور محنت درکار ہوتی ہے۔ چیٹ بوٹس صارفین کے پوچھے گئے کچھ عام سوالات کے جوابات دے کر زیادہ تر گاہک کے تعامل کو خودکار کر سکتے ہیں۔ بنیادی طور پر چیٹ بوٹس کی دو قسمیں ہیں: ڈومین مخصوص اور اوپن ڈومین۔ ڈومین کے لیے مخصوص چیٹ بوٹ اکثر کسی خاص مسئلے کو حل کرنے کے لیے استعمال ہوتا ہے۔ اس طرح، آپ کو اپنے فیلڈ میں مؤثر طریقے سے کام کرنے کے لیے اسے اپنی مرضی کے مطابق کرنے کی ضرورت ہے۔ اوپن ڈومین چیٹ بوٹس سے کوئی بھی سوال پوچھا جا سکتا ہے، لہذا ان کی تربیت کے لیے بہت زیادہ ڈیٹا کی ضرورت ہوتی ہے۔

ڈیٹا سیٹ: ارادے json فائل

زبان: ازگر

ایڈوانسڈ ڈیٹا سائنس پروجیکٹس

9. تصویری کیپشن جنریٹر

ماخذ کوڈ - کے ساتھ مکمل پراجیکٹ کے نفاذ کو چیک کریں۔ CNN اور LSTM کے ساتھ امیج کیپشن جنریٹر.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

تصویر میں کیا ہے اس کی وضاحت کرنا انسانوں کے لیے ایک آسان کام ہے، لیکن کمپیوٹرز کے لیے، تصویر صرف اعداد کا مجموعہ ہے جو ہر پکسل کی رنگین قدر کی نمائندگی کرتی ہے۔ کمپیوٹر کے لیے یہ ایک مشکل کام ہے۔ تصویر میں کیا ہے اسے سمجھنا اور پھر فطری زبان کی وضاحت (مثلاً انگریزی) بنانا ایک اور مشکل کام ہے۔ یہ پروجیکٹ گہری سیکھنے کی تکنیکوں کا استعمال کرتا ہے جس میں ہم ایک تصویری تفصیل جنریٹر بنانے کے لیے ایک Recurrent Neural Network (LSTM) کے ساتھ Convolutional Neural Network (CNN) کو نافذ کرتے ہیں۔

ڈیٹا سیٹ: فلکر 8K

زبان: ازگر

فریم ورک: کیراس

10. کریڈٹ کارڈ فراڈ کا پتہ لگانا

ڈیٹا سائنس پروجیکٹ آئیڈیا - پر کام کرکے اپنی پوری کوشش کریں۔ مشین لرننگ کے ساتھ کریڈٹ کارڈ فراڈ کا پتہ لگانا.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

اب تک آپ طریقوں اور تصورات کو سمجھنا شروع کر چکے ہیں۔ آئیے کچھ جدید ڈیٹا سائنس پروجیکٹس کی طرف چلتے ہیں۔ اس پروجیکٹ میں، ہم الگورتھم کے ساتھ R زبان استعمال کریں گے جیسے فیصلے کے درخت، لاجسٹک ریگریشن، مصنوعی نیورل نیٹ ورکس اور گریڈینٹ بوسٹنگ کلاسیفائر۔ ہم کریڈٹ کارڈ کے لین دین کو جعلی اور حقیقی کے طور پر درجہ بندی کرنے کے لیے کارڈ ٹرانزیکشن ڈیٹاسیٹ کا استعمال کریں گے۔ ہم ان کے لیے مختلف ماڈل منتخب کریں گے اور کارکردگی کے منحنی خطوط بنائیں گے۔

زبان: R

ڈیٹا سیٹ/پیکیج: کارڈ ٹرانزیکشن ڈیٹاسیٹ

11. فلم کی سفارش کا نظام

ماخذ کوڈ کے ساتھ بہترین ڈیٹا سائنس پروجیکٹ کے نفاذ کو دریافت کریں۔ آر میں فلم کی سفارش کا نظام

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

اس ڈیٹا سائنس پروجیکٹ میں، ہم مشین لرننگ کے ذریعے فلم کی سفارشات پر عمل کرنے کے لیے R کا استعمال کریں گے۔ سفارشی نظام دیگر صارفین کی ترجیحات اور براؤزنگ ہسٹری کی بنیاد پر فلٹرنگ کے عمل کے ذریعے صارفین کو تجاویز بھیجتا ہے۔ اگر A اور B کو ہوم الون پسند ہے، اور B کو مین لڑکیاں پسند ہیں، تو آپ A تجویز کر سکتے ہیں - وہ بھی اسے پسند کر سکتے ہیں۔ یہ گاہکوں کو پلیٹ فارم کے ساتھ بات چیت کرنے کی اجازت دیتا ہے.

زبان: R

ڈیٹا سیٹ/پیکیج: مووی لینس ڈیٹاسیٹ

12. گاہک کی تقسیم

ڈیٹا سائنس پروجیکٹ (بشمول سورس کوڈ) سے آجروں کو متاثر کریں - مشین لرننگ کے ساتھ گاہک کی تقسیم.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

خریداروں کی تقسیم ایک مقبول ایپلی کیشن ہے۔ غیر زیر نگرانی تعلیم. کلسٹرنگ کا استعمال کرتے ہوئے، کمپنیاں ممکنہ صارف کی بنیاد کے ساتھ کام کرنے کے لیے گاہک کے حصوں کی وضاحت کرتی ہیں۔ وہ صارفین کو جنس، عمر، دلچسپیوں اور خرچ کرنے کی عادات جیسی مشترکہ خصوصیات کے مطابق گروپوں میں تقسیم کرتے ہیں، تاکہ وہ اپنی مصنوعات کو ہر گروپ کے لیے مؤثر طریقے سے مارکیٹ کر سکیں۔ ہم استعمال کریں گے۔ K- کا مطلب ہے جھلکانا، نیز جنس اور عمر کے لحاظ سے تقسیم کا تصور کریں۔ پھر ہم ان کی سالانہ آمدنی اور اخراجات کی سطح کا تجزیہ کرتے ہیں۔

زبان: R

ڈیٹا سیٹ/پیکیج: مال_کسٹمرز ڈیٹاسیٹ

13. چھاتی کے کینسر کی درجہ بندی

Python - میں ڈیٹا سائنس پروجیکٹ کا مکمل نفاذ دیکھیں گہری سیکھنے کا استعمال کرتے ہوئے چھاتی کے کینسر کی درجہ بندی.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

ڈیٹا سائنس کے طبی تعاون کی طرف لوٹتے ہوئے، آئیے سیکھتے ہیں کہ Python کے ساتھ چھاتی کے کینسر کا پتہ کیسے چلایا جائے۔ ہم IDC_regular ڈیٹاسیٹ کو ناگوار ڈکٹل کارسنوما کا پتہ لگانے کے لیے استعمال کریں گے، جو چھاتی کے کینسر کی سب سے عام شکل ہے۔ یہ دودھ کی نالیوں میں نشوونما پاتا ہے، نالی کے باہر میمری غدود کے ریشے دار یا فیٹی ٹشو میں گھس جاتا ہے۔ اس ڈیٹا اکٹھا کرنے والے سائنس پروجیکٹ آئیڈیا میں، ہم استعمال کریں گے۔ گہری سیکھنا اور درجہ بندی کے لیے کیراس لائبریری۔

زبان: ازگر

ڈیٹا سیٹ/پیکیج: IDC_regular

14. ٹریفک کے نشانات کی شناخت

ڈیٹا سائنس پروجیکٹ کے ساتھ سیلف ڈرائیونگ کار ٹیکنالوجی میں درستگی حاصل کرنا CNN کا استعمال کرتے ہوئے ٹریفک کے نشان کی شناخت آزاد مصدر.

ڈیٹا سائنس کی مہارت کو بہتر بنانے کے لیے 14 اوپن سورس پروجیکٹس (آسان، نارمل، سخت)

حادثات سے بچنے کے لیے ہر ڈرائیور کے لیے سڑک کے نشانات اور ٹریفک قوانین بہت ضروری ہیں۔ اصول پر عمل کرنے کے لیے، آپ کو پہلے یہ سمجھنا ہوگا کہ سڑک کا نشان کیسا لگتا ہے۔ ایک شخص کو کسی بھی گاڑی کو چلانے کا حق دینے سے پہلے سڑک کے تمام نشانات سیکھنے چاہئیں۔ لیکن اب خود مختار گاڑیوں کی تعداد بڑھ رہی ہے اور مستقبل قریب میں کوئی شخص خود کار نہیں چلا سکے گا۔ روڈ سائن ریکگنیشن پروجیکٹ میں، آپ یہ سیکھیں گے کہ ایک پروگرام ان پٹ کے طور پر تصویر لے کر روڈ سائن کی ایک قسم کو کیسے پہچان سکتا ہے۔ جرمن روڈ سائن ریکگنیشن ریفرنس ڈیٹاسیٹ (GTSRB) کا استعمال ایک گہرے اعصابی نیٹ ورک کی تعمیر کے لیے کیا جاتا ہے تاکہ اس طبقے کو پہچانا جا سکے جس سے ٹریفک سائن کا تعلق ہے۔ ہم ایپلیکیشن کے ساتھ بات چیت کے لیے ایک سادہ GUI بھی بنا رہے ہیں۔

زبان: ازگر

ڈیٹا سیٹ: GTRB (جرمن ٹریفک سائن ریکگنیشن بینچ مارک)

مزید پڑھ

ماخذ: www.habr.com

نیا تبصرہ شامل کریں