جذباتی تجزیہ جذبات اور آراء کی شناخت کے لیے الفاظ کا تجزیہ ہے، جو مثبت یا منفی ہو سکتے ہیں۔ یہ درجہ بندی کی ایک قسم ہے جہاں کلاسیں بائنری (مثبت اور منفی) یا جمع (خوش، ناراض، غمگین، گندی...) ہوسکتی ہیں۔ ہم اس ڈیٹا سائنس پروجیکٹ کو R میں نافذ کریں گے اور ڈیٹاسیٹ کو "janeaustenR" پیکیج میں استعمال کریں گے۔ ہم AFINN، bing اور loughran جیسی عمومی مقاصد کی لغات استعمال کریں گے، ایک اندرونی جوائن کریں گے اور آخر میں ہم نتیجہ ظاہر کرنے کے لیے ایک لفظ کلاؤڈ بنائیں گے۔
جعلی خبریں سیاسی مقاصد کے حصول کے لیے سوشل میڈیا اور دیگر آن لائن میڈیا کے ذریعے پھیلائی جانے والی غلط معلومات ہیں۔ ڈیٹا سائنس پروجیکٹ کے اس آئیڈیا میں، ہم ایک ایسا ماڈل بنانے کے لیے Python کا استعمال کریں گے جو درست طریقے سے اس بات کا تعین کر سکے کہ خبر اصلی ہے یا جعلی۔ ہم ایک TfidfVectorizer بنائیں گے اور خبروں کو "حقیقی" اور "جعلی" میں درجہ بندی کرنے کے لیے PassiveAggressiveClassifier استعمال کریں گے۔ ہم 7796×4 شکل کا ڈیٹاسیٹ استعمال کریں گے اور Jupyter Lab میں سب کچھ کریں گے۔
ہم نے صحت کی دیکھ بھال اور خدمات کو بہتر بنانے کے لیے ڈیٹا سائنس کا استعمال شروع کر دیا ہے - اگر ہم ابتدائی مرحلے میں بیماری کی پیش گوئی کر سکتے ہیں، تو ہمیں بہت سے فوائد حاصل ہوں گے۔ لہذا، اس ڈیٹا سائنس پروجیکٹ آئیڈیا میں، ہم سیکھیں گے کہ Python کا استعمال کرتے ہوئے پارکنسن کی بیماری کا کیسے پتہ لگایا جائے۔ یہ مرکزی اعصابی نظام کی ایک نیوروڈیجنریٹیو، ترقی پسند بیماری ہے جو حرکت کو متاثر کرتی ہے اور کانپنے اور سختی کا باعث بنتی ہے۔ یہ دماغ میں ڈوپامائن پیدا کرنے والے نیوران کو متاثر کرتا ہے، اور ہر سال، یہ ہندوستان میں 1 لاکھ سے زیادہ لوگوں کو متاثر کرتا ہے۔
آئیے اب سیکھتے ہیں کہ مختلف لائبریریوں کو کیسے استعمال کیا جائے۔ یہ ڈیٹا سائنس پروجیکٹ تقریر کی شناخت کے لیے لبروسا کا استعمال کرتا ہے۔ SER تقریر سے انسانی جذبات اور جذباتی حالتوں کی شناخت کا عمل ہے۔ چونکہ ہم اپنی آواز سے جذبات کے اظہار کے لیے لہجے اور پچ کا استعمال کرتے ہیں، اس لیے SER متعلقہ ہے۔ لیکن چونکہ جذبات موضوعی ہوتے ہیں، اس لیے آڈیو تشریح ایک مشکل کام ہے۔ ہم ایم ایف سی سی، کروما اور میل فنکشنز استعمال کریں گے اور جذبات کی شناخت کے لیے RAVDESS ڈیٹاسیٹ استعمال کریں گے۔ ہم اس ماڈل کے لیے ایک MLPC درجہ بندی بنائیں گے۔
یہ Python کے ساتھ ایک دلچسپ ڈیٹا سائنس ہے۔ صرف ایک تصویر کا استعمال کرتے ہوئے، آپ سیکھیں گے کہ کس طرح کسی شخص کی جنس اور عمر کا اندازہ لگایا جائے۔ اس میں ہم آپ کو کمپیوٹر ویژن اور اس کے اصولوں سے متعارف کرائیں گے۔ ہم تعمیر کریں گے۔ convolutional عصبی نیٹ ورک اور Adience ڈیٹاسیٹ پر Tal Hassner اور Gil Levy کے تربیت یافتہ ماڈلز کا استعمال کریں گے۔ ہم راستے میں کچھ .pb، .pbtxt، .prototxt اور .caffemodel فائلیں استعمال کریں گے۔
یہ ggplot2 کے ساتھ ڈیٹا ویژولائزیشن پروجیکٹ ہے جس میں ہم R اور اس کی لائبریریوں کا استعمال کریں گے اور مختلف پیرامیٹرز کا تجزیہ کریں گے۔ ہم Uber Pickups New York ڈیٹاسیٹ استعمال کریں گے اور سال کے مختلف ٹائم فریموں کے لیے تصورات بنائیں گے۔ یہ ہمیں بتاتا ہے کہ وقت کس طرح کسٹمر کے سفر کو متاثر کرتا ہے۔
زبان: R
ڈیٹا سیٹ/پیکیج: نیو یارک سٹی ڈیٹاسیٹ میں Uber پک اپس
نیند میں گاڑی چلانا انتہائی خطرناک ہے، ہر سال تقریباً ایک ہزار حادثات ڈرائیورز کے ڈرائیونگ کے دوران سو جانے کی وجہ سے ہوتے ہیں۔ اس Python پروجیکٹ میں، ہم ایک ایسا سسٹم بنائیں گے جو نیند میں آنے والے ڈرائیوروں کا پتہ لگا سکے گا اور انہیں بیپ کے ساتھ الرٹ بھی کر سکے گا۔
یہ پروجیکٹ Keras اور OpenCV کا استعمال کرتے ہوئے لاگو کیا گیا ہے۔ ہم چہرے اور آنکھوں کا پتہ لگانے کے لیے OpenCV کا استعمال کریں گے اور Keras کی مدد سے ہم گہری نیورل نیٹ ورک کے طریقوں کا استعمال کرتے ہوئے آنکھ کی حالت (کھلی یا بند) کی درجہ بندی کریں گے۔
چیٹ بوٹس کاروبار کا ایک لازمی حصہ ہیں۔ بہت سے کاروباروں کو اپنے صارفین کو خدمات پیش کرنی پڑتی ہیں اور ان کی خدمت کے لیے بہت زیادہ افرادی قوت، وقت اور محنت درکار ہوتی ہے۔ چیٹ بوٹس صارفین کے پوچھے گئے کچھ عام سوالات کے جوابات دے کر زیادہ تر گاہک کے تعامل کو خودکار کر سکتے ہیں۔ بنیادی طور پر چیٹ بوٹس کی دو قسمیں ہیں: ڈومین مخصوص اور اوپن ڈومین۔ ڈومین کے لیے مخصوص چیٹ بوٹ اکثر کسی خاص مسئلے کو حل کرنے کے لیے استعمال ہوتا ہے۔ اس طرح، آپ کو اپنے فیلڈ میں مؤثر طریقے سے کام کرنے کے لیے اسے اپنی مرضی کے مطابق کرنے کی ضرورت ہے۔ اوپن ڈومین چیٹ بوٹس سے کوئی بھی سوال پوچھا جا سکتا ہے، لہذا ان کی تربیت کے لیے بہت زیادہ ڈیٹا کی ضرورت ہوتی ہے۔
تصویر میں کیا ہے اس کی وضاحت کرنا انسانوں کے لیے ایک آسان کام ہے، لیکن کمپیوٹرز کے لیے، تصویر صرف اعداد کا مجموعہ ہے جو ہر پکسل کی رنگین قدر کی نمائندگی کرتی ہے۔ کمپیوٹر کے لیے یہ ایک مشکل کام ہے۔ تصویر میں کیا ہے اسے سمجھنا اور پھر فطری زبان کی وضاحت (مثلاً انگریزی) بنانا ایک اور مشکل کام ہے۔ یہ پروجیکٹ گہری سیکھنے کی تکنیکوں کا استعمال کرتا ہے جس میں ہم ایک تصویری تفصیل جنریٹر بنانے کے لیے ایک Recurrent Neural Network (LSTM) کے ساتھ Convolutional Neural Network (CNN) کو نافذ کرتے ہیں۔
اب تک آپ طریقوں اور تصورات کو سمجھنا شروع کر چکے ہیں۔ آئیے کچھ جدید ڈیٹا سائنس پروجیکٹس کی طرف چلتے ہیں۔ اس پروجیکٹ میں، ہم الگورتھم کے ساتھ R زبان استعمال کریں گے جیسے فیصلے کے درخت، لاجسٹک ریگریشن، مصنوعی نیورل نیٹ ورکس اور گریڈینٹ بوسٹنگ کلاسیفائر۔ ہم کریڈٹ کارڈ کے لین دین کو جعلی اور حقیقی کے طور پر درجہ بندی کرنے کے لیے کارڈ ٹرانزیکشن ڈیٹاسیٹ کا استعمال کریں گے۔ ہم ان کے لیے مختلف ماڈل منتخب کریں گے اور کارکردگی کے منحنی خطوط بنائیں گے۔
اس ڈیٹا سائنس پروجیکٹ میں، ہم مشین لرننگ کے ذریعے فلم کی سفارشات پر عمل کرنے کے لیے R کا استعمال کریں گے۔ سفارشی نظام دیگر صارفین کی ترجیحات اور براؤزنگ ہسٹری کی بنیاد پر فلٹرنگ کے عمل کے ذریعے صارفین کو تجاویز بھیجتا ہے۔ اگر A اور B کو ہوم الون پسند ہے، اور B کو مین لڑکیاں پسند ہیں، تو آپ A تجویز کر سکتے ہیں - وہ بھی اسے پسند کر سکتے ہیں۔ یہ گاہکوں کو پلیٹ فارم کے ساتھ بات چیت کرنے کی اجازت دیتا ہے.
خریداروں کی تقسیم ایک مقبول ایپلی کیشن ہے۔ غیر زیر نگرانی تعلیم. کلسٹرنگ کا استعمال کرتے ہوئے، کمپنیاں ممکنہ صارف کی بنیاد کے ساتھ کام کرنے کے لیے گاہک کے حصوں کی وضاحت کرتی ہیں۔ وہ صارفین کو جنس، عمر، دلچسپیوں اور خرچ کرنے کی عادات جیسی مشترکہ خصوصیات کے مطابق گروپوں میں تقسیم کرتے ہیں، تاکہ وہ اپنی مصنوعات کو ہر گروپ کے لیے مؤثر طریقے سے مارکیٹ کر سکیں۔ ہم استعمال کریں گے۔ K- کا مطلب ہے جھلکانا، نیز جنس اور عمر کے لحاظ سے تقسیم کا تصور کریں۔ پھر ہم ان کی سالانہ آمدنی اور اخراجات کی سطح کا تجزیہ کرتے ہیں۔
ڈیٹا سائنس کے طبی تعاون کی طرف لوٹتے ہوئے، آئیے سیکھتے ہیں کہ Python کے ساتھ چھاتی کے کینسر کا پتہ کیسے چلایا جائے۔ ہم IDC_regular ڈیٹاسیٹ کو ناگوار ڈکٹل کارسنوما کا پتہ لگانے کے لیے استعمال کریں گے، جو چھاتی کے کینسر کی سب سے عام شکل ہے۔ یہ دودھ کی نالیوں میں نشوونما پاتا ہے، نالی کے باہر میمری غدود کے ریشے دار یا فیٹی ٹشو میں گھس جاتا ہے۔ اس ڈیٹا اکٹھا کرنے والے سائنس پروجیکٹ آئیڈیا میں، ہم استعمال کریں گے۔ گہری سیکھنا اور درجہ بندی کے لیے کیراس لائبریری۔
حادثات سے بچنے کے لیے ہر ڈرائیور کے لیے سڑک کے نشانات اور ٹریفک قوانین بہت ضروری ہیں۔ اصول پر عمل کرنے کے لیے، آپ کو پہلے یہ سمجھنا ہوگا کہ سڑک کا نشان کیسا لگتا ہے۔ ایک شخص کو کسی بھی گاڑی کو چلانے کا حق دینے سے پہلے سڑک کے تمام نشانات سیکھنے چاہئیں۔ لیکن اب خود مختار گاڑیوں کی تعداد بڑھ رہی ہے اور مستقبل قریب میں کوئی شخص خود کار نہیں چلا سکے گا۔ روڈ سائن ریکگنیشن پروجیکٹ میں، آپ یہ سیکھیں گے کہ ایک پروگرام ان پٹ کے طور پر تصویر لے کر روڈ سائن کی ایک قسم کو کیسے پہچان سکتا ہے۔ جرمن روڈ سائن ریکگنیشن ریفرنس ڈیٹاسیٹ (GTSRB) کا استعمال ایک گہرے اعصابی نیٹ ورک کی تعمیر کے لیے کیا جاتا ہے تاکہ اس طبقے کو پہچانا جا سکے جس سے ٹریفک سائن کا تعلق ہے۔ ہم ایپلیکیشن کے ساتھ بات چیت کے لیے ایک سادہ GUI بھی بنا رہے ہیں۔