14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

علم البيانات للمبتدئين

1. تحليل المشاعر (تحليل المشاعر من خلال النص)

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

تحقق من التنفيذ الكامل لمشروع علوم البيانات باستخدام كود المصدر − مشروع تحليل المشاعر في R.

تحليل المشاعر هو تحليل الكلمات لتحديد المشاعر والآراء، والتي يمكن أن تكون إيجابية أو سلبية. هذا نوع من التصنيف يمكن أن تكون فيه الفئات ثنائية (إيجابية وسلبية) أو جمع (سعيد، غاضب، حزين، مقرف...). سنقوم بتنفيذ مشروع علوم البيانات هذا بلغة R وسنستخدم مجموعة البيانات الموجودة في الحزمة "janeaustenR". سنستخدم قواميس للأغراض العامة مثل AFINN وbing وloughran، ونجري صلة داخلية، وفي النهاية سنقوم بإنشاء سحابة كلمات لعرض النتيجة.

اللغة: R
مجموعة البيانات/الحزمة: جاناوستن آر

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

تمت ترجمة المقال بدعم من EDISON Software ، والتي يصنع غرف تركيب افتراضية للمتاجر متعددة العلامات التجاريةو برامج الاختبارات.

2. كشف الأخبار المزيفة

ارتق بمهاراتك إلى المستوى التالي من خلال العمل على مشروع علوم البيانات للمبتدئين - الكشف عن الأخبار المزيفة باستخدام بايثون.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

الأخبار المزيفة هي معلومات كاذبة تنتشر عبر وسائل التواصل الاجتماعي ووسائل الإعلام الأخرى عبر الإنترنت لتحقيق أهداف سياسية. في فكرة مشروع علم البيانات هذه، سنستخدم لغة Python لبناء نموذج يمكنه تحديد ما إذا كانت القصة الإخبارية حقيقية أم مزيفة بدقة. سنقوم بإنشاء TfidfVectorizer واستخدام PassiveAggressiveClassifier لتصنيف الأخبار إلى "حقيقية" و"مزيفة". سوف نستخدم مجموعة بيانات بالشكل 7796×4 ونقوم بتشغيل كل شيء في Jupyter Lab.

اللغة: بايثون

مجموعة البيانات/الحزمة: news.csv

3. الكشف عن مرض باركنسون

المضي قدمًا في فكرة مشروع علوم البيانات الخاصة بك - الكشف عن مرض باركنسون باستخدام XGBoost.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

لقد بدأنا في استخدام علم البيانات لتحسين الرعاية الصحية والخدمات - إذا تمكنا من التنبؤ بالمرض في مرحلة مبكرة، فسنحصل على العديد من المزايا. لذلك، في فكرة مشروع علم البيانات هذه، سوف نتعلم كيفية اكتشاف مرض باركنسون باستخدام بايثون. هو مرض تنكس عصبي تقدمي يصيب الجهاز العصبي المركزي ويؤثر على الحركة ويسبب الرعشات والتصلب. فهو يؤثر على الخلايا العصبية المنتجة للدوبامين في الدماغ، ويؤثر كل عام على أكثر من مليون شخص في الهند.

اللغة: بايثون

مجموعة البيانات/الحزمة: مجموعة بيانات UCI ML Parkinsons

مشاريع علوم البيانات متوسطة التعقيد

4. التعرف على عواطف الكلام

تحقق من التنفيذ الكامل لمشروع مثال علوم البيانات - التعرف على الكلام باستخدام Librosa.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

دعونا نتعلم الآن كيفية استخدام المكتبات المختلفة. يستخدم مشروع علوم البيانات هذا librosa للتعرف على الكلام. SER هي عملية تحديد المشاعر الإنسانية والحالات العاطفية من الكلام. نظرًا لأننا نستخدم النغمة وطبقة الصوت للتعبير عن المشاعر بأصواتنا، فإن SER مناسب. ولكن نظرًا لأن المشاعر ذاتية، فإن التعليق الصوتي يمثل مهمة صعبة. سوف نستخدم وظائف mfcc وchroma وmel ونستخدم مجموعة بيانات RAVDESS للتعرف على المشاعر. سنقوم بإنشاء مصنف MLPC لهذا النموذج.

اللغة: بايثون

مجموعة البيانات/الحزمة: مجموعة بيانات RAVDESS

5. كشف الجنس والعمر

أبهر أصحاب العمل بأحدث مشروع لعلم البيانات - تحديد الجنس والعمر باستخدام OpenCV.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

هذا علم بيانات مثير للاهتمام مع بايثون. باستخدام صورة واحدة فقط، سوف تتعلم التنبؤ بجنس الشخص وعمره. في هذا سوف نقدم لك رؤية الكمبيوتر ومبادئها. سوف نبني الشبكة العصبية التلافيفية وسوف نستخدم النماذج التي تم تدريبها بواسطة Tal Hassner وGil Levy على مجموعة بيانات Adience. على طول الطريق سوف نستخدم بعض الملفات .pb، .pbtxt، .prototxt و.caffemodel.

اللغة: بايثون

مجموعة البيانات/الحزمة: الحضور

6. تحليل بيانات أوبر

تحقق من التنفيذ الكامل لمشروع علوم البيانات باستخدام كود المصدر − مشروع تحليل بيانات أوبر في R.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

هذا مشروع لتصور البيانات باستخدام ggplot2 حيث سنستخدم لغة R ومكتباتها ونحلل المعلمات المختلفة. سنستخدم مجموعة بيانات Uber Pickups New York City وسننشئ تصورات لأطر زمنية مختلفة من العام. يخبرنا هذا كيف يؤثر الوقت على سفر العملاء.

اللغة: R

مجموعة البيانات/الحزمة: مجموعة بيانات Uber Pickups في مدينة نيويورك

7. كشف نعاس السائق

قم بتحسين مهاراتك من خلال العمل على مشروع Top Data Science - نظام كشف النعاس مع OpenCV وKeras.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

القيادة أثناء النعاس أمر خطير للغاية، حيث يقع ما يقرب من ألف حادث كل عام بسبب نوم السائقين أثناء القيادة. في مشروع بايثون هذا، سنقوم بإنشاء نظام يمكنه اكتشاف السائقين الذين يشعرون بالنعاس وتنبيههم أيضًا بإشارة صوتية.

يتم تنفيذ هذا المشروع باستخدام Keras وOpenCV. سوف نستخدم OpenCV للكشف عن الوجه والعين، ومع Keras سنصنف حالة العين (مفتوحة أو مغلقة) باستخدام تقنيات الشبكة العصبية العميقة.

8. الشات بوت

قم بإنشاء Chatbot باستخدام Python واتخاذ خطوة للأمام في حياتك المهنية - Chatbot مع NLTK وKeras.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

تعتبر Chatbots جزءًا لا يتجزأ من الأعمال. يتعين على العديد من الشركات تقديم الخدمات لعملائها، ويتطلب الأمر الكثير من القوى العاملة والوقت والجهد لخدمتهم. يمكن لروبوتات الدردشة أتمتة الكثير من تفاعلات العملاء من خلال الإجابة على بعض الأسئلة الشائعة التي يطرحها العملاء. هناك نوعان أساسيان من روبوتات الدردشة: خاصة بالمجال ومجال مفتوح. غالبًا ما يتم استخدام برنامج الدردشة الآلي الخاص بالمجال لحل مشكلة معينة. لذلك، تحتاج إلى تخصيصه للعمل بفعالية في مجال عملك. يمكن طرح أية أسئلة على روبوتات الدردشة ذات النطاق المفتوح، لذا فإن تدريبها يتطلب كمية هائلة من البيانات.

مجموعة البيانات: النوايا ملف json

اللغة: بايثون

مشاريع علوم البيانات المتقدمة

9. مولد التسمية التوضيحية للصورة

تحقق من التنفيذ الكامل للمشروع باستخدام كود المصدر − مولد التسميات التوضيحية للصورة مع CNN وLSTM.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

وصف ما هو موجود في الصورة هو مهمة سهلة بالنسبة للبشر، ولكن بالنسبة لأجهزة الكمبيوتر، الصورة هي مجرد سلسلة من الأرقام التي تمثل قيمة اللون لكل بكسل. هذه مهمة صعبة لأجهزة الكمبيوتر. يعد فهم ما هو موجود في الصورة ثم إنشاء وصف باللغة الطبيعية (مثل الإنجليزية) مهمة صعبة أخرى. يستخدم هذا المشروع تقنيات التعلم العميق التي نقوم من خلالها بتنفيذ شبكة عصبية تلافيفية (CNN) مع شبكة عصبية متكررة (LSTM) لإنشاء مولد وصف الصورة.

مجموعة البيانات: فليكر 8K

اللغة: بايثون

نطاق: Keras

10. كشف الاحتيال على بطاقات الائتمان

ابذل قصارى جهدك أثناء العمل على فكرة مشروع علوم البيانات الخاصة بك - اكتشاف الاحتيال على بطاقات الائتمان باستخدام التعلم الآلي.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

لقد بدأت الآن في فهم التقنيات والمفاهيم. دعنا ننتقل إلى بعض مشاريع علوم البيانات المتقدمة. في هذا المشروع سوف نستخدم لغة R مع خوارزميات مثل أشجار القراروالانحدار اللوجستي والشبكات العصبية الاصطناعية ومصنف تعزيز التدرج. سوف نستخدم مجموعة بيانات من معاملات البطاقة لتصنيف معاملات بطاقات الائتمان على أنها احتيالية أو حقيقية. سنختار نماذج مختلفة لهم ونبني منحنيات الأداء.

اللغة: R

مجموعة البيانات/الحزمة: مجموعة بيانات معاملات البطاقة

11. نظام توصية الفيلم

دراسة تنفيذ أفضل مشروع Data Science مع Source Code - نظام توصية الفيلم بلغة R

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

في مشروع علوم البيانات هذا، سنستخدم لغة R لتنفيذ توصيات الفيلم من خلال التعلم الآلي. يرسل نظام التوصيات اقتراحات للمستخدمين من خلال عملية تصفية بناءً على تفضيلات المستخدمين الآخرين وسجل التصفح. إذا كان A وB يحبان Home Alone، وB يحب Mean Girls، فيمكنك اقتراح A - فقد يعجبهما أيضًا. وهذا يسمح للعملاء بالتفاعل مع المنصة.

اللغة: R

مجموعة البيانات/الحزمة: مجموعة بيانات MovieLens

12. تقسيم العملاء

إقناع أصحاب العمل بمشروع علوم البيانات (بما في ذلك كود المصدر) - تجزئة العملاء باستخدام التعلم الآلي.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

يعد تجزئة المشترين تطبيقًا شائعًا تعليم غير مشرف عليه. باستخدام التجميع، تحدد الشركات شرائح العملاء لاستهداف قاعدة مستخدمين محتملة. يقومون بتقسيم العملاء إلى مجموعات وفقًا للخصائص المشتركة مثل الجنس والعمر والاهتمامات وعادات الإنفاق حتى يتمكنوا من تسويق منتجاتهم بشكل فعال لكل مجموعة. سوف نستخدم K- يعني التجميع، وكذلك تصور التوزيع حسب الجنس والعمر. سنقوم بعد ذلك بتحليل مستويات دخلهم ونفقاتهم السنوية.

اللغة: R

مجموعة البيانات/الحزمة: مجموعة بيانات عملاء Mall_Customers

13. تصنيف سرطان الثدي

تحقق من التنفيذ الكامل لمشروع علوم البيانات في بايثون − تصنيف سرطان الثدي باستخدام التعلم العميق.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

وبالعودة إلى المساهمة الطبية لعلم البيانات، فلنتعلم كيفية اكتشاف سرطان الثدي باستخدام بايثون. سوف نستخدم مجموعة بيانات IDC_regular لتحديد سرطان الأقنية الغازية، وهو الشكل الأكثر شيوعًا لسرطان الثدي. يتطور في قنوات الحليب، ويحفر في أنسجة الثدي الليفية أو الدهنية خارج القناة. في فكرة المشروع العلمي لجمع البيانات هذه سوف نستخدمها تعلم عميق ومكتبة كيراس للتصنيف.

اللغة: بايثون

مجموعة البيانات/الحزمة: IDC_regular

14. التعرف على إشارات المرور

تحقيق الدقة في تكنولوجيا القيادة الذاتية من خلال مشروع Data Science التعرف على إشارات المرور باستخدام CNN مفتوح المصدر.

14 مشروعًا مفتوح المصدر لتحسين مهارات علوم البيانات (سهلة ، عادية ، صعبة)

تعتبر علامات الطريق وقواعد المرور مهمة جدًا لكل سائق لتجنب وقوع الحوادث. لاتباع القاعدة، عليك أولاً أن تفهم كيف تبدو علامة الطريق. يجب على الشخص أن يتعلم جميع إشارات الطريق قبل أن يتم منحه رخصة قيادة أي مركبة. ولكن الآن عدد المركبات ذاتية القيادة آخذ في الازدياد، وفي المستقبل القريب لن يقوم الشخص بقيادة السيارة بشكل مستقل. في مشروع التعرف على لافتات الطريق، سوف تتعلم كيف يمكن للبرنامج التعرف على نوع لافتات الطريق عن طريق التقاط صورة كمدخل. تُستخدم مجموعة البيانات المعيارية للتعرف على إشارات المرور الألمانية (GTSRB) لبناء شبكة عصبية عميقة للتعرف على الفئة التي تنتمي إليها إشارة المرور. نقوم أيضًا بإنشاء واجهة مستخدم رسومية بسيطة للتفاعل مع التطبيق.

اللغة: بايثون

مجموعة البيانات: GTSRB (معيار التعرف على إشارات المرور الألمانية)

اقرأ أكثر

المصدر: www.habr.com

إضافة تعليق