كيف تتعرف على دجال من Data Science؟

كيف تتعرف على دجال من Data Science؟
ربما تكون قد سمعت عن محللين ومتخصصين في التعلم الآلي والذكاء الاصطناعي، لكن هل سمعت عن أولئك الذين يتقاضون رواتب زائدة بشكل غير عادل؟ يقابل دجال البيانات! هذه الاختراقات، التي تغريها الوظائف المربحة، تعطي سمعة سيئة لعلماء البيانات الحقيقية. نفهم في المادة كيفية إحضار هؤلاء الأشخاص إلى المياه النظيفة.

دجالو البيانات موجودون في كل مكان

مشعوذ البيانات بارعون جدًا في الاختباء على مرأى من الجميع كن واحدا منهمدون أن يدركوا ذلك. من المحتمل أن مؤسستك تؤوي هؤلاء الأشخاص المخادعين لسنوات، ولكن الخبر السار هو أنه من السهل التعرف عليهم إذا كنت تعرف ما الذي تبحث عنه.
علامة التحذير الأولى هي عدم فهم ذلك التحليلات والإحصائيات هي تخصصات مختلفة جدا. سأشرح هذا أكثر.

تخصصات مختلفة

يتم تدريب الإحصائيين على استخلاص استنتاجات حول ما يتجاوز بياناتهم، ويتم تدريب المحللين على فحص محتوى مجموعة البيانات. بمعنى آخر، يستخلص المحللون استنتاجات حول ما هو موجود في بياناتهم، ويستخلص الإحصائيون استنتاجات حول ما لا يوجد في البيانات. يساعدك المحللون على طرح أسئلة جيدة (وضع فرضيات)، ويساعدك الإحصائيون في الحصول على إجابات جيدة (اختبر فرضياتك).

هناك أيضًا أدوار هجينة غريبة حيث يحاول الشخص الجلوس على كرسيين... لماذا لا؟ المبدأ الأساسي لعلم البيانات: إذا كنت تتعامل مع عدم اليقين، فلا يمكنك استخدامه نفس الشيء نقطة بيانات للفرضيات والاختبارات. عندما تكون البيانات محدودة، فإن عدم اليقين يفرض الاختيار بين الإحصائيات أو التحليلات. تفسير هنا.

بدون إحصائيات، سوف تظل عالقًا وغير قادر على فهم ما إذا كان الحكم الذي صاغته للتو صامدًا، وبدون تحليل، فإنك تتحرك بشكل أعمى، مع فرصة ضئيلة لترويض المجهول. هذا خيار صعب.

طريقة الدجال للخروج من هذه الفوضى هي تجاهله ثم التظاهر بالدهشة مما يحدث فجأة. يعود المنطق وراء اختبار الفرضيات الإحصائية إلى مسألة ما إذا كانت البيانات تفاجئنا بالقدر الكافي لتغيير رأينا. كيف يمكن أن نتفاجأ بالبيانات إذا كنا قد رأيناها بالفعل؟

عندما يجد الدجالون نمطًا ما، فإنهم يحصلون على الإلهام، ثم يتحققون منه نفس البيانات إلى نفس النمط، لنشر النتيجة بقيمة p شرعية أو اثنتين، بجانب نظريتهم. وبالتالي، فإنهم يكذبون عليك (وربما على أنفسهم أيضًا). لا تهم هذه القيمة الاحتمالية إذا لم تلتزم بفرضيتك إلى كيف شاهدت بياناتك. الدجالون يقلدون تصرفات المحللين والإحصائيين دون فهم الأسباب. ونتيجة لذلك، يحظى مجال علم البيانات بأكمله بسمعة سيئة.

الإحصائيون الحقيقيون يتوصلون دائمًا إلى استنتاجاتهم الخاصة

بفضل السمعة الغامضة تقريبًا التي يتمتع بها الإحصائيون بسبب تفكيرهم الصارم، بلغت كمية المعلومات المزيفة في علم البيانات أعلى مستوياتها على الإطلاق. من السهل خداعك وعدم اكتشافك، خاصة إذا كانت الضحية المطمئنة تعتقد أن الأمر كله يتعلق بالمعادلات والبيانات. مجموعة البيانات هي مجموعة بيانات، أليس كذلك؟ لا. يهم كيف تستخدمه.

لحسن الحظ، ما عليك سوى دليل واحد للقبض على المشعوذين: إنهم "يكتشفون أمريكا بأثر رجعي". من خلال إعادة اكتشاف الظواهر التي يعرفون بالفعل أنها موجودة في البيانات.

على عكس المشعوذين، فإن المحللين الجيدين منفتحون ويفهمون أن الأفكار الملهمة يمكن أن يكون لها العديد من التفسيرات المختلفة. وفي الوقت نفسه، يحدد الإحصائيون الجيدون استنتاجاتهم بعناية قبل أن يتوصلوا إليها.

يُعفى المحللون من المسؤولية... طالما أنهم يظلون ضمن نطاق بياناتهم. إذا شعروا بالإغراء للمطالبة بشيء لم يروه، فهذه مهمة أخرى تمامًا. يجب عليهم خلع حذاء المحلل وارتداء حذاء الإحصائي. بعد كل شيء، بغض النظر عن المسمى الوظيفي الرسمي، لا توجد قاعدة تنص على أنه لا يمكنك دراسة كلا المهنتين إذا كنت تريد ذلك. فقط لا تخلط بينهم.

فقط لأنك جيد في الإحصائيات لا يعني أنك جيد في التحليلات، والعكس صحيح. إذا حاول شخص ما إخبارك بخلاف ذلك، فيجب أن تكون حذرًا. إذا أخبرك هذا الشخص أنه يجوز استخلاص استنتاجات إحصائية من البيانات التي درستها بالفعل، فهذا سبب للحذر المضاعف.

تفسيرات غريبة

عند مراقبة مشعوذي البيانات في البرية، ستلاحظ أنهم يحبون اختلاق قصص خيالية "لشرح" البيانات التي يلاحظونها. كلما كان الأمر أكاديميًا، كلما كان ذلك أفضل. لا يهم أن يتم تعديل هذه القصص بعد فوات الأوان.

عندما يفعل الدجالون هذا - دعوني أكون واضحاً - فإنهم يكذبون. ولا يمكن لأي قدر من المعادلات أو المفاهيم الفاخرة أن تعوض حقيقة أنهم لم يقدموا أي دليل على نظرياتهم. لا تتفاجأ بمدى غرابة تفسيراتهم.

وهذا هو نفس إظهار قدراتك "النفسية" من خلال النظر أولاً إلى البطاقات التي بين يديك ثم توقع ما تحمله... ما الذي تحمله. هذا هو التحيز بعد فوات الأوان، ومهنة علم البيانات مليئة به إلى أقصى حد.

كيف تتعرف على دجال من Data Science؟

يقول المحللون: "لقد ذهبت للتو مع ملكة الماس". يقول الإحصائيون: «لقد كتبت فرضياتي على هذه الورقة قبل أن نبدأ. دعونا نلعب وننظر إلى بعض البيانات ونرى ما إذا كنت على حق". يقول الدجالون: "كنت أعلم أنك ستصبحين ملكة الماس لأن..."

مشاركة البيانات هي الحل السريع الذي يحتاجه الجميع.

عندما لا يكون هناك الكثير من البيانات، عليك الاختيار بين الإحصائيات والتحليلات، ولكن عندما يكون هناك أكثر من بيانات كافية، فهناك فرصة كبيرة لاستخدام التحليلات دون خداع и إحصائيات. لديك دفاع مثالي ضد المشعوذين - فصل البيانات، وفي رأيي، هذه هي أقوى فكرة في علم البيانات.

لحماية نفسك من المشعوذين، كل ما عليك فعله هو التأكد من الاحتفاظ ببعض بيانات الاختبار بعيدًا عن متناول أعين المتطفلين، ثم التعامل مع الباقي على أنه تحليلات. عندما تصادف نظرية أنت معرض لخطر قبولها، استخدمها لتقييم الموقف، ثم اكشف عن بيانات الاختبار السرية الخاصة بك للتأكد من أن النظرية ليست هراء. في غاية البساطة!

كيف تتعرف على دجال من Data Science؟
تأكد من عدم السماح لأي شخص بالاطلاع على بيانات الاختبار أثناء مرحلة الاستكشاف. للقيام بذلك، التزم ببيانات البحث. لا ينبغي استخدام بيانات الاختبار للتحليل.

هذه خطوة كبيرة للأمام عما اعتاد عليه الناس في عصر "البيانات الصغيرة"، حيث يتعين عليك شرح كيف تعرف ما تعرفه حتى تقنع الناس في النهاية أنك تعرف شيئًا ما بالفعل.

قم بتطبيق نفس القواعد على ML/AI

ومن السهل أيضًا اكتشاف بعض المشعوذين الذين يتظاهرون بأنهم خبراء في تعلم الآلة والذكاء الاصطناعي. ستقبض عليهم بنفس الطريقة التي تقبض بها على أي مهندس سيئ آخر: "الحلول" التي يحاولون بناءها تفشل باستمرار. علامة الإنذار المبكر هي نقص الخبرة في لغات البرمجة والمكتبات القياسية الصناعية.

ولكن ماذا عن الأشخاص الذين ينشئون أنظمة تبدو ناجحة؟ كيف يمكنك معرفة ما إذا كان هناك شيء مريب يحدث؟ تنطبق نفس القاعدة! The Charlatan هو شخصية شريرة توضح لك مدى نجاح النموذج... على نفس البيانات التي استخدموها لإنشاء النموذج.

إذا قمت ببناء نظام تعلم آلي معقد إلى حد الجنون، فكيف تعرف مدى جودته؟ لن تعرف ذلك حتى تظهر لها كيف تتعامل مع بيانات جديدة لم ترها من قبل.

عندما رأيت البيانات قبل التنبؤ - فهذا غير مرجح قبلتقول

عندما يكون لديك ما يكفي من البيانات لفصلها، فلن تحتاج إلى الاستشهاد بجمال صيغك لتبرير المشروع (عادة قديمة أراها في كل مكان، وليس فقط في العلوم). تستطيع أن تقول: "أعلم أن الأمر ناجح لأنه يمكنني أخذ مجموعة بيانات لم أرها من قبل والتنبؤ بالضبط بما سيحدث هناك... وسأكون على حق. مرة بعد مرة".

إن اختبار نموذجك/نظريتك مقابل البيانات الجديدة هو أفضل أساس للثقة.

أنا لا أتسامح مع الدجالين البيانات. لا يهمني إذا كان رأيك مبنيًا على حيل مختلفة. لا يعجبني جمال التوضيحات. أرني أن نظريتك/نموذجك يعمل (ويستمر في العمل) على مجموعة كاملة من البيانات الجديدة التي لم ترها من قبل. هذا هو الاختبار الحقيقي لقوة رأيك.

التواصل مع خبراء علوم البيانات

إذا كنت تريد أن يأخذك كل من يفهم هذه الفكاهة على محمل الجد، فتوقف عن الاختباء وراء معادلات خيالية لدعم التحيزات الشخصية. تبين لي ما كنت قد حصلت. إذا كنت تريد من "يفهمون ذلك" أن ينظروا إلى نظريتك/نموذجك على أنه أكثر من مجرد شعر ملهم، تحلى بالشجاعة لتقديم عرض كبير لمدى نجاحه في مجموعة جديدة تمامًا من البيانات... أمام الشهود !

نداء إلى القادة

ارفض أن تأخذ على محمل الجد أي "أفكار" حول البيانات حتى يتم اختبارها جديد بيانات. لا تشعر برغبة في بذل الجهد؟ التزم بالتحليلات، لكن لا تعتمد على هذه الأفكار - فهي غير موثوقة ولم يتم اختبار موثوقيتها. علاوة على ذلك، عندما يكون لدى منظمة ما بيانات وفيرة، ليس هناك جانب سلبي لجعل الفصل أساسيا في العلوم والحفاظ عليه على مستوى البنية التحتية من خلال التحكم في الوصول إلى بيانات الاختبار للإحصاءات. هذه طريقة رائعة لمنع الأشخاص من محاولة خداعك!

إذا كنت تريد رؤية المزيد من الأمثلة على المشعوذين الذين لا ينفعون - وهنا موضوع رائع على تويتر.

نتائج

عندما يكون هناك القليل من البيانات التي يمكن فصلها، فإن الدجال فقط هو الذي يحاول اتباع الإلهام بدقة من خلال اكتشاف أمريكا بأثر رجعي، وإعادة اكتشاف الظواهر الرياضية المعروفة بالفعل بأنها موجودة في البيانات، ووصف المفاجأة بأنها ذات أهمية إحصائية. وهذا ما يميزهم عن المحلل المنفتح الذي يتعامل مع الإلهام، والإحصائي الدقيق الذي يقدم الأدلة عند التنبؤ.

عندما يكون هناك الكثير من البيانات، اعتد على فصل البيانات حتى تتمكن من الحصول على أفضل ما في العالمين! تأكد من إجراء التحليلات والإحصائيات بشكل منفصل للمجموعات الفرعية الفردية من كومة البيانات الأصلية.

  • محللون نقدم لك الإلهام والانفتاح.
  • إحصائيات نقدم لك اختبارات صارمة.
  • المشعوذين نقدم لك رؤية ملتوية تتظاهر بأنها تحليلات وإحصائيات.

ربما، بعد قراءة المقال، سوف تخطر ببالك فكرة "هل أنا دجال"؟ هذا جيد. هناك طريقتان للتخلص من هذه الفكرة: أولاً، انظر إلى الوراء لترى ما قمت به، وما إذا كان عملك مع البيانات قد حقق فائدة عملية. وثانيًا، لا يزال بإمكانك العمل على مؤهلاتك (والتي بالتأكيد لن تكون زائدة عن الحاجة)، خاصة وأننا نمنح طلابنا المهارات والمعرفة العملية التي تسمح لهم بأن يصبحوا علماء بيانات حقيقيين.

كيف تتعرف على دجال من Data Science؟

المزيد من الدورات

اقرأ المزيد

المصدر: www.habr.com

إضافة تعليق