منشأ؟). تأملات في طبيعة العقل. الجزء الثاني

منشأ؟). تأملات في طبيعة العقل. الجزء الثاني

كلمة عن العمليات، أو كل واحد منا قليلا الرياح المعاكسة.

استمرار الخواطر في موضوع الذكاء الطبيعي والاصطناعي (AI)، الجزء الأول هنا


سؤال على الردم: هل يعيش الشخص الآن؟ لا، عندما نسير في الشارع ونتأمل العالم من حولنا بشكل مباشر، فإننا نتصرف بشكل أو بآخر في الوقت الحالى... على الرغم من أنه في الواقع - طالما أن ما نراه يمر عبر آليات الاعتراف / التصنيف المعتادة - فإن كل هذا سيكون حديثًا، لكنه لا يزال من الماضي. أولئك. هل يعيش الإنسان في الماضي؟

على سبيل المثال: أنت تمشي في الشارع ورأيت كلبًا. أو سيارة. على أية حال، إذا كنا نتحدث عن هذه اللحظة، فهذه المعلومات قديمة بالفعل. إذا تعاملنا مع البيانات التي مرت بجميع آلياتنا المعرفية (والدماغ ليس أسرع آلة حاسبة!) فإننا ببساطة لن نواكب العالم! سوف يهاجم الكلب أو على العكس من ذلك، يهرب، وستظل رغبتك في التربيت خلف الأذن غير محققة، وسوف تصطدم بك السيارة أو تمر بها، على الرغم من أن هذه السيارة هي التي أردت "التقاطها".

لكن الحمد لله أن الأمر لا يحدث بهذه الطريقة، وإليكم السبب: يعمل الدماغ بشكل مختلف. وحدة الإدراك ليست شيئًا، ولا حتى مجموعة من الأشياء، بل هي عمليات. الكلب يركض. لك أو منك. أو لا يركض بل يستلقي على سبيل المثال. كما أن السيارة ثابتة (في موقف السيارات)، أو تتحرك في اتجاه معين. وفي جميع الأحوال، فإنك تدرك عملية تمتد عبر الزمن، وبالتالي، لها تطور معين في المستقبل. عندما أقول إننا ندرك أن الأحداث تتكشف في الوقت المناسب، فهذا ليس مجازًا. قم بإجراء تجربة - التقط عشرات الصور (أي لقطات من الواقع) ووصف ما تراه. هنا عدة أشخاص في غرفة، يتشاجرون، أو هنا شخص يسير في الشارع، أو هنا جالس يشاهد التلفاز، وهنا شخص آخر يقرأ كتابًا. هذه كلها عمليات ممتدة في الوقت المناسب! أنت ترى اللقطة كشيء له امتداد. أنت لا تعرف كيفية القيام بذلك بأي طريقة أخرى، لأن هذه هي الطريقة التي يعمل بها الدماغ: يتم تدريبه على التعرف على العمليات، وليس الأشياء المعزولة على المسرح. تمامًا مثل العيون والأنف والفم، ولكن الوجه ككل (مرحبًا، الشبكات العصبية التلافيفية).

يتكون العالم من عمليات، وليس أشياء. إذا سألتك ما هو яблоко، فإن معظم البالغين سيقولون أن هذا هو الحال فاكهةوالأطفال - ما هو؟ غذاء. لكن كلاهما عبارة عن وصف للعملية، لأن الأول يعني أن هذه التفاحة ينمو على شجرة، ويخدم الشجرة في التكاثر، والثاني أنه ذلك صالحة للأكل. لا يرتبط أي منهما ولا الآخر بالخصائص المباشرة للتفاحة - الشكل واللون والحجم... لأن الخصائص تسمح بالتعرف عليها، لكنها لا تسمح باستخدامها، أو فهم مكان استخدامها في العالم الخارجي، أي. تحديد العمليات.

إذا أخذنا نقاشًا نموذجيًا حول طبيعة الزمن، فإن المسلمات الكلاسيكية ستكون حول ثبات الماضي (خارج سياق السفر عبر الزمن)، وأهمية الحاضر (هناك لحظة فقط... 😉)، والمستقبل الذي ليس موجودا بعد، مما يعني أنه يمكن تغييره. عندما نتحدث عن الواقع الموضوعي، فمن المحتمل جدًا أن يكون الأمر كذلك. ومع ذلك، يعيش الشخص في نموذجه الذاتي للعالم، وهناك كل شيء عكس ذلك تقريبا!

الماضي ليس ثابتًا كما نود. تلقي معلومات جديدة باستمرار، يعيد الشخص بناء الماضي من أجل القضاء على التناقضات (كنت تعتقد أن بيوتر ستيبانيتش كان حاضرًا في الندوة، وأنه خارج من نادٍ للتعري... وهذا يعني أنه لم يذهب إلى أي مكان، فهو، الفنان، لم يذهب على الإطلاق... ). وفي الوقت نفسه، مستقبلك الذاتي هو ثابت في العديد من الجوانب (مهما كان الأمر، يوم الجمعة لدي البيرة وكرة القدم!). علاوة على ذلك، فإن وجود هدف محدد في المستقبل، لا يؤدي فقط إلى بناء سلسلة من العمليات بترتيب عكسي (لكي تصبح مديرًا لشركة كبيرة، عليك أن تتخرج من جامعة مرموقة بشهادة، ولهذا يجب عليك التسجيل فيها أولاً، ولهذا تحتاج إلى اجتياز امتحان الدولة الموحدة جيدًا، ودراسة واجباتك المنزلية!)، ولكن من المحتمل أيضًا أن تذهب في هذه العملية إلى الماضي (أليس لدينا أصدقاء/معارف نهضوا الآن واكتسبوا علاقات ويمكنهم مساعدة طفل في الجامعة؟) - لماذا لا مكافحة العاطفة؟ 😉

ومع ذلك، أنا استطرادا قليلا. ومع ذلك، فإن الشيء الرئيسي الذي أردت التركيز عليه هو العمليات. أنا مقتنع تمامًا بأنه لا ينبغي تدريب الذكاء الاصطناعي المحتمل على الصور أو حتى مقاطع الفيديو. تحتوي الشبكة التلافيفية على مستويين (الحد الأدنى) - وفي الواقع هناك شبكتان مختلفتان: يتم تدريب إحداهما للعثور على أنماط رسومية معينة في صورة أولية، بينما تتعامل الثانية مع مخرجات الأولى - أي. مع المعلومات التي تمت معالجتها وإعدادها بالفعل. من أجل التفاعل بنجاح مع عالم الذكاء الاصطناعي، هناك حاجة إلى نفس الشيء: في بعض المستويات (وليس الأول بأي حال من الأحوال) يجب أن تكون هناك شبكة تستقبل كمدخلات خريطة العمليات التي تم الكشف عنها مع مرور الوقت. إن مفاهيم "البداية" و"النهاية" و"الحركة" و"التحول" و"الاندماج" و"التقسيم" هي ما يجب أن تتعلمه الشبكة للتعامل معه.

أنا متأكد تمامًا من أن أولئك الذين يعملون في لعبة الذكاء الاصطناعي، مثل Alpha Go، يفهمون هذا بطريقة أو بأخرى. ربما تكون المقاربات مختلفة إلى حد ما، لكن الجوهر هو نفسه: يتم تحليل الوضع الحالي على اللوحة (وفي تطور التحركات القليلة الأخيرة) لمعرفة "ما يحدث بشكل عام". واعتمادًا على مدى توافق ما يحدث مع ما يجب أن يحدث، فإننا نختار تحركاتنا بأنفسنا.

من الصعب جدًا التحدث عن الإستراتيجية/السلوك عندما يكون الإدخال عبارة عن صورة من أجهزة الاستشعار. والعكس صحيح - يعد ناقل مُجهز يحتوي على تحليل كامل للحالة الحالية للميدان في الألعاب بمعلومات كاملة (فكر في صورة كاملة للعالم) مهمة مجدية تمامًا، كما تظهر الممارسة. ومع ذلك، إذا حددت الشبكة التلافيفية للمستويات الأولى الكائنات، والمستويات التالية تحلل هذه الكائنات في الديناميكيات، وتحديد العمليات (المألوفة من التدريب، على سبيل المثال) التي تكمل البيانات التي تم الحصول عليها سابقًا، فمن الممكن العمل مع هذا. ..

أسئلة للخبراء:

ما مدى واقعية القيام بما يلي تقريبًا، مع الأخذ في الاعتبار التطورات الحالية في الشبكات العصبية:

في المدخل، لنفترض إشارة فيديو مستمرة، وربما ستيريو. كخيار: مع عدة درجات من الحرية (القدرة على تدوير الكاميرا - بشكل تعسفي، أو حسب النمط). ومع ذلك، إذا لزم الأمر، يمكن استكمال/استبدال إشارة الفيديو بأي طرق أخرى للإدراك المكاني - من السونار إلى الليدار.

بالمعنى الدقيق للكلمة…يمكن أن يكون الإدخال أي شيء في الوقت الحالى التدفق - حتى الكلام/النص، وحتى أسعار العملات، ولكن... في العملية قيد النظر، من الأسهل بالنسبة لي الاعتماد على العينة الوحيدة من العقل المتاحة لي للدراسة المباشرة - عقلي! ) وفي هذه "العينة" القناة الحسية خارج المنافسة!
عند الخروج:

  1. خريطة العمق (إذا كانت الكاميرا ثابتة) أو خريطة البيئة. المساحة (الكاميرا الديناميكية/جهاز الليدار، وما إلى ذلك)؛

    لماذامن الضروري إذا أردنا أن يكون لدينا ترتيب مكاني حقيقي للأشياء لتقييم تفاعلها. في هذه الحالة، الصورة من الكاميرا ليست سوى إسقاط ثنائي الأبعاد لمساحة ذات أبعاد أعلى، وهناك حاجة إلى تحويلات إضافية.

  2. عزل الكائنات الفردية (مع الأخذ بعين الاعتبار خريطة العمق/المساحة، وليس فقط/ليس الخطوط العريضة المرئية)؛
  3. تحديد الأجسام المتحركة (السرعة/التسارع، البناء/التنبؤ بالمسار (؟))؛
  4. تصنيف هرمي للأشياء حسب أي خصائص مستخرجة (الشكل / الأبعاد / اللون / الفروق الدقيقة في الحركة / الأجزاء المكونة (؟)). أولئك. أساسا استخراج المقاييس ل مساحات هيلبرت.

    حول التسلسل الهرميولعل كلمة "التسلسل الهرمي" ليست مناسبة تماما في هذه الحالة. أردت التأكيد على القدرة على تحديد المقاييس في أي وقت مسافة هيمينجا بينهما سمح لنا بالنظر في مجموعتين مختلفتين من المقاييس كمفهوم واحد. كيف ينبغي تعميم "السيارة الحمراء" و"الحافلة الزرقاء" على مفهوم "المركبة" على سبيل المثال.

هام: إذا كان ذلك ممكنا، لم يتم تدريب النظام مسبقا. أولئك. يمكن وضع بعض الأشياء الأساسية (على سبيل المثال، شبكة تلافيفية من الطبقة الأولى، لتسليط الضوء على الخطوط الكنتورية/الهندسة)، ولكن يجب أن تتعلم كيفية تحديد الكائنات ثم التعرف عليها لاحقًا من تلقاء نفسها.

  • وأخيرًا، إنشاء عملية مسح (استنادًا إلى النقاط 1,4، أي خريطة مكانية مع مراعاة المقاييس) في الوقت المناسب (في الوقت الحالي، في هذه المرحلة من الفترة التي تمت ملاحظتها بشكل مباشر على ما يبدو)، من أجل إجراء تحليل وفقًا للنقاط 2 -4، من أجل تحديد: العمليات/الأحداث (وهي في الأساس التغييرات في الوقت المناسب الخطوة 3) وتصنيفها العنقودي (الخطوة 4).

مرة أخرى: من الصورة المأخوذة من المستشعرات، نستخرج أولاً وصفًا للعالم بشكل أكثر استعدادًا، مع وضع علامة عليه وفقًا للميزات المستخرجة ومقسمًا ليس إلى بكسلات، بل إلى كائنات. ثم نقوم بتوسيع العالم الذي يتكون من الأشياء في الوقت المناسب وتلقى "صورة العالم" ونقوم بتغذيتها لمدخل الشبكة التالية التي تعمل معها بنفس الطريقة التي عملت بها الطبقات السابقة مع الصورة الحسية. حيث تم تسليط الضوء على ملامح الأشياء، سيتم الآن تسليط الضوء على "ملامح" العمليات الجارية. يشبه الموقع النسبي للأشياء في الفضاء علاقة السبب والنتيجة للعمليات في الزمن... شيء من هذا القبيل.

من المفترض، بعد ذلك، أن يكون النظام قادرًا على التعرف على العمليات من خلال أجزائها (حيث يكون قادرًا على التعرف على الصور، التي تحتوي على أجزائها فقط، أو - كتابة تكملة للنص حسب النموذج)، ونتيجة لذلك، التنبؤ بها للأمام والخلف في الوقت المناسب، وتوسيع نموذج الخطوة 5 بشكل غير محدود في كلا الاتجاهين. ومن المفترض أيضًا، من خلال الحصول على فكرة عن العمليات التأسيسية، يمكن للنظام أن يحدد، من بين العديد من العمليات المحلية ذات الصلة، عمليات عالمية أكبر، ونتيجة لذلك، عمليات ضمنية مخفية تشكل جزءًا لا يتجزأ من العمليات العالمية المحددة، ولكن لا يتم إدراكها بشكل مباشر.

والشيء الأخير: وجود حالة ثابتة للنظام في المستقبل (حيث يتم إصلاح العناصر المهمة فقط من مقاييس هيلبرت، مع تفسير حر للقيم المتبقية غير الأساسية) - هل الشبكة قادرة على "التفكير" في استراحة؟

حسنا، هذا هو. إذا كانت الصورة تحتوي على جزأين فقط غير مرتبطين، فهل يمكن لشبكة مدربة على بعض العينات إكمال صورة كاملة "متسقة"؟ العينة في هذه الحالة هي فترات زمنية مماثلة من الخبرة، والشظايا هي الحالات الحالية والمحددة. والنتيجة: "قصة" متسقة تربط أحدهما بالآخر...

يبدو لي أن هذا سيكون بالفعل أساسًا مهمًا جدًا لمزيد من التجارب:

  • إدراج أفعال الفرد في "التاريخ"، إذا كان ذلك ممكنًا/ضروريًا
  • أولوية أنماط السبب والنتيجة "الطبيعية" على الانبعاثات العشوائية غير المنضبطة (مشكلة الروليت)
  • بعض نسخة من الفضول، أي. الإدراك النشط للأنماط من خلال الفعل...إلخ

ملحوظة: أعترف تمامًا أنني اخترعت العجلة للتو، وأن الأشخاص ذوي المعرفة يطبقون هذه المبادئ عمليًا لفترة طويلة. 😉 في هذه الحالة، أطلب منك أن "تدخل أنفك" في التطورات ذات الصلة. وسيكون من الرائع للغاية أن يكون هناك وصف تفصيلي للمشاكل الأساسية لهذا النهج أو مبرر لعدم نجاحه من حيث المبدأ.

أنا أعلم أن النص خام، والفكرة تقفز من واحد إلى آخر، ولكنني أردت حقًا أن أطرح هذه الأسئلة على بعض الأشخاص (قسم "سؤال للخبراء")، وهذا أمر يصعب الاستغناء عنه في على الأقل بعض العرض. النص الماضي (وكنت أعيد قراءته الآن، وأدركت أنه من الصعب جدًا فهمه) لقد أدى غرضه: تلقيت العديد من المناقشات التي كانت ذات قيمة بالنسبة لي... وآمل أن تنجح هذه المرة أيضًا! 😉

المصدر: www.habr.com

إضافة تعليق