الغرض من المقالة هو تقديم الدعم لعلماء البيانات المبتدئين. في
لماذا من المنطقي إيلاء المزيد من الاهتمام للصيغة ?
مع معادلة المصفوفة يبدأ المرء في معظم الحالات في التعرف على الانحدار الخطي. وفي الوقت نفسه، فإن الحسابات التفصيلية لكيفية اشتقاق الصيغة نادرة.
على سبيل المثال، في دورات التعلم الآلي من Yandex، عندما يتم تعريف الطلاب بالتنظيم، يُعرض عليهم استخدام وظائف من المكتبة sklearn، في حين لم يتم ذكر كلمة واحدة عن تمثيل المصفوفة للخوارزمية. في هذه اللحظة قد يرغب بعض المستمعين في فهم هذه المشكلة بمزيد من التفصيل - اكتب التعليمات البرمجية دون استخدام الوظائف الجاهزة. وللقيام بذلك، يجب عليك أولًا تقديم المعادلة باستخدام مُنظم في صورة مصفوفة. ستسمح هذه المقالة لأولئك الذين يرغبون في إتقان هذه المهارات. هيا بنا نبدأ.
الشروط الأولية
المؤشرات المستهدفة
لدينا مجموعة من القيم المستهدفة. على سبيل المثال، يمكن أن يكون المؤشر المستهدف هو سعر أي أصل: النفط، الذهب، القمح، الدولار، إلخ. وفي الوقت نفسه، نعني بعدد قيم المؤشرات المستهدفة عدد الملاحظات. يمكن أن تكون هذه الملاحظات، على سبيل المثال، أسعار النفط الشهرية لهذا العام، أي أنه سيكون لدينا 12 قيمة مستهدفة. لنبدأ في تقديم التدوين. دعونا نشير إلى كل قيمة للمؤشر المستهدف على أنها . في المجموع لدينا الملاحظات، وهو ما يعني أنه يمكننا تمثيل ملاحظاتنا كما .
الرجعيون
سنفترض أن هناك عوامل تشرح إلى حد ما قيم المؤشر المستهدف. على سبيل المثال، يتأثر سعر صرف الدولار/الروبل بشدة بسعر النفط وسعر الاحتياطي الفيدرالي وما إلى ذلك. وتسمى هذه العوامل بالعوامل التراجعية. وفي الوقت نفسه، يجب أن تتوافق كل قيمة مؤشر مستهدف مع قيمة تراجعية، أي إذا كان لدينا 12 مؤشرًا مستهدفًا لكل شهر في عام 2018، فيجب أن يكون لدينا أيضًا 12 قيمة تراجعية لنفس الفترة. دعونا نشير إلى قيم كل تراجع . دعونا في حالتنا يكون هناك المرتدون (أي العوامل التي تؤثر على قيم المؤشر المستهدف). وهذا يعني أنه يمكن عرض التراجعات لدينا على النحو التالي: بالنسبة للتراجع الأول (على سبيل المثال، سعر النفط): ، بالنسبة للمتراجع الثاني (على سبيل المثال، سعر الفائدة الفيدرالي): ، ل "-th" التراجع:
اعتماد المؤشرات المستهدفة على التراجعات
لنفترض أن اعتماد المؤشر المستهدف من المتخلفين"يمكن التعبير عن الملاحظة من خلال معادلة الانحدار الخطي من النموذج:
حيث - "-th" قيمة التراجع من 1 إلى ,
— عدد التراجعات من 1 إلى
— المعاملات الزاوية، والتي تمثل المقدار الذي سيتغير به مؤشر الهدف المحسوب في المتوسط عندما يتغير التراجع.
وبعبارة أخرى، نحن للجميع (باستثناء ) من التراجع نحدد المعامل "الخاص بنا". ، ثم اضرب المعاملات بقيم التراجعات ""الملاحظة، ونتيجة لذلك نحصل على تقريب معين"-th" مؤشر الهدف.
ولذلك، نحن بحاجة إلى اختيار مثل هذه المعاملات ، حيث تكون قيم دالتنا التقريبية سيتم تحديد موقعه في أقرب مكان ممكن من قيم المؤشر المستهدف.
تقييم جودة وظيفة التقريب
سنحدد تقييم جودة الدالة التقريبية باستخدام طريقة المربعات الصغرى. وستكون وظيفة تقييم الجودة في هذه الحالة على الشكل التالي:
نحن بحاجة إلى تحديد قيم المعاملات $w$ التي تكون قيمتها سيكون الأصغر.
تحويل المعادلة إلى شكل مصفوفة
تمثيل المتجهات
في البداية، لتسهيل حياتك، عليك الانتباه إلى معادلة الانحدار الخطي وملاحظة أن المعامل الأول لا يتضاعف من قبل أي تراجع. في الوقت نفسه، عندما نقوم بتحويل البيانات إلى نموذج مصفوفة، فإن الظروف المذكورة أعلاه ستؤدي إلى تعقيد الحسابات بشكل خطير. وفي هذا الصدد، يقترح إدخال تراجع آخر للمعامل الأول ويساويها بواحد. أو بالأحرى كل "مساواة القيمة العشرية لهذا التراجع بواحد - بعد كل شيء، عند ضربه بواحد، لن يتغير شيء من وجهة نظر نتيجة الحسابات، ولكن من وجهة نظر قواعد منتج المصفوفات، عذابنا سيتم تخفيضها بشكل ملحوظ.
الآن، في الوقت الحالي، من أجل تبسيط المادة، لنفترض أن لدينا واحدًا فقط "-الملاحظة. ثم تخيل قيم التراجعين "-th" الملاحظات كمتجه . المتجه له البعد وهذا هو، صفوف وعمود واحد:
دعونا نمثل المعاملات المطلوبة كمتجه ، ذات البعد :
معادلة الانحدار الخطي لـ "-th" سوف تأخذ الملاحظة الشكل:
ستأخذ وظيفة تقييم جودة النموذج الخطي الشكل التالي:
يرجى ملاحظة أنه وفقًا لقواعد ضرب المصفوفات، نحتاج إلى تبديل موضع المتجه .
تمثيل المصفوفة
ونتيجة لضرب المتجهات نحصل على الرقم: ، وهو أمر متوقع. هذا الرقم هو التقريب "-th" مؤشر الهدف. ولكننا لا نحتاج إلى تقدير قيمة مستهدفة واحدة فقط، بل جميعها. للقيام بذلك، دعونا نكتب كل شيء "-th" التراجعات بتنسيق المصفوفة . المصفوفة الناتجة لها البعد :
الآن سوف تأخذ معادلة الانحدار الخطي الشكل:
دعونا نشير إلى قيم المؤشرات المستهدفة (all ) لكل ناقل البعد :
يمكننا الآن كتابة معادلة تقييم جودة النموذج الخطي بتنسيق المصفوفة:
في الواقع، من هذه الصيغة نحصل على الصيغة المعروفة لنا
كيف يتم ذلك؟ يتم فتح الأقواس، ويتم التمايز، وتحويل التعبيرات الناتجة، وما إلى ذلك، وهذا بالضبط ما سنفعله الآن.
تحويلات المصفوفة
دعونا نفتح الأقواس
دعونا نجهز معادلة للتمايز
للقيام بذلك، سوف نقوم ببعض التحولات. في الحسابات اللاحقة، سيكون الأمر أكثر ملاءمة بالنسبة لنا إذا كان المتجه سيتم تمثيلها في بداية كل منتج في المعادلة.
التحويل 1
كيف حدث ذلك؟ للإجابة على هذا السؤال، ما عليك سوى إلقاء نظرة على أحجام المصفوفات التي يتم ضربها ولاحظ أنه عند الإخراج نحصل على رقم أو غير ذلك .
دعونا نكتب أحجام تعبيرات المصفوفة.
التحويل 2
دعونا نكتبها بطريقة مشابهة للتحويل 1
في الإخراج نحصل على معادلة علينا أن نفرقها:
نحن نفرق بين وظيفة تقييم جودة النموذج
دعونا نفرق فيما يتعلق بالمتجه :
أسئلة لماذا لا ينبغي أن يكون هناك، ولكننا سوف ندرس عمليات تحديد المشتقات في التعبيرين الآخرين بمزيد من التفصيل.
التمايز 1
دعونا نتوسع في التمايز:
من أجل تحديد مشتقة المصفوفة أو المتجه، عليك أن تنظر إلى ما بداخلها. دعونا ننظر:
دعونا نشير إلى منتج المصفوفات من خلال المصفوفة . مصفوفة مربع وعلاوة على ذلك، فهو متماثل. ستكون هذه الخصائص مفيدة لنا لاحقًا، فلنتذكرها. مصفوفة له البعد :
مهمتنا الآن هي ضرب المتجهات في المصفوفة بشكل صحيح وعدم الحصول على "مرتين اثنين يساوي خمسة"، لذا دعونا نركز ونكون حذرين للغاية.
ومع ذلك، فقد حققنا تعبيرا معقدا! في الواقع، حصلنا على رقم - عددي. والآن، في الواقع، ننتقل إلى الاشتقاق. من الضروري العثور على مشتق التعبير الناتج لكل معامل والحصول على متجه البعد كإخراج . فقط في حالة، سأكتب الإجراءات عن طريق العمل:
1) التفريق ، نحن نحصل:
2) التفريق ، نحن نحصل:
3) التفريق ، نحن نحصل:
الإخراج هو المتجه الموعود للحجم :
إذا نظرت إلى المتجه عن كثب، ستلاحظ أنه يمكن تجميع العناصر اليمنى واليسرى المقابلة للمتجه بطريقة يمكن، نتيجة لذلك، عزل المتجه عن المتجه المعروض حجم . على سبيل المثال (العنصر الأيسر من السطر العلوي للمتجه) (العنصر الأيمن من السطر العلوي للمتجه) يمكن تمثيله كـ و - مثل إلخ. على كل سطر. دعونا المجموعة:
دعونا نخرج المتجه وفي الإخراج نحصل على:
الآن، دعونا نلقي نظرة فاحصة على المصفوفة الناتجة. المصفوفة هي مجموع مصفوفتين :
دعونا نتذكر أننا لاحظنا قبل قليل إحدى الخصائص المهمة للمصفوفة - إنه متماثل. وبناء على هذه الخاصية، يمكننا أن نقول بثقة أن التعبير يساوي . يمكن التحقق من ذلك بسهولة عن طريق توسيع منتج المصفوفات عنصرًا تلو الآخر . لن نقوم بذلك هنا، يمكن للمهتمين التحقق من ذلك بأنفسهم.
دعنا نعود إلى تعبيرنا. وبعد تحولاتنا، أصبح الأمر كما أردنا أن نراه:
وبذلك نكون قد أكملنا التمايز الأول. دعنا ننتقل إلى التعبير الثاني.
التمايز 2
دعونا نتبع الطريق المطروق. سيكون أقصر بكثير من السابق، لذلك لا تبتعد كثيرًا عن الشاشة.
دعونا نوسع المتجهات وعنصر المصفوفة حسب العنصر:
دعونا نحذف الاثنين من الحسابات لبعض الوقت - فهو لا يلعب دورًا كبيرًا، ثم نعيده إلى مكانه. دعونا نضرب المتجهات في المصفوفة. أولًا، دعونا نضرب المصفوفة إلى المتجه ، ليس لدينا أي قيود هنا. نحصل على ناقل الحجم :
لنقم بالإجراء التالي - اضرب المتجه إلى المتجه الناتج. عند الخروج سيكون الرقم في انتظارنا:
ثم سوف نقوم بتفريقها. في الإخراج نحصل على متجه البعد :
يذكرني بشيء؟ صحيح! هذا هو نتاج المصفوفة إلى المتجه .
وهكذا تم الانتهاء من التمايز الثاني بنجاح.
بدلا من خاتمة
الآن نحن نعرف كيف جاءت المساواة .
وأخيرا، سوف نقوم بوصف طريقة سريعة لتحويل الصيغ الأساسية.
لنقم بتقييم جودة النموذج وفقًا لطريقة المربعات الصغرى:
دعونا نفرق التعبير الناتج:
أدب
مصادر الانترنت:
1)
2)
3)
4)
الكتب المدرسية ومجموعات المشاكل:
1) ملاحظات محاضرة عن الرياضيات العليا: دورة كاملة / د.ت. مكتوب – الطبعة الرابعة. - م: آيريس برس، 4
2) تحليل الانحدار التطبيقي / ن. دريبر، ج. سميث - الطبعة الثانية. – م.: المالية والإحصاء، 2 (الترجمة عن الإنجليزية)
3) مشاكل حل المعادلات المصفوفية:
المصدر: www.habr.com