Tujuan artikel adalah untuk memberikan sokongan kepada saintis data permulaan. DALAM
Mengapa masuk akal untuk memberi perhatian tambahan kepada formula ?
Ia adalah dengan persamaan matriks bahawa dalam kebanyakan kes seseorang mula membiasakan diri dengan regresi linear. Pada masa yang sama, pengiraan terperinci tentang cara formula diperoleh jarang berlaku.
Sebagai contoh, dalam kursus pembelajaran mesin daripada Yandex, apabila pelajar diperkenalkan kepada penyusunan semula, mereka ditawarkan untuk menggunakan fungsi daripada perpustakaan sklearn, manakala tiada perkataan yang disebut tentang perwakilan matriks algoritma. Pada masa inilah sesetengah pendengar mungkin ingin memahami isu ini dengan lebih terperinci - tulis kod tanpa menggunakan fungsi siap sedia. Dan untuk melakukan ini, anda mesti terlebih dahulu membentangkan persamaan dengan regularizer dalam bentuk matriks. Artikel ini akan membolehkan mereka yang ingin menguasai kemahiran tersebut. Mari kita mulakan.
Keadaan awal
Penunjuk sasaran
Kami mempunyai julat nilai sasaran. Sebagai contoh, penunjuk sasaran boleh menjadi harga mana-mana aset: minyak, emas, gandum, dolar, dsb. Pada masa yang sama, dengan beberapa nilai penunjuk sasaran yang kami maksudkan adalah bilangan pemerhatian. Pemerhatian sedemikian boleh, sebagai contoh, harga minyak bulanan untuk tahun itu, iaitu, kita akan mempunyai 12 nilai sasaran. Mari kita mula memperkenalkan notasi. Mari kita nyatakan setiap nilai penunjuk sasaran sebagai . Secara keseluruhan kami ada pemerhatian, yang bermaksud kita boleh mewakili pemerhatian kita sebagai .
Pengundur
Kami akan menganggap bahawa terdapat faktor yang pada tahap tertentu menjelaskan nilai penunjuk sasaran. Sebagai contoh, kadar pertukaran dolar/ruble sangat dipengaruhi oleh harga minyak, kadar Rizab Persekutuan, dsb. Faktor sedemikian dipanggil regressor. Pada masa yang sama, setiap nilai penunjuk sasaran mesti sepadan dengan nilai regressor, iaitu, jika kita mempunyai 12 penunjuk sasaran untuk setiap bulan pada tahun 2018, maka kita juga harus mempunyai 12 nilai regressor untuk tempoh yang sama. Mari kita nyatakan nilai setiap regressor dengan . Biar dalam kes kita ada regressor (iaitu faktor yang mempengaruhi nilai penunjuk sasaran). Ini bermakna regressor kami boleh dibentangkan seperti berikut: untuk regressor pertama (contohnya, harga minyak): , untuk regressor ke-2 (contohnya, kadar Fed): , untuk "-th" regressor:
Kebergantungan penunjuk sasaran pada regressor
Mari kita anggap bahawa pergantungan penunjuk sasaran daripada regressor"ke" pemerhatian boleh dinyatakan melalui persamaan regresi linear dalam bentuk:
Jika - "-th" nilai regressor dari 1 hingga ,
β bilangan regressor dari 1 hingga
β pekali sudut, yang mewakili jumlah penunjuk sasaran yang dikira akan berubah secara purata apabila regressor berubah.
Dengan kata lain, kami adalah untuk semua orang (kecuali ) daripada regressor yang kita tentukan pekali "kita". , kemudian darabkan pekali dengan nilai regressor "ke" pemerhatian, sebagai hasilnya kita memperoleh anggaran tertentu "-th" penunjuk sasaran.
Oleh itu, kita perlu memilih pekali sedemikian , di mana nilai fungsi anggaran kami akan ditempatkan sedekat mungkin dengan nilai penunjuk sasaran.
Menilai kualiti fungsi anggaran
Kami akan menentukan penilaian kualiti fungsi anggaran menggunakan kaedah kuasa dua terkecil. Fungsi penilaian kualiti dalam kes ini akan mengambil bentuk berikut:
Kita perlu memilih nilai pekali $w$ yang mana nilainya akan menjadi yang terkecil.
Menukarkan persamaan ke dalam bentuk matriks
Perwakilan vektor
Sebagai permulaan, untuk menjadikan hidup anda lebih mudah, anda harus memberi perhatian kepada persamaan regresi linear dan perhatikan bahawa pekali pertama tidak didarab dengan mana-mana regressor. Pada masa yang sama, apabila kita menukar data ke dalam bentuk matriks, keadaan yang disebutkan di atas akan merumitkan pengiraan secara serius. Dalam hal ini, adalah dicadangkan untuk memperkenalkan satu lagi regressor untuk pekali pertama dan samakan dengan satu. Atau sebaliknya, setiap "samakan nilai ke-regressor ini kepada satu - selepas semua, apabila didarab dengan satu, tiada apa yang akan berubah dari sudut pandangan hasil pengiraan, tetapi dari sudut pandangan peraturan untuk hasil darab matriks, siksaan kita akan berkurangan dengan ketara.
Sekarang, buat masa ini, untuk memudahkan bahan, mari kita anggap bahawa kita hanya mempunyai satu "-th" pemerhatian. Kemudian, bayangkan nilai-nilai regressor "-th" pemerhatian sebagai vektor . vektor mempunyai dimensi Iaitu, baris dan 1 lajur:
Mari kita wakili pekali yang diperlukan sebagai vektor , mempunyai dimensi :
Persamaan regresi linear untuk "-th" pemerhatian akan mengambil bentuk:
Fungsi untuk menilai kualiti model linear akan mengambil bentuk:
Sila ambil perhatian bahawa mengikut peraturan pendaraban matriks, kami perlu menukar vektor .
Perwakilan matriks
Hasil daripada mendarabkan vektor, kita mendapat nombor: , yang diharapkan. Nombor ini adalah anggaran "-th" penunjuk sasaran. Tetapi kita memerlukan anggaran bukan hanya satu nilai sasaran, tetapi kesemuanya. Untuk melakukan ini, mari kita tulis segala-galanya "-th" regressor dalam format matriks . Matriks yang terhasil mempunyai dimensi :
Sekarang persamaan regresi linear akan mengambil bentuk:
Mari kita nyatakan nilai penunjuk sasaran (semua ) setiap vektor dimensi :
Sekarang kita boleh menulis persamaan untuk menilai kualiti model linear dalam format matriks:
Sebenarnya, daripada formula ini kita seterusnya memperoleh formula yang kita ketahui
Bagaimana ia dilakukan? Tanda kurung dibuka, pembezaan dijalankan, ungkapan yang terhasil diubah, dsb., dan inilah yang akan kita lakukan sekarang.
Transformasi matriks
Jom buka kurungan
Mari kita sediakan persamaan untuk pembezaan
Untuk melakukan ini, kami akan melakukan beberapa transformasi. Dalam pengiraan seterusnya ia akan menjadi lebih mudah bagi kita jika vektor akan diwakili pada permulaan setiap produk dalam persamaan.
Penukaran 1
Bagaimana ia berlaku? Untuk menjawab soalan ini, lihat sahaja saiz matriks yang didarab dan lihat bahawa pada output kita mendapat nombor atau sebaliknya .
Mari kita tuliskan saiz ungkapan matriks.
Penukaran 2
Marilah kita menulisnya dengan cara yang serupa dengan transformasi 1
Pada output kita mendapat persamaan yang perlu kita bezakan:
Kami membezakan fungsi penilaian kualiti model
Mari kita bezakan berkenaan dengan vektor :
Soalan mengapa tidak sepatutnya ada, tetapi kami akan mengkaji operasi untuk menentukan derivatif dalam dua ungkapan lain dengan lebih terperinci.
Pembezaan 1
Mari kita kembangkan pembezaan:
Untuk menentukan derivatif matriks atau vektor, anda perlu melihat apa yang ada di dalamnya. Mari lihat:
Mari kita nyatakan hasil darab matriks melalui matriks . Matriks segi empat sama dan lebih-lebih lagi, ia adalah simetri. Ciri-ciri ini akan berguna kepada kita nanti, mari kita ingat mereka. Matriks mempunyai dimensi :
Sekarang tugas kita ialah untuk mendarabkan vektor dengan betul dengan matriks dan tidak mendapat "dua kali dua ialah lima," jadi mari kita tumpukan perhatian dan berhati-hati.
Walau bagaimanapun, kami telah mencapai ungkapan yang rumit! Malah, kami mendapat nombor - skalar. Dan sekarang, sebenarnya, kita beralih kepada pembezaan. Ia adalah perlu untuk mencari terbitan bagi ungkapan yang terhasil bagi setiap pekali dan dapatkan vektor dimensi sebagai output . Untuk berjaga-jaga, saya akan menuliskan prosedur melalui tindakan:
1) membezakan dengan , kita mendapatkan:
2) membezakan dengan , kita mendapatkan:
3) membezakan dengan , kita mendapatkan:
Output adalah vektor saiz yang dijanjikan :
Jika anda melihat vektor dengan lebih dekat, anda akan melihat bahawa elemen kiri dan kanan yang sepadan bagi vektor boleh dikumpulkan sedemikian rupa sehingga, sebagai hasilnya, vektor boleh diasingkan daripada vektor yang dibentangkan. saiz . Contohnya (elemen kiri baris atas vektor) (elemen kanan baris atas vektor) boleh diwakili sebagai Dan - sebagai dan lain-lain. pada setiap baris. Mari berkumpul:
Mari kita keluarkan vektor dan pada output kita dapat:
Sekarang, mari kita lihat lebih dekat pada matriks yang terhasil. Matriks ialah hasil tambah dua matriks :
Mari kita ingat bahawa sedikit lebih awal kita perhatikan satu sifat penting matriks - ia adalah simetri. Berdasarkan sifat ini, kita dengan yakin boleh mengatakan bahawa ungkapan itu sama dengan . Ini boleh disahkan dengan mudah dengan mengembangkan hasil darab unsur matriks demi unsur . Kami tidak akan melakukan ini di sini; mereka yang berminat boleh menyemaknya sendiri.
Mari kita kembali kepada ekspresi kita. Selepas transformasi kami, ternyata seperti yang kami mahu lihat:
Jadi, kami telah menyelesaikan pembezaan pertama. Mari kita beralih kepada ungkapan kedua.
Pembezaan 2
Mari ikut jalan yang dipukul. Ia akan menjadi lebih pendek daripada yang sebelumnya, jadi jangan pergi terlalu jauh dari skrin.
Mari kembangkan vektor dan elemen matriks demi elemen:
Mari kita keluarkan kedua-duanya dari pengiraan untuk seketika - ia tidak memainkan peranan yang besar, kemudian kita akan meletakkannya semula di tempatnya. Mari kita darabkan vektor dengan matriks. Pertama sekali, mari kita darabkan matriks kepada vektor , kami tiada sekatan di sini. Kami mendapat vektor saiz :
Mari lakukan tindakan berikut - darabkan vektor kepada vektor yang terhasil. Di pintu keluar nombor akan menunggu kami:
Kemudian kita akan membezakannya. Pada output kita mendapat vektor dimensi :
Mengingatkan saya tentang sesuatu? betul! Ini ialah hasil darab matriks kepada vektor .
Oleh itu, pembezaan kedua berjaya diselesaikan.
Daripada kesimpulan
Sekarang kita tahu bagaimana kesaksamaan berlaku .
Akhir sekali, kami akan menerangkan cara cepat untuk mengubah formula asas.
Mari kita menilai kualiti model mengikut kaedah kuasa dua terkecil:
Mari kita bezakan ungkapan yang terhasil:
Kesusasteraan
Sumber Internet:
1)
2)
3)
4)
Buku teks, koleksi masalah:
1) Nota kuliah matematik tinggi: kursus penuh / D.T. Ditulis - ed ke-4. β M.: Iris-press, 2006
2) Analisis regresi yang digunakan / N. Draper, G. Smith - ed ke-2. β M.: Kewangan dan Statistik, 1986 (terjemahan dari bahasa Inggeris)
3) Masalah untuk menyelesaikan persamaan matriks:
Sumber: www.habr.com