O objetivo do artigo é fornecer suporte aos cientistas de dados iniciantes. EM
Por que faz sentido prestar atenção extra à fórmula ?
É com a equação matricial que na maioria dos casos se começa a familiarizar-se com a regressão linear. Ao mesmo tempo, cálculos detalhados de como a fórmula foi derivada são raros.
Por exemplo, em cursos de aprendizado de máquina da Yandex, quando os alunos são apresentados à regularização, eles podem usar funções da biblioteca aprender, embora nenhuma palavra seja mencionada sobre a representação matricial do algoritmo. É neste momento que alguns ouvintes podem querer entender esse assunto com mais detalhes - escrever código sem usar funções prontas. E para fazer isso, primeiro você deve apresentar a equação com um regularizador em forma de matriz. Este artigo permitirá que aqueles que desejam dominar tais habilidades. Vamos começar.
Condições iniciais
Indicadores de meta
Temos uma gama de valores-alvo. Por exemplo, o indicador alvo poderia ser o preço de qualquer ativo: petróleo, ouro, trigo, dólar, etc. Ao mesmo tempo, por um número de valores de indicadores-alvo entendemos o número de observações. Tais observações poderiam ser, por exemplo, os preços mensais do petróleo para o ano, ou seja, teremos 12 valores-alvo. Vamos começar a apresentar a notação. Vamos denotar cada valor do indicador de meta como . No total temos observações, o que significa que podemos representar nossas observações como .
Regressores
Assumiremos que existem fatores que explicam até certo ponto os valores do indicador-alvo. Por exemplo, a taxa de câmbio dólar/rublo é fortemente influenciada pelo preço do petróleo, pela taxa da Reserva Federal, etc. Tais factores são chamados regressores. Ao mesmo tempo, cada valor de indicador-alvo deve corresponder a um valor de regressor, ou seja, se tivermos 12 indicadores-alvo para cada mês de 2018, então deveremos ter também 12 valores de regressor para o mesmo período. Vamos denotar os valores de cada regressor por . Deixe no nosso caso haver regressores (ou seja, fatores que influenciam os valores do indicador-alvo). Isto significa que os nossos regressores podem ser apresentados da seguinte forma: para o 1º regressor (por exemplo, o preço do petróleo): , para o 2º regressor (por exemplo, a taxa do Fed): , para "-º" regressor:
Dependência dos indicadores-alvo dos regressores
Suponhamos que a dependência do indicador alvo dos regressores "a" observação pode ser expressa através de uma equação de regressão linear da forma:
Onde - "-ésimo" valor do regressor de 1 a ,
— número de regressores de 1 a
— coeficientes angulares, que representam o valor pelo qual o indicador-alvo calculado irá variar, em média, quando o regressor mudar.
Em outras palavras, somos para todos (exceto ) do regressor determinamos “nosso” coeficiente , então multiplique os coeficientes pelos valores dos regressores "a" observação, como resultado obtemos uma certa aproximação "-th" indicador de meta.
Portanto, precisamos selecionar tais coeficientes , em que os valores da nossa função de aproximação estará localizado o mais próximo possível dos valores do indicador-alvo.
Avaliando a qualidade da função de aproximação
Determinaremos a avaliação da qualidade da função de aproximação usando o método dos mínimos quadrados. A função de avaliação da qualidade, neste caso, assumirá a seguinte forma:
Precisamos selecionar os valores dos coeficientes $w$ para os quais o valor será o menor.
Convertendo a equação em forma de matriz
Representação vetorial
Para começar, para facilitar sua vida, você deve prestar atenção na equação de regressão linear e perceber que o primeiro coeficiente não é multiplicado por nenhum regressor. Ao mesmo tempo, quando convertemos os dados em forma matricial, a circunstância acima mencionada complicará seriamente os cálculos. Neste sentido, propõe-se a introdução de outro regressor para o primeiro coeficiente e igualá-lo a um. Ou melhor, cada "igualar o valor desse regressor a um - afinal, quando multiplicado por um, nada mudará do ponto de vista do resultado dos cálculos, mas do ponto de vista das regras para o produto de matrizes, nosso tormento será significativamente reduzido.
Agora, por enquanto, para simplificar o material, vamos supor que temos apenas um "-ª" observação. Então, imagine os valores dos regressores”-th" observações como um vetor . Vetor tem dimensão Isto é, linhas e 1 coluna:
Vamos representar os coeficientes necessários como um vetor , tendo dimensão :
Equação de regressão linear para "-th" observação assumirá a forma:
A função de avaliação da qualidade de um modelo linear terá a forma:
Observe que, de acordo com as regras de multiplicação de matrizes, precisávamos transpor o vetor .
Representação matricial
Como resultado da multiplicação de vetores, obtemos o número: , o que é de se esperar. Este número é a aproximação "-th" indicador de meta. Mas precisamos de uma aproximação não apenas de um valor-alvo, mas de todos eles. Para fazer isso, vamos anotar tudo “-th" regressores em formato de matriz . A matriz resultante tem a dimensão :
Agora a equação de regressão linear terá a forma:
Vamos denotar os valores dos indicadores-alvo (todos ) por vetor dimensão :
Agora podemos escrever a equação para avaliar a qualidade de um modelo linear em formato matricial:
Na verdade, a partir desta fórmula obtemos ainda a fórmula que conhecemos
Como isso é feito? Os colchetes são abertos, a diferenciação é feita, as expressões resultantes são transformadas, etc., e é exatamente isso que faremos agora.
Transformações matriciais
Vamos abrir os colchetes
Vamos preparar uma equação para diferenciação
Para isso, realizaremos algumas transformações. Nos cálculos subsequentes, será mais conveniente para nós se o vetor será representado no início de cada produto da equação.
Conversão 1
Como isso aconteceu? Para responder a essa pergunta, basta olhar para os tamanhos das matrizes que estão sendo multiplicadas e ver que na saída obtemos um número ou não .
Vamos anotar os tamanhos das expressões matriciais.
Conversão 2
Vamos escrevê-lo de forma semelhante à transformação 1
Na saída obtemos uma equação que temos que diferenciar:
Diferenciamos a função de avaliação da qualidade do modelo
Vamos diferenciar em relação ao vetor :
Perguntas por que não deveria haver, mas examinaremos com mais detalhes as operações para determinar derivadas nas outras duas expressões.
Diferenciação 1
Vamos expandir a diferenciação:
Para determinar a derivada de uma matriz ou vetor, você precisa observar o que está dentro deles. Vamos olhar:
Vamos denotar o produto de matrizes através da matriz . O Matrix quadrado e, além disso, é simétrico. Essas propriedades nos serão úteis mais tarde, vamos lembrá-las. Matriz tem dimensão :
Agora nossa tarefa é multiplicar corretamente os vetores pela matriz e não obter “duas vezes dois é cinco”, então vamos nos concentrar e ser extremamente cuidadosos.
No entanto, conseguimos uma expressão complexa! Na verdade, obtivemos um número - um escalar. E agora, de verdade, passamos à diferenciação. É necessário encontrar a derivada da expressão resultante para cada coeficiente e obtenha o vetor de dimensão como saída . Por precaução, anotarei os procedimentos por ação:
1) diferencie por , Nós temos:
2) diferencie por , Nós temos:
3) diferencie por , Nós temos:
A saída é o vetor de tamanho prometido :
Se você olhar o vetor mais de perto, notará que os elementos esquerdo e direito correspondentes do vetor podem ser agrupados de tal forma que, como resultado, um vetor pode ser isolado do vetor apresentado tamanho . Por exemplo, (elemento esquerdo da linha superior do vetor) (o elemento direito da linha superior do vetor) pode ser representado como E - Como etc. em cada linha. Vamos agrupar:
Vamos retirar o vetor e na saída obtemos:
Agora, vamos dar uma olhada mais de perto na matriz resultante. A matriz é a soma de duas matrizes :
Lembremos que um pouco antes notamos uma propriedade importante da matriz - é simétrico. Com base nesta propriedade, podemos dizer com segurança que a expressão é igual . Isso pode ser facilmente verificado expandindo o produto das matrizes elemento por elemento . Não faremos isso aqui, os interessados podem conferir por conta própria.
Voltemos à nossa expressão. Após nossas transformações, ficou do jeito que queríamos:
Então, completamos a primeira diferenciação. Vamos passar para a segunda expressão.
Diferenciação 2
Vamos seguir o caminho batido. Será bem mais curto que o anterior, então não se afaste muito da tela.
Vamos expandir os vetores e a matriz elemento por elemento:
Vamos remover os dois dos cálculos por um tempo - isso não desempenha um grande papel, então vamos colocá-los de volta em seu lugar. Vamos multiplicar os vetores pela matriz. Primeiro de tudo, vamos multiplicar a matriz para vetorizar , não temos restrições aqui. Obtemos o vetor de tamanho :
Vamos realizar a seguinte ação - multiplicar o vetor ao vetor resultante. Na saída o número estará nos esperando:
Então vamos diferenciá-lo. Na saída obtemos um vetor de dimensão :
Lembra-me de alguma coisa? Isso mesmo! Este é o produto da matriz para vetorizar .
Assim, a segunda diferenciação é concluída com sucesso.
Em vez de uma conclusão
Agora sabemos como surgiu a igualdade .
Finalmente, descreveremos uma maneira rápida de transformar fórmulas básicas.
Vamos avaliar a qualidade do modelo de acordo com o método dos mínimos quadrados:
Vamos diferenciar a expressão resultante:
Literatura
Fontes da Internet:
1)
2)
3)
4)
Livros didáticos, coleções de problemas:
1) Notas de aula sobre matemática superior: curso completo / D.T. Escrito – 4ª ed. – M.: Iris-press, 2006
2) Análise de regressão aplicada / N. Draper, G. Smith - 2ª ed. – M.: Finanças e Estatística, 1986 (tradução do inglês)
3) Problemas para resolver equações matriciais:
Fonte: habr.com