Quando discutimos a previsão do modelo, é importante entender os erros de previsão (viés e variância). Existe um tradeoff entre a capacidade de um modelo de minimizar o viés e a variância. Obter uma compreensão adequada desses erros nos ajudaria não apenas a construir modelos precisos, mas também a evitar o erro de sobreajuste e subajuste.

Então vamos começar com o básico e ver como eles fazem a diferença para a nossa aprendizagem de modelos na máquina.

O que é viés?

Bias é a diferença entre a previsão média do nosso modelo e o valor correto que estamos tentando prever. Modelo com alto viés dá muito pouca atenção aos dados de treinamento e simplifica demais o modelo. Ele sempre leva a erros altos nos dados de treinamento e teste.

O que é variância?

Variância é a variabilidade da previsão do modelo para um determinado ponto de dados ou um valor que nos diz a dispersão dos nossos dados. Modelo com alta variância presta muita atenção aos dados de treinamento e não generaliza sobre os dados que não tenha visto antes. Como resultado, tais modelos têm um desempenho muito bom nos dados de treinamento, mas têm altas taxas de erro nos dados de teste.

Matematicamente

Deixe a variável que estamos tentando prever como Y e outras covariáveis como X. Assumimos que existe uma relação entre as duas de tal forma que

Y=f(X) + e

Onde e é o termo de erro e é normalmente distribuído com uma média de 0,

Faremos um modelo f^(X) de f(X) usando regressão linear ou qualquer outra técnica de modelagem.

Então o erro quadrático esperado num ponto x é

>

O Err(x) pode ser decomposto como

Err(x) é a soma do Bias², variação e o erro irredutível.

O erro irredutível é o erro que não pode ser reduzido através da criação de bons modelos. É uma medida da quantidade de ruído em nossos dados. Aqui é importante entender que por melhor que façamos nosso modelo, nossos dados terão certa quantidade de ruído ou erro irredutível que não pode ser removido.

Bias e variância usando o diagrama de bulls-eye

>

No diagrama acima, o centro do alvo é um modelo que prevê perfeitamente os valores corretos. À medida que nos afastamos dos olhos dos touros, as nossas previsões tornam-se cada vez piores. Podemos repetir nosso processo de construção do modelo para obter acertos separados no alvo.

Na aprendizagem supervisionada, o subajuste acontece quando um modelo é incapaz de capturar o padrão subjacente dos dados. Estes modelos geralmente têm alto viés e baixa variância. Isso acontece quando temos muito menos dados para construir um modelo preciso ou quando tentamos construir um modelo linear com dados não lineares. Além disso, estes tipos de modelos são muito simples de capturar os padrões complexos em dados como regressão linear e logística.

Na aprendizagem supervisionada, o sobreajuste acontece quando nosso modelo captura o ruído junto com o padrão subjacente nos dados. Acontece quando treinamos muito o nosso modelo sobre o conjunto de dados ruidosos. Estes modelos têm baixo viés e alta variância. Estes modelos são muito complexos como árvores de decisão que são propensas a sobreajustamento.

Por que é o Bias Variance Tradeoff?

Se o nosso modelo é muito simples e tem muito poucos parâmetros, então ele pode ter alto viés e baixa variância. Por outro lado, se o nosso modelo tem um grande número de parâmetros, então ele vai ter alta variância e baixa polarização. Então precisamos encontrar o equilíbrio certo/bom sem sobreajustar e subajustar os dados.

Esta tradeoff em complexidade é a razão pela qual existe uma tradeoff entre o viés e a variância. Um algoritmo não pode ser mais complexo e menos complexo ao mesmo tempo.

Total Error

Para construir um bom modelo, precisamos encontrar um bom equilíbrio entre o viés e a variância de forma que ele minimize o erro total.

>>

Um equilíbrio óptimo de enviesamento e variância nunca sobreajustaria ou subajustaria o modelo.

Por isso, compreender o viés e a variância é crítico para compreender o comportamento dos modelos de previsão.

Obrigado pela leitura!

Deixe uma resposta

O seu endereço de email não será publicado.