Por que normalmente assumimos que os dados de treinamento são iid e quais são os casos em que essa suposição é violada?

TLDR: suposições do iid ajudam a reduzir os problemas de aprendizado para estatisticamente resolver os problemas de máxima probabilidade (ou máximo a posteriori) – quanto mais forte a hipótese do iid, mais direta é a equivalência.

O problema típico de aprendizado de máquina pode ser formulado assim:

  • dados: observações feitas de pares de recursos [matemática] X [/ matemática] e resultados [matemática] y [/ matemática]
  • modelo: uma função [math] f [/ math] que mapeia o espaço do recurso para o espaço do resultado de maneira consistente com as observações, ou seja, [math] f (X) \ approx y [/ math]
  • função de perda: para algumas funções de perda [matemática] L [/ matemática], [matemática] f (X) \ aproximadamente y [/ matemática] é frequentemente traduzida como “[matemática] L (f (X), y) [/ matemática ] deve ser o menor possível sobre a distribuição conjunta de [math] (X, y) [/ math] ”em outras palavras, vamos minimizar [math] E [L (f (X), y)] [/ math]
  • minimização da perda média: uma maneira frequente de enquadrar matematicamente o objetivo é [math] \ min_ {f \ in \ mathcal {F}} \ sum_n L (f (X_n), y_n) [/ math] para [math] \ mathcal { F} [/ math] algum espaço de funções mapeando [math] X ‘[/ math] s para [math] y’ [/ math] s. e [math] n [/ math] variando em um subconjunto do espaço de índice (por exemplo, conjunto de trem ou teste) e, de fato, se os dados forem iid [math] \ frac {1} {N} \ sum_n L (f (X_n ), y_n) [/ math] converge para [math] E [L (f (X), y)] [/ math]
  • interpretação da probabilidade máxima: se você assumir que os dados são iid, essa minimização poderá ser reformulada como [math] \ max_ {f \ in \ mathcal {F}} \ prod_n e ^ {- L (f (X_n), y_n)} [/ math] que, para muitas opções comuns de [math] \ mathcal {F} [/ math] e [math] L [/ math], pode ser interpretado como um problema de probabilidade máxima.

Um exemplo clássico disso é um modelo de regressão linear:

  • [matemática] L (y_1, y_2) = | y_1 – y_2 | ^ 2 [/ math]
  • [math] \ mathcal {F} [/ math] abrange todas as funções lineares do espaço de [math] X [/ math] para o espaço de [math] y [/ math].
  • sob a hipótese, os pontos de dados são iid e que a distribuição de [math] y [/ math] condicionalmente em [math] X [/ math] é gaussiana, isso se reduz lindamente a um problema de probabilidade máxima.

Agora, essa suposição iid muito forte nem sempre faz sentido. Para análise de séries temporais, o modelo normalmente inclui muitos atrasos e o problema de aprendizado pode ser escrito como [math] f (X_t) \ approx y_t [/ math] com [math] X_ {t + 1} [/ math] muito dependente de [math] X_t [/ math] e também [math] y_ {t + 1} [/ math] em [math] y_t [/ math]. Sob algumas hipóteses (ergodicidade), verifica-se que [math] \ frac {1} {T} \ sum_t L (f (X_t), y_t) [/ math] também converge para [math] E [L (f (X) , y)] [/ matemática].

No entanto, você ainda poderá encontrar uma interpretação de probabilidade máxima disso sob suposições mais fracas (nesse caso, no exemplo de regressão linear, você só precisa assumir que os resíduos são iid).

Para a primeira pergunta:

Durante o processo de treinamento, tentamos minimizar o erro de treinamento no conjunto de treinamento, ou seja, tentamos encontrar bons parâmetros de modelo que se ajustem bem aos dados de treinamento, mas na verdade queremos que nosso modelo funcione bem nos dados de teste, portanto, a suposição iid garante que se um modelo se encaixa bem nos dados de treinamento, provavelmente terá um bom desempenho nos dados de teste.

Para a segunda pergunta, acho que quando a suposição iid for violada, a estratégia de treinamento de ‘minimizar erro de treinamento’ não funcionará mais.

Mas mesmo os dados de treinamento / teste não são mais iid, mas acredito que eles devem estar correlacionados ou ter algum padrão interno.