Que truques posso fazer em conjuntos de dados que possuem um número muito pequeno de observações em comparação com o número de variáveis?

O problema é um pouco confuso, então vou fazer algumas suposições.

Suponho que você esteja criando um classificador, digamos binário, para simplificar. Para que, usando sinais do tipo EEG, você possa classificar seus assuntos (ou o estado dos assuntos) em dois grupos, para os quais você tem um (pequeno) conjunto de exemplos de verdade da terra. Cada exemplo no seu conjunto de dados contém muitos recursos (mais do que o número de exemplos).

Se for esse o caso, seu problema geralmente é a seleção de recursos, ou seja, encontrar os recursos realmente relevantes para o seu classificador e jogar fora os que não são. A seleção de recursos inclui algum grau de “arte”, mas há abordagens sistemáticas a serem seguidas.

Minha primeira aposta seria olhar para o que as pessoas usaram no seu domínio de problemas. Por exemplo, se os dados são EEGs, pesquise na literatura para ver quais recursos as pessoas extraem dos EEGs para executar diferentes tarefas de classificação. Mesmo que seus objetivos (a classificação do alvo) não sejam os mesmos que os seus, as pessoas que lutaram com sinais semelhantes terão uma ideia do que discrimina entre os diferentes tipos desses sinais.

Em termos mais genéricos, você pode aplicar a regularização, para evitar o ajuste excessivo causado pela alta dimensionalidade. Para uma introdução suave, no contexto de modelos lineares, o capítulo 6 de Uma introdução ao aprendizado estatístico contém uma boa conta (seu irmão mais velho, Os elementos do aprendizado estatístico , também contém um capítulo específico sobre o problema p >> N). Também há discussões sobre a situação em outros lugares, por exemplo, Número de características versus número de observações

Há também a opção de usar um classificador não linear que se adapta naturalmente a configurações de alta dimensão, como SVMs ou florestas aleatórias (mas você ainda pode precisar de regularização de qualquer maneira).

Mais uma vez, assumi um tipo de problema. Se por “variáveis” você não quis dizer “características”, mas “classes” (isto é, o que você tem um problema multi-classe indeterminado, com muitas classes), isso é uma fera diferente.

É difícil responder a essa pergunta porque não conhecemos sua motivação.

Dito isto, geralmente o PCA é uma boa técnica exploratória para começar.