Quais são as vantagens e desvantagens do treinamento de redes neurais artificiais por meio de propagação traseira, um algoritmo probabilístico de escalada, uma combinação dos dois e outros métodos, se existirem?

[…] O problema do tamanho da etapa
O problema do tamanho da etapa ocorre porque o método de propagação reversa padrão calculou apenas ∂E⁄∂w , a primeira derivada parcial da função de erro geral em relação a cada peso na rede. Dê a essas derivadas, podemos realizar uma descida gradiente no espaço de peso, reduzindo o erro a cada etapa. É simples mostrar que, se dermos passos infinitesimais no vetor de gradiente, executando uma nova época de treinamento para recalcular o gradiente após cada passo, chegaremos ao mínimo local da função de erro. A experiência mostrou que, na maioria das situações, esse mínimo local também será um mínimo global, ou pelo menos a solução “boa o suficiente” para o problema em questão.
Em um sistema de aprendizado prático, no entanto, não queremos dar passos infinitesimais; para um aprendizado rápido, queremos dar os maiores passos possíveis. Infelizmente, se escolhermos um tamanho de etapa muito grande, a rede não convergirá de maneira confiável para uma boa solução. Para escolher um tamanho de passo razoável, precisamos saber não apenas a inclinação da função de erro, mas algo sobre suas derivadas de ordem superior – sua curvatura – nas proximidades do ponto atual no espaço de peso. Esta informação não está disponível no algoritmo de retropropagação padrão.
[…]
[…] O problema do alvo em movimento
Uma segunda fonte de ineficiência no aprendizado de propagação traseira é o que chamamos de problema de alvo em movimento . Resumidamente, o problema é que cada unidade no interior da rede está tentando evoluir para um detector de recursos que desempenhará algum papel útil no cálculo geral da rede, mas sua tarefa é muito complicada pelo fato de todas as outras unidades serem mudando ao mesmo tempo. As unidades ocultas em uma dada camada da rede [neural artificial] [trabalho] não podem se comunicar diretamente; cada unidade vê apenas suas entradas e o sinal de erro é propagado de volta pelas saídas da rede. O sinal de erro define o problema que a unidade está tentando resolver, mas esse problema muda constantemente. Em vez de uma situação em que cada unidade se move rápida e diretamente para assumir algum papel útil, vemos uma dança complexa entre todas as unidades que leva muito tempo para se estabelecer.
Muitos pesquisadores relataram que o aprendizado do backprop diminui drasticamente (talvez exponencialmente) à medida que aumentamos o número de camadas ocultas na rede. Em parte, essa desaceleração se deve a uma atenuação e diluição do sinal de erro conforme ele se propaga para trás pelas camadas da rede. Acreditamos que outra parte dessa desaceleração se deve ao efeito de alvo em movimento. As unidades nas camadas interiores da rede [neural artificial] [trabalho] veem uma imagem em constante mudança à medida que as unidades a montante e a jusante evoluem, e isso torna impossível que essas unidades se movam decisivamente em direção a uma boa solução.
Uma manifestação comum do problema do alvo em movimento é o que chamamos de efeito rebanho . Suponha que tenhamos duas subtarefas computacionais separadas, A e B, que devem ser executadas pelas unidades ocultas em uma rede. Suponha que tenhamos um número de unidades ocultas, qualquer uma das quais poderia lidar com uma das duas tarefas. Como as unidades comuns se comunicam, cada unidade deve decidir independentemente de qual dos dois problemas será enfrentado. Se a tarefa A gerar um sinal de erro maior ou mais coerente que a tarefa B, há uma tendência de todas as unidades se concentrarem em A e ignorarem B. Depois que o problema A for resolvido, redundantemente, as unidades poderão ver a tarefa B como o único remanescente. fonte de erro. No entanto, se todos começarem a se mover em direção a B ao mesmo tempo, o problema A reaparecerá. Na maioria dos casos, o “rebanho” de unidades acabará se dividindo e lidando com as duas subtarefas de uma só vez, mas pode haver um longo período de indecisão antes que isso ocorra. Os pesos em uma rede backprop recebem valores iniciais aleatórios para impedir que todas as unidades se comportem de forma idêntica, mas essa variabilidade inicial tende a se dissipar à medida que a rede é treinada.

O Backprop é uma maneira muito simples e eficiente de calcular o gradiente em uma rede neural e pode-se usá-lo em conjunto com a descida estocástica do gradiente, que também é bastante simples. Existem técnicas “quase-Newton” mais complexas, que fazem uma estimativa melhor da direção do gradiente e do tamanho do passo, mas nos exemplos que eu vi, eles não têm um desempenho melhor que o backprop e o SGD.

More Interesting

No segundo ano da faculdade, como posso me preparar para a inteligência artificial?

Você se importaria se a IA gerenciasse o mundo?

Qual é a sua previsão sobre as legalidades da inteligência geral artificial?

Quais são algumas das empresas líderes em inteligência artificial na Malásia?

Se eu fosse construir uma máquina inteligente a partir de um grande número de componentes semelhantes, como cada componente teria que se comportar?

Qual B-Sc. Os programas de inteligência artificial e inteligência artificial escolheriam um entusiasta da inteligência artificial e por quê: a Universidade de Sheffield x a Universidade de Birmingham?

Quais são alguns exemplos de interações entre inteligência artificial e humanos?

Se a IA substituir completamente os humanos, o que os humanos realmente farão?

Precisaríamos resolver P vs. NP como um pré-requisito para projetar inteligência geral artificial?

Por que os países não substituem os imigrantes por inteligência artificial?

Pode-se auto-ensinar aprendizado de máquina e inteligência artificial?

Como a superinteligência artificial / inteligência geral artificial afetará a pesquisa em biologia molecular?

A Inteligência Artificial pode tornar as espécies humanas extintas no futuro?

Quais serão os efeitos da inteligência artificial nas bolsas de valores?

Estou interessado em áreas emergentes como inteligência artificial, aprendizado de máquina e ciência de dados. Como adquiro habilidades nessas áreas?