Qual seria a melhor maneira de integrar o aprendizado para classificar o algoritmo no Solr?

Sua pergunta mostra sua lição de casa – o Solr é preferível ao ES, onde há relevância avançada e trabalho de RI. O ES é um pouco mais produtivo e pronto para apenas instalar e executar.

No entanto, você terá que se aprofundar no Java para fazer isso, e mais profundo do que eu já fui. Portanto, minha resposta pode não ser tão útil quanto você espera. O Lucene / Solr agora suporta o BM25 e, observando as diferenças de código entre a pontuação do TF-IDF e a pontuação do BM25, serão definidas as classes a serem implementadas para um novo algoritmo de pontuação. Qualquer pessoa pode se registrar para obter uma conta no sistema de rastreamento de erros JIRA da Apache Software Foundation. A partir daí, você pode encontrar problemas para a pontuação do BM25 e acompanhar o código.

Além disso, se você tiver algum dinheiro para gastar com isso, poderá se inscrever para um curso de desenvolvedor da LucidWorks no Solr / Lucene e aprofundar-se.

Sugiro também que você siga uma disciplina de engenharia de software antes de começar a codificar:

  • Confira no subversion
  • Aprenda a construí-lo
  • Aprenda a construir o javadoc
  • Certifique-se de saber como executar o conjunto de testes

Agora, você está pronto para mergulhar e experimentá-lo. Aqui está um link muito antigo para o Javadoc:

org.apache.lucene.search (API Lucene 2.9.4)

E outro para a relevância do BM25:

BM25 A Próxima Geração de Lucene Relevância

O wiki da confluência, o Apache Solr Reference Guide, é usado para criar um guia do usuário. Esse tipo de trabalho, embora a documentação esteja dispersa, é melhor auxiliada pelo wiki mais antigo do Moin-moin – FrontPage – Solr Wiki.

Geralmente é fácil manipular LTR fora do SOLR. Você pega os principais documentos N classificados por SOLR e os repassa ao seu modelo LTR para classificar novamente esses documentos.

Parece que o recurso LTR está integrado ao SOLR a partir da versão 6.4. No entanto, grande parte da extração / modelagem de recursos ainda precisa ser feita offline e carregada no SOLR.

Consulte este Learning to Rank

Aqui está uma estrutura básica que eu costumava fazer:

da Better Search: plugin de filtro de clique – uma ferramenta flexível para impr…

Para mais detalhes, consulte as apresentações vinculadas em {! Ctf}

Espero que isto ajude.

More Interesting

A visão de Richard Feynman sobre a IA agora está desatualizada ou ele estava certo ao afirmar que os computadores são apenas funcionários de contas glorificados?

Uma rede neural recorrente pode aprender uma função de geração de número aleatório?

Um governo global dirigido por uma IA que foi projetada para buscar a prosperidade em todos os países do planeta eliminaria as armas mundiais de uma só vez, correto?

Qual é a melhor abordagem não supervisionada para recuperação de imagens usando aprendizado profundo?

Os computadores serão capazes de executar inteligência real?

Qual é a diferença entre o MapReduce, inteligência artificial e aprendizado de máquina? Ou melhor, como eles estão relacionados?

Quais são alguns usos interessantes do Open Mind Common Sense Reasoning ConceptNet?

Quando as tecnologias de IA e robótica avançarem o suficiente, como poderei realmente saber se estou falando com um humano ou robô pessoalmente? Palavras de código? Sangue?

O que acontecerá até 2020 em relação à IA?

A Wikipedia sobre inteligência artificial lista sete objetivos principais. Como eles se comparam em termos de dificuldade e complexidade?

Qual é o objetivo do Google Dream?

Poderia haver uma IA sem relação com o pensamento humano?

A inteligência artificial pode melhorar a compactação de dados?

O conectoma completo é suficiente para modelar o cérebro em silico? Caso contrário, o que mais é necessário?

Qual é o próximo grande avanço da tecnologia, além da IA ​​e do carro sem motorista?