Distilling Reasoning from Language Models for Ranking Evaluation
Recuperação da Informação. Re-ranqueamento. Modelos de
Linguagem de Grande Porte. Otimização de Prompts. Destilação de
Conhecimento.
Modelos de linguagem de grande porte têm demonstrado recentemente um forte
potencial para a estimativa de relevância em recuperação da informação. No
entanto, soluções de estado da arte frequentemente dependem de modelos
proprietários, o que limita a reprodutibilidade, aumenta os custos de
implantação e reduz a acessibilidade. Neste trabalho, propomos um pipeline
autônomo de adaptação ponta a ponta, projetado para aprimorar pequenos
modelos de linguagem de código aberto para ranqueamento por relevância. O
fluxo de trabalho integra três componentes técnicos principais: otimização
automática de prompts via GEPA, destilação de raciocínio a partir de um
modelo professor mais robusto e fine-tuning supervisionado. Esses exemplos
destilados são construídos a partir de pares consulta-documento do TREC-DL
rotulados por humanos, filtrados de acordo com as anotações originais e
utilizados para ajustar modelos de código aberto. Os experimentos foram
conduzidos com modelos de código aberto na faixa de 8 bilhões de parâmetros
e avaliados em cinco conjuntos de dados, incluindo TREC-DL e benchmarks
selecionados do BEIR, utilizando nDCG@10 como métrica principal. Os modelos
propostos também foram comparados com trabalhos anteriores e com fortes
baselines proprietários. Os resultados mostram que a combinação de
fine-tuning com otimização de prompts produz o melhor desempenho geral
entre as configurações de código aberto avaliadas, com alguns modelos
adaptados se aproximando do desempenho de modelos proprietários e superando
baselines anteriores de código aberto em múltiplos cenários.