O artigo propõe um ensemble de LLMs guiado por recompensa, onde cada LLM tem habilidades heterogêneas em uma ampla gama de domínios e tarefas. A abordagem utiliza um novo método de roteamento guiado por recompensa chamado “Zooter”, que destila recompensas em consultas de treinamento para treinar uma função de roteamento. Essa função distribui cada consulta a um LLM com expertise na área correspondente.
A arquitetura do sistema Zooter consiste em dois sistemas independentes: um sistema de classificação de modelos de recompensa (RMR) e um sistema de roteamento de consultas leve guiado por recompensa. O sistema RMR gera respostas de múltiplos LLMs e usa um modelo de recompensa para gerar recompensas, que são então usadas para treinar um modelo de 76 milhões de parâmetros. Esse modelo atua como um classificador, decidindo qual LLM deve responder a uma consulta específica com base em sua expertise.
O sistema Zooter é mais eficiente computacionalmente do que os métodos RMR tradicionais, que exigem enviar cada consulta a todos os LLMs e usar um modelo de recompensa para decidir qual resposta é melhor. Em vez disso, o Zooter roteia a consulta a um LLM específico com base em sua expertise, alcançando melhor desempenho enquanto reduz os custos computacionais.
Além disso, o modelo Zooter apresenta várias vantagens, incluindo eficiência computacional, baixo custo e capacidade de rodar em um GPU de consumo. O método Zooter é uma abordagem interessante e instigante para o uso de especialistas em domínio, em vez de uma mistura de especialistas, e pode ser parte de um sistema maior de especialistas trabalhando em conjunto em direção a um objetivo comum.