Um novo método de treinamento para modelos de linguagem chamado “Simple” (ou “Simple Preference Optimization”) está revolucionando a forma como os modelos de linguagem são treinados. Desenvolvido por pesquisadores da Universidade de Princeton, esse método de treinamento utiliza aprendizado por reforço com feedback humano para melhorar a simplicidade e a estabilidade do treinamento offline.
Vantagens sobre outros métodos
O método Simple usa a probabilidade logarítmica média de uma sequência como uma recompensa implícita, tornando-o mais eficiente em termos de computação e memória em comparação com outros métodos, como DPO (Direct Preference Optimization) e ORPO. Além disso, os resultados de benchmarking mostram que o método Simple supera DPO e ORPO em várias avaliações, incluindo avaliações de seguimento de instruções e configurações de treinamento de ponta.
Resultados impressionantes
Os resultados alcançados pelo método Simple são impressionantes. Ele conseguiu melhorias de até 6,4 pontos no Alpaca Eval 2 e até 7,5 pontos no Arena Hard, sem aumentar significativamente o comprimento da resposta. Além disso, o modelo foi treinado usando a biblioteca Hugging Face TRL e foi liberado junto com seu código e checkpoints do modelo.
Desempenho comparável ao GPT4 Turbo
Os resultados de benchmarking mostram que o método Simple supera DPO e é comparável ao GPT4 Turbo. O modelo Simple está disponível para teste e o vídeo convida os espectadores a experimentá-lo.
Em resumo, o método Simple é uma abordagem inovadora para treinamento de modelos de linguagem que pode melhorar a simplicidade e a estabilidade do treinamento offline. Seus resultados impressionantes e eficiência computacional o tornam uma opção promissora para o futuro do treinamento de modelos de linguagem.