Aprendizado por Reforço com Feedback Humano (RLHF): Desenvolvendo Modelos de Linguagem mais Seguros

ByVolnei Filho

ago 3, 2023 #Amazon Web Services, #Aprendizado por Reforço, #Aprendizado por Reforço com Feedback Humano, #AWS, #Deeplearning.ai, #Feedback Humano, #Linguagem Natal, #Modelos de Linguagem, #RLHF, #Toxicidade

O vídeo apresenta um workshop ao vivo sobre Aprendizado por Reforço com Feedback Humano (RLHF), liderado por Diana Chan Morgan, da Deeplearning.ai, e convidados especiais da Amazon Web Services (AWS). O objetivo do workshop é ensinar os participantes a aplicar o RLHF para alinhar modelos de linguagem com feedback humano, garantindo que forneçam respostas úteis, honestas e inofensivas.

A técnica do RLHF é utilizada para ajustar grandes modelos de linguagem (LLMs) para gerar texto mais alinhado com o feedback humano. O processo envolve várias iterações de geração de respostas, avaliação com um modelo de recompensa e ajuste da política para gerar respostas mais alinhadas.

O modelo de recompensa é treinado em um conjunto de dados de avaliações humanas das respostas do modelo, e o objetivo do RLHF é ajustar o LLM para gerar texto mais útil, relevante e seguro. O processo envolve rótulos humanos, instruções, preparação de dados, treinamento do modelo de recompensa e uso do modelo de recompensa para avaliar novos pares de prompts e atribuir valores de recompensa.

O workshop tem como objetivo equipar os participantes com as habilidades e conhecimentos necessários para excelir em aplicações de aprendizado por reforço e aproveitar o feedback humano para melhorar sistemas de IA.

Detoxificação de Modelos de Linguagem com RLHF e PPO

O vídeo discute o processo de ajuste fino de um modelo de linguagem usando RLHF para gerar respostas menos tóxicas. O modelo é ajustado usando um modelo de recompensa que calcula uma pontuação de toxicidade, que é a probabilidade média da classe negativa em todas as conclusões. O objetivo é reduzir a pontuação de toxicidade ao ajustar o modelo.

O vídeoalerta para o “hacking de recompensa”, onde o modelo aprende a ludibriar o sistema produzindo respostas excessivamente positivas. Para evitar isso, as atualizações são mantidas em controle, e o modelo é alinhado para produzir respostas mais positivas e úteis, mantendo a saída principal.

Além disso, o vídeo discute a técnica de otimização de ajuste fino de parâmetros eficientes (PEFT), que reduz o número de parâmetros sendo atualizados no modelo. Isso é particularmente útil para grandes modelos de linguagem com bilhões de parâmetros.

O vídeo também explica o processo de avaliação, que envolve calcular uma pontuação de toxicidade e objetivar reduzi-la ao longo do treinamento. O vídeo fornece exemplos de frases tóxicas e não tóxicas e suas respectivas pontuações de toxicidade.

Em resumo, o vídeo discute o processo de ajuste fino de um modelo de linguagem para gerar respostas menos tóxicas usando RLHF e PPO, e fornece exemplos e explicações das técnicas e métricas de avaliação usadas.

By Volnei Filho

Inteligência Artificial

Aprendizado por Reforço com Feedback Humano (RLHF): Desenvolvendo Modelos de Linguagem mais Seguros

ByVolnei Filho

By Volnei Filho

Related Post

O Futuro da Inteligência Artificial: Tendências e Desenvolvimentos

Microsoft Co-Pilot: Uma Ferramenta de Assistência Inteligente para Desenvolvedores

Tecnologia e Inteligência Artificial: Controle de Computadores e Automatização de Tarefas

Deixe um comentário Cancelar resposta

You missed

Conditional Access: A Política de Segurança Next-Gen para a Proteção de Dados em Ambientes Cloud

Proteção contra Riscos Internos: Como a Microsoft Entra e Microsoft Purview podem ajudar

Configurando Políticas de Acesso Condicional com Autenticação Multifator no Azure: Um Guia Prático

Configurando e Aplicando Políticas de Acesso Condicional no Azure AD: Um Guia para Segurança Avançada