Um relatório das universidades de Stanford e Berkeley avaliou o desempenho do GPT-3.5 e GPT-4 e encontrou que o desempenho do GPT-4 em gerar números primos diminuiu e sua capacidade de gerar código também piorou, caindo de 52% para 10%. Isso levanta questionamentos sobre se o GPT-4 ainda é capaz de gerar código.
O vídeo também menciona tweets de Peter Wellender, que afirma que o GPT-4 não está se tornando “burro”, mas muitos usuários respondem que notaram uma queda no desempenho. Os hosts pedem que os usuários compartilhem suas experiências com o GPT-4, GitHub Copilot e outras ferramentas de IA, para entender o que está acontecendo com a tecnologia.
Além disso, o vídeo discute a evolução das ferramentas de codificação de IA, especialmente o GitHub Copilot, que usa o modelo Codex desenvolvido pela OpenAI. O modelo Codex viu seu desempenho cair de 52% para 10% entre março e junho, sugerindo que o modelo precisa ser adaptado para melhorar seu desempenho. Da mesma forma, o modelo GPT-3.5 apresentou uma queda no desempenho de 22% para 2%.
Os hosts também mencionam que o GitHub Copilot melhorou significativamente, mas a documentação no site do GitHub Copilot está desatualizada, afirmando que ele usa o modelo GPT-3, quando na verdade pode estar usando o GPT-3.5 ou até mesmo o GPT-4.
A substituição do modelo Codex pelo modelo Chat, parte do GPT-4, levanta preocupações sobre o futuro desses modelos de IA. Os hosts expressam sua preocupação com as limitações dos modelos de IA e a degradação potencial de seu desempenho ao longo do tempo. Eles também mencionam a necessidade de comparar o desempenho de diferentes modelos de IA para entender melhor suas limitações.
Em resumo, o vídeo destaca a importância de entender os modelos de IA subjacentes às ferramentas de codificação e a necessidade de estar vigilante em relação à coerência dos resultados. Além disso, os hosts pedem que os usuários compartilhem suas experiências com o GPT-4 e outros modelos de IA, para avaliar melhor o desempenho destes modelos.