O vídeo apresenta testes com Smaug em duas versões: uma versão não quantizada com 70 bilhões de parâmetros no servidor do Abacus AI e uma versão quantizada mais pequena com 7 bilhões de parâmetros em um ambiente local. Os testes incluem:
* Escrever um script Python para imprimir números de 1 a 100 (sucesso)
* Criar um jogo de Snake em Python (versão local tem sucesso, versão maior tem problemas)
* Escrever um script Python utilizando Pygame (versão local tem sucesso, versão maior falha)
* Testar censura (ambas as versões falham)
* Solucionar o “problema da camisa seca” (versão maior fornece uma resposta incorreta e verbosity, enquanto a versão local fornece a resposta certa)
Os resultados sugerem que a versão menor e quantizada de Smaug se saiu melhor em alguns testes, tornando-se uma escolha mais confiável.
Além disso, o vídeo apresenta testes com dois modelos de linguagem, um maior (Smaug 70B) e um menor (7B), em problemas matemáticos e de palavras. Os resultados incluem:
* Um problema de matemática em que ambas as versões respondem corretamente
* Um problema de palavra em que a versão maior fornece uma resposta correta mas verbosity, enquanto a versão menor fornece uma resposta correta e concisa
* Um problema matemático em que ambas as versões falham
* Um quebra-cabeça de pensamento lateral em que ambas as versões falham
Além disso, o vídeo apresenta a plataforma Tune AI, para construir aplicações de IA, e finaliza com a pergunta “marble in a cup”, que não é concluída no vídeo.
Em resumo, o vídeo apresenta testes com Smaug e um modelo de linguagem menor, avaliando suas habilidades em respondidas a problemas matemáticos e de palavras. Os resultados mostram que a versão menor se sai melhor em alguns testes, tornando-se uma escolha mais confiável.