Em uma surpreendente mudança de rumo, a Apple anunciou quatro novos modelos de linguagem abertos, parte da família OpenELM. Esses modelos têm 270 milhões, 450 milhões, 1,1 bilhão e 3 bilhões de parâmetros, tornando-os relativamente grandes em comparação com outros modelos de linguagem.
Tamanho Importante para Dispositivos Moveis
O tamanho do modelo é crucial porque modelos menores podem ser usados em dispositivos com limitações de processamento, como smartphones. Atualmente, modelos de linguagem grandes como o GPT-4 requerem computação em nuvem, mas os modelos OpenELM da Apple visam habilitar a inferência no dispositivo. Isso é importante para aplicações como óculos inteligentes, onde o processamento em tempo real é necessário.
Uma Vitória para a Comunidade Open-Source
A decisão da Apple de open-sourcer os modelos e reconhecer os desenvolvedores contribuidores é vista como uma situação de vitória para ambos, a Apple e a comunidade open-source. Ao reconhecer as contribuições dos desenvolvedores, a Apple pode atrair talentos de ponta e fomentar a colaboração.
OpenELM: um Modelo de Linguagem Eficiente
O modelo OpenELM é um modelo de linguagem eficiente treinado em um conjunto de dados gigante de 1,8 trilhão de tokens. Embora possa responder a perguntas, não consegue responder a perguntas complexas. O modelo foi treinado utilizando a biblioteca Cornet, uma biblioteca de rede neural profunda semelhante ao PyTorch ou TensorFlow.
Desempenho do Modelo
O vídeo também apresenta o desempenho do modelo OpenELM em uma leaderboard, comparando diferentes versões do modelo. Conforme o tamanho do modelo aumenta, o desempenho médio também aumenta.
Comportamentos Emergentes
O vídeo também discute comportamentos emergentes em modelos de linguagem grandes, onde o modelo aprende a entender coisas que não eram pretendidas, como entender a semântica e o tom de uma sentença.
Download e Quantização
O modelo pode ser baixado do Hugging Face, e a quantização do modelo pode torná-lo mais rápido. O palestrante planeja criar um vídeo sobre como quantizar o modelo e rodá-lo em um computador local.