O aprendizado auto-supervisionado (SSL) é uma técnica revolucionária em sistemas de aprendizado de máquina modernos. Esse tipo de aprendizado não requer anotações humanas para treinamento e já obteve resultados de ponta em tarefas de processamento de linguagem natural e visão computacional. No entanto, a escala de modelos SSL e dados de treinamento tem sido um desafio devido à necessidade de conjuntos de dados grandes e curados.

Uma nova técnica utilizada para superar esse desafio é o uso de agrupamento hierárquico por k-means para curar automaticamente conjuntos de dados de alta qualidade para pré-treinamento SSL. Esta abordagem envolve agrupar dados em uma grande repository diversificada para obter clusters que se espalham uniformemente entre conceitos, seguido de uma etapa de amostragem balanceada hierárquica.

Os resultados mostram que recursos treinados em conjuntos de dados automaticamente curados superam aqueles treinados em dados não curados e estão ao nível ou superior àqueles treinados em dados curados manualmente. Essa técnica é significativa porque permite a escala de modelos SSL e dados sem a necessidade de curation manual, que é custosa e demorada.

Além disso, essa abordagem pode ser aplicada a outras tarefas, como aprendizado ativo e poda de dados. Embora o código ainda não esteja disponível, será compartilhado no GitHub em breve.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *