Uma nova técnica utilizada para superar esse desafio é o uso de agrupamento hierárquico por k-means para curar automaticamente conjuntos de dados de alta qualidade para pré-treinamento SSL. Esta abordagem envolve agrupar dados em uma grande repository diversificada para obter clusters que se espalham uniformemente entre conceitos, seguido de uma etapa de amostragem balanceada hierárquica.
Os resultados mostram que recursos treinados em conjuntos de dados automaticamente curados superam aqueles treinados em dados não curados e estão ao nível ou superior àqueles treinados em dados curados manualmente. Essa técnica é significativa porque permite a escala de modelos SSL e dados sem a necessidade de curation manual, que é custosa e demorada.
Além disso, essa abordagem pode ser aplicada a outras tarefas, como aprendizado ativo e poda de dados. Embora o código ainda não esteja disponível, será compartilhado no GitHub em breve.