Pourquoi les grands modèles linguistiques apprennent mieux
Une étude menée par Anthropic, Stanford et d'autres institutions explique pourquoi les grands modèles linguistiques apprennent des tâches que les petits modèles échouent à maîtriser. Les modèles larges, comme OLMo, réussissent à ancrer des tâches rares (0,25% des données) une fois les tâches fréquentes maîtrisées.