ByteDance lance iLLaDA, un modèle de langage à diffusion
ByteDance et des chercheurs de l'Université Renmin ont développé iLLaDA, un modèle de langage à diffusion de 8B. Il égale Qwen2.5 au niveau de base mais est moins performant après le fine-tuning. iLLaDA est entraîné sur 12 000 milliards de tokens, améliorant nettement son prédécesseur LLaDA.
« iLLaDA-Base improves sharply over LLaDA, jumping 21.6 points on the reasoning test BBH, for example. » — The Decoder
Que faut-il retenir ?
- iLLaDA est un modèle de langage à diffusion de 8B développé par ByteDance et l'Université Renmin.
- iLLaDA est entraîné sur 12 000 milliards de tokens, contre 2 300 milliards pour LLaDA.
- iLLaDA-Base améliore LLaDA de 21,6 points sur le test BBH.
- iLLaDA-Instruct obtient 67,1 points contre 77,1 pour Qwen2.5 7B Instruct.
Pourquoi cette nouvelle compte-t-elle ?
iLLaDA représente une avancée significative dans les modèles de langage à diffusion, rivalisant avec les modèles autoregressifs comme Qwen2.5. Cela ouvre de nouvelles perspectives pour les applications nécessitant une génération de texte rapide et de qualité. Les professionnels de l'IA doivent suivre ces développements pour rester compétitifs.
12 000 milliards de tokens
Public concerné : développeurs, entreprises
Quelle est la différence entre iLLaDA et Qwen2.5 ?
iLLaDA est un modèle de langage à diffusion qui égale Qwen2.5 au niveau de base, mais il est moins performant après le fine-tuning. iLLaDA est entraîné sur 12 000 milliards de tokens, améliorant nettement son prédécesseur LLaDA.