Actualités de mai 2026
Guide et benchmarks montrant comment les couches de prédiction multi‑tokens (MTP) peuvent à peu près doubler la vitesse de génération des LLM locaux avec un surcoût de RAM minimal, testé sur des variantes de Qwen 3.6 et des invites longues et complexes.
Un avertissement : s’appuyer uniquement sur l’IA pour écrire et lire du code expose aux erreurs cachées, aux failles de sécurité, au verrouillage fournisseur et à une carrière fragile, à moins d’apprendre à comprendre et corriger soi‑même le code.
Démontre l’exécution de Qwen3.6 27B GGUF sur llama.cpp et l’augmentation du débit d’environ 67 à 120 tokens/s en activant MTP (prédiction multi‑tokens) et en ajoutant le décodage spéculatif N‑gram, avec étapes d’installation et remarques sur la VRAM.
Aperçu de MTP (prédiction multi‑jetons) désormais intégré à llama.cpp, son fonctionnement, les modèles compatibles, les mises à jour GGUF nécessaires et des conseils de réglage montrant jusqu’à ~25 % de gains de TPS avec peu d’inconvénients.
Un guide pratique pour bâtir une pile d’IA souveraine : séparer les agents risqués des données critiques, combiner des modèles cloud de pointe pour l’architecture et les revues avec des modèles locaux rapides et stables pour le quotidien, et choisir un matériel équilibré (p. ex. 128 Go de RAM, vitesse de tokens plutôt que taille brute) plutôt que de courir après les extrêmes.
Explique comment DeepSeek V4 Flash atteint des performances proches de l’état de l’art à très faible coût et peut fonctionner entièrement hors ligne sur du matériel grand public grâce au mixture-of-experts, à une attention hybride pour un contexte d’un million de tokens et à une quantification agressive, ainsi que ses forces et limites observées en pratique.
Yann LeCun soutient que, bien que les LLM soient utiles, ils ne mènent pas à l’intelligence générale; il présente des modèles du monde basés sur JEPA, qui planifient par prédiction abstraite pour la robotique et le contrôle du monde réel, sa vision Tapestry pour une IA ouverte souveraine, et ses réflexions sur Meta et la culture de recherche.
La créatrice compare Llama, Qwen et Gemma en exécution locale sur un Mac Mini pour des tests de logique, d’explication technique et une question réelle, concluant que le plus petit modèle (Gemma 3 4B) est le plus rapide et utile, tout en expliquant les compromis liés aux poids ouverts, à la taille et à la quantification.
Explique l’approche JEPA de Yann LeCun comme une alternative non générative et à embeddings joints aux LLM, en retraçant ses origines (Barlow Twins, DINO) et en montrant comment elle évite le flou en prédiction vidéo pour permettre une planification conditionnée par l’action.
Explique l’approche JEPA de Yann LeCun comme une alternative non générative et à embeddings conjoints aux LLM, en retraçant ses origines, la solution à l’effondrement des représentations (Barlow Twins) et la façon dont JEPA permet la prédiction, le contrôle et la planification.