Retour à l'écosystème
Grail logo

Grail

Subnet 81
TaoStats

À propos de Grail

Grail répond au besoin croissant de calcul pour le post-training des modèles de langage, une étape désormais aussi coûteuse que le pré-training. Le Subnet crée un réseau décentralisé pour l'apprentissage par renforcement (RL), permettant d'améliorer de manière collaborative l'intelligence et les capacités de raisonnement des modèles de base.

Les points techniques clés :

  • Apprentissage par Renforcement Décentralisé : Le réseau organise le fine-tuning de modèles en demandant aux Miners de générer des "rollouts" (traces de raisonnement). Ces données sont ensuite utilisées pour entraîner et améliorer le modèle de base via des techniques de RL.

  • Mécanisme d'Inférence Vérifiable : Le Subnet intègre un algorithme de vérification propriétaire, rapide et peu coûteux. En échantillonnant les états cachés (hidden states) du modèle, il prouve cryptographiquement que les Miners ont bien utilisé le modèle spécifié, empêchant ainsi la triche.

  • Pipeline de Fine-Tuning : L'objectif est de créer un pipeline complet, allant du RL "single-turn" (tâches simples) au "multi-turn" (raisonnement complexe). Cela permet de prendre un modèle de base pré-entraîné et de le spécialiser pour des tâches avancées.

En décentralisant le post-training, Grail permet à l'écosystème Bittensor de produire des modèles non seulement grands, mais aussi hautement intelligents et affinés, complétant ainsi le cycle de vie de la création de l'IA.