L’économie du token, nouveau point focal de la FinOps Foundation

La FinOps Foundation a depuis peu une organisation sœur : la Tokenomics Foundation.

Elle n’aborde pas le token dans le contexte des blockchains, mais comme « unité atomique » de l’IA générative. Son objectif : contribuer à l’émergence de normes et de bonnes pratiques pour maximiser la production de valeur… et le contrôle de la consommation.

Un socle de techniques pour consommer moins de tokens

On ne part pas de zéro. La FinOps Foundation a déjà un groupe de travail « Token Economics ». Ce dernier a notamment réalisé un sondage communautaire qui a permis de dégager une hiérarchie des leviers d’optimisation des coûts.

Si on les considère individuellement, le plus gros potentiel d’économies réside dans le choix d’un modèle adapté à la tâche. Les frameworks de « routage intelligent » peuvent réduire de 60 à 80 % le coût par requête, ajoute la FinOps Foundation.

Levier Potentiel d’économies Effort d’implémentation

Rightsizing du modèle 60 à 90 % Moyen

Traitement par lots (API batch) 50 % Faible à moyen

Mise en cache des prompts 50 à 90 % sur les tokens en cache Faible

Gestion de la fenêtre de contexte 20 à 60 % Moyen à élevé

Contrôle de la longueur des outputs 10 à 40 % Faible à moyen

Remises sur volume / engagement 10 à 30 % Faible (achats)

La gestion de la fenêtre de contexte comprend, entre autres, les mécanismes de fenêtre glissante, de résumé des conversations et de compression des résultats d’outils. Le contrôle de la longueur des outputs peut passer par l’utilisation de schémas de réponse structurés.

Une stratégie FinOps en trois temps

Parmi toutes les manières d’exploiter des capacités IA, les accès API directs (OpenAI, Anthropic…) sont identifiés par la communauté FinOps comme la catégorie la plus difficile à gérer. La facturation est d’autant plus opaque qu’elle n’intègre pas nativement les concepts de business unit, de centre de coûts ou d’application. Les changements fréquents dans les catalogues de modèles n’aident pas. Et il reste difficile de prédire les pics d’usage, tout comme de les plafonner.

La FinOps Foundation propose aux organisations d’implémenter une stratégie en trois temps :

Mois 1 à 3 : inventaire des dépenses, mise en place d’une gouvernance des clés d’API, tagging léger, production d’un dashboard basique, alertes budgétaires par compte

Mois 3 à 9 : attribution et showback par modèle, revue de rightsizing des modèles, intégration du batch et de la mise en cache des prompts, optimisation de la fenêtre de contexte, activation d’une détection d’anomalies

Au-delà : chargeback, routage dynamique, négociation de remises sur engagement, intégration de l’estimation des coûts dans le CI/CD, consolidation du reporting des métriques de coût avec celles des autres technologies

Des outils natifs potentiellement suffisants… en monofournisseur

Gouverner les clés d’API implique d’associer chacune à une équipe, une application ou un cas d’usage, avec un propriétaire et un centre de coûts clairement désignés. Les fonctionnalités d’attribution (profils d’inférence d’applications sur AWS Bedrock, clés niveau projet chez OpenAI et niveau workspace chez Anthropic…) ont bien progressé, note la FinOps Foundation. Si bien qu’elles suffisent généralement pour les organisations qui sont en monofournisseur. Celles qui en ont plusieurs recourront à l’attribution au niveau des fonctionnalités, à l’application de politiques par requête ou à des passerelle type Helicone, LiteLLM et Portkey.

Les organisations qui ont monté une équipe FinOps lui confient généralement la gouvernance des coûts de l’IA. Il arrive aussi que la démarche relève de l’équipe plate-forme ou d’un centre d’excellence IA. Dans tous les cas, elle passe par le cadrage du périmètre dans lequel les équipes d’ingénierie peuvent opérer de manière autonome : listes de modèles approuvés, longueur maximale de contexte par use case, règles de classification de données pour les fournisseurs externes, exigences de revue d’architecture pour les workflows agentiques, etc.

Les prix continuent certes à diminuer, mais moins vite que par le passé, constate la FinOps Foundation. Et le phénomène concerne surtout les modèles les moins chers. Pas ceux qui servent le raisonnement et l’agentique… et qui consomment 5 à 40 fois plus de tokens par tâche.

Illustration générée par IA

The post L’économie du token, nouveau point focal de la FinOps Foundation appeared first on Silicon.fr.