Retour d'expérience PythonAvancé

gestion des compétences d'agents : éviter le chaos des tests LLM

Un agent LLM sans tests est une bombe à retardement. La gestion des compétences d’agents se heurte souvent à l’imprévisibilité des modèles de langage.

Lors du développement de notre framework Sivchari, nous avons constaté que 40% des échecs en production étaient invisibles lors des phases de test initiales. Nos métriques de succès étaient flatteuses mais totalement déconnectées de la réalité technique du terrain.

Cet article détaille notre transition d’une validation approximative vers un framework de test rigoureux basé sur des contrats de type et des assertions structurelles.

🛠️ Prérequis

Pour reproduire les concepts présentés, vous aurez besoin d’un environnement Python moderne.

Python 3.12+ (pour les améliorations de typing et de performance)
pip ou poetry pour la gestion des dépendances
Installation des dépendances : pip install pydantic pytest

📚 Comprendre gestion des compétences d'agents

La gestion des compétences d’agents repose sur une abstraction triple : Définition, Exécution, Évaluation. Une compétence (ou ‘skill’) n’est pas une simple fonction. C’est un composant qui transforme une entrée structurée en une sortie vérifiable.

Contrairement au développement logiciel classique, l’output est probabiliste. Nous utilisons donc des Protocoles Python pour définir l’interface sans forcer l’héritage. Voici le schéma de flux que nous avons implémenté dans Sivchari :

Input (Pydantic) -> Skill (LLM/Logic) -> Output (Pydantic) -> Evaluator (Assertion)

Cette approche s’éloigne du simple ‘prompt engineering’ pour se rapprocher de l’ingénierie logicielle de précision. Nous traitons l’output du LLM comme une donnée brute qu’il faut parser et valider via des schémas stricts.

🐍 Le code — gestion des compétences d'agents

Python

from typing import Protocol, runtime_checkable
from pydantic import BaseModel, Field

class SkillInput(BaseModel):
    """Schéma d'entrée pour la compétence."""
    query: str = Field(..., min_length=5)
    context: dict[str, str] = Field(default_factory=                dict)

class SkillOutput(BaseModel):
    """Schéma de sortie attendu pour la compétence."""
    answer: str
    confidence: float = Field(..., ge=0.0, le=1.0)
    tokens_used: int

@runtime_checkable
class AgentSkill(Protocol):
    """Interface structurelle pour toute compétence d'agent."""
    def execute(self, data: SkillInput) -> SkillOutput:
        """Exécute la logique métier de la compétence."""
        ...

📖 Explication

Dans le premier snippet, l’utilisation de @runtime_checkable est cruciale. Cela permet d’utiliser isinstance(obj, AgentSkill) malgré l’absence d’héritage explicite, ce qui respecte le principe de composition. L’usage de Field dans Pydantic permet de définir des contraintes métier (comme ge=0.0) dès la définition du schéma, ce qui évite des tests de validation manuels coûteux.

Dans le second snippet, la méthode run_test illustre le concept de ‘contract testing’. On ne teste pas seulement le contenu, mais la capacité du composant à respecter le contrat SkillInput. Notez l’absence de logique métier complexe dans l’évaluateur : sa seule responsabilité est de comparer l’output avec la ground truth. C’est l’application directe du principe de responsabilité unique (SRP).

Documentation officielle Python

🔄 Second exemple

Python

import pytest
from typing import List

class SkillEvaluator:
    """Évaluateur de performance pour la gestion des compétences d'agents."""
    def __init__(self, dataset: List[dict]):
        self.dataset = dataset
        self.results = []

    def run_test(self, skill: AgentSkill) -> float:
        """Lance le test sur le dataset et retourne le taux de succès."""
                successes = 0
        for entry in self.dataset:
            try:
                # On transforme l'entrée brute en objet typé
                input_data = SkillInput(**entry['input'])
                output = skill.execute(input_data)
                
                # Vérification de la conformité avec la 'ground truth'
                if output.answer == entry['expected']:
                    successes += 1
            except Exception as e:
                print(f"Échec de l'exécution : {e}")
        
        return successes / len(self.dataset) if self.dataset else 0.0

▶️ Exemple d’utilisation

Voici comment lancer une évaluation sur une compétence de calcul de TVA.

# Simulation d'une compétence de calcul
class TaxSkill:
    def execute(self, data: SkillInput) -> SkillOutput:
        # Logique simplifiée (en réalité, appel LLM)
        amount = float(data.query.split()[1])
        return SkillOutput(answer=str(amount * 1.2), confidence=0.95, tokens_used=10)

# Dataset de test
test_data = [
    {"input": {"query": "calcul 100"}, "expected": "120.0"},
    {"input": {\prime{query": "calcul 200"}, "expected": "240.0"}
]

evaluator = SkillEvaluator(test_data)
skill = TaxSkill()
accuracy = evaluator.run_test(skill)

print(f"Précision de la compétence : {accuracy * 100}%")

# Sortie attendue
Précision de la compétence : 100.0%

🚀 Cas d’usage avancés

1. Validation de requêtes SQL : Utiliser un Skill qui génère du SQL et un évaluateur qui exécute la requête sur une base de données temporaire (SQLite en mémoire) pour vérifier le résultat réel.
2. Extraction d’entités nommées : Comparer les entités extraites par le Skill avec un dictionnaire de référence via des mesures de Recall et de Precision.
3. Orchestration de workflows : Utiliser la gestion des compétences d’agents pour valider que l’enchaînement des appels d’outils respecte un graphe de dépendances défini en DAG (Directed Acyclic Graph).
4. Analyse de sentiment : Vérifier la cohérence entre le score de sentiment et une liste de mots-clés de toxicité pré-définis.

🐛 Erreurs courantes

⚠️ Validation permissive

Utiliser des types ‘str’ pour tout, ce qui cache les erreurs de formatage.

✗ Mauvais

answer: str

✓ Correct

amount: float

⚠️ Évaluation circulaire

Demander à un LLM de juger sa propre réponse sans données de référence.

✗ Mauvais

eval_prompt = "Est-ce correct ?"

✓ Correct

eval_prompt = "Compare l'output avec la valeur attendue X"

⚠️ Oubli du typage statique

Ne pas utiliser de mypy, rendant la maintenance des schémas impossible.

✗ Mauvais

def execute(self, data):

✓ Correct

def execute(self, data: SkillInput) -> SkillOutput:

⚠️ Absence de gestion d'exception

Laisser une erreur de parsing faire planter tout le pipeline d’évaluation.

✗ Mauvais

output = skill.execute(input_data)

✓ Correct

try: output = skill.execute(input_data) except Exception: ...

✅ Bonnes pratiques

Pour une gestion des compétences d’agents professionnelle, suivez ces règles :

Immuabilité des tests : Ne modifiez jamais un dataset de test après validation.
Typage strict : Utilisez Pydantic pour chaque interface d’entrée et de sortie.
Observabilité : Loggez systématiquement le nombre de tokens et la latence par compétence.
Découplage : L’évaluateur ne doit jamais connaître la logique interne de la compétence.
Principe de Falsification : Construisez des tests qui cherchent activement à faire échouer le modèle (Edge cases).

Points clés

La gestion des compétences d'agents nécessite des schémas de données stricts.
Évitez le LLM-as-a-judge sans données de vérité terrain (ground truth).
Utilisez Python 3.12 et les Protocoles pour une architecture flexible.
Le succès d'un agent se mesure par sa conformité aux types, pas par sa fluidité textuelle.
Pydantic est l'outil indispensable pour valider les outputs probabilistes.
Un test de régression doit être automatisé dans votre CI/CD.
La latence et le coût des tokens sont des métriques de qualité à part entière.
L'approche par assertions structurelles réduit drastiquement les régressions en production.

❓ Questions fréquentes

Pourquoi utiliser des Protocoles plutôt que des classes ABC ?

Les Protocoles permettent le sous-typage structurel. Cela évite de polluer votre logique métier avec des dépendances d’héritage inutiles.

Comment gérer les sorties non déterministes ?

Ne testez pas la chaîne de caractères exacte, mais utilisez des assertions sur des types extraits (ex: regex ou parsing float).

Peut-on utiliser Sivchari pour des agents multimodaux ?

Oui, tant que vous définissez des schémas Pydantic capables de valider des références d’images ou des blobs binaires.

Quel est l'impact sur la performance de l'évaluation ?

L’utilisation de Pydantic ajoute un léger overhead, mais il est négligeable face au coût et à la latence des appels LLM.

📚 Sur le même blog

🔗 Le même sujet sur nos autres blogs

📝 Conclusion

La gestion des compétences d’agents ne peut pas reposer sur l’intuition. Elle exige la même rigueur que le développement de systèmes distribués. Si vous ne pouvez pas tester une compétence de manière répétable, vous ne la contrôlez pas. Pour approfondir les concepts de typage en Python, consultez la documentation Python officielle. Un bon test est un test qui échoue quand il le faut.

PythIA, du python

Des codeSnippets python, pour une IA pour les humains

gestion des compétences d’agents : éviter le chaos des tests LLM

gestion des compétences d'agents : éviter le chaos des tests LLM

🛠️ Prérequis

📚 Comprendre gestion des compétences d'agents

🐍 Le code — gestion des compétences d'agents

📖 Explication

🔄 Second exemple

▶️ Exemple d’utilisation

🚀 Cas d’usage avancés

🐛 Erreurs courantes

⚠️ Validation permissive

⚠️ Évaluation circulaire

⚠️ Oubli du typage statique

⚠️ Absence de gestion d'exception

✅ Bonnes pratiques

❓ Questions fréquentes

📚 Sur le même blog

🔗 Le même sujet sur nos autres blogs

📝 Conclusion

Laisser un commentaire Annuler la réponse