Technique

RAG en entreprise : retours d'expérience et bonnes pratiques

23 octobre 2025

La génération augmentée par récupération, plus connue sous l'acronyme RAG (Retrieval-Augmented Generation), s'est imposée comme le mécanisme central pour connecter un modèle de langage aux connaissances spécifiques d'une organisation. Le principe est simple : plutôt que de se fier uniquement aux connaissances intégrées dans les poids du modèle lors de son entraînement, on alimente le modèle en temps réel avec des extraits pertinents issus de la base documentaire de l'entreprise. En pratique, la mise en oeuvre d'un RAG performant se révèle plus exigeante qu'il n'y paraît.

Le principe du RAG en quelques mots

Un pipeline RAG se décompose en trois étapes : l'indexation des documents (découpage en segments, calcul des embeddings vectoriels, stockage dans une base vectorielle), la recherche (identification des segments les plus pertinents pour une question donnée) et la génération (le modèle de langage produit sa réponse en s'appuyant sur les segments récupérés). Chacune de ces étapes comporte des choix techniques qui influencent directement la qualité des résultats.

Les écueils les plus fréquents

Un découpage des documents inadapté

Le chunking est la première source de défaillance. Un découpage trop fin perd le contexte ; un découpage trop large noie l'information pertinente dans du bruit. Les approches naïves -- découpage à nombre fixe de tokens -- ignorent la structure logique du document. Un paragraphe coupé en deux produit deux segments dont aucun ne porte le sens complet de l'information.

Les bonnes pratiques consistent à respecter la structure du document (titres, sections, paragraphes), à utiliser un chevauchement entre segments pour préserver le contexte aux frontières, et à enrichir chaque segment avec des métadonnées (titre du document, section, date, auteur).

Des données bruitées ou mal préparées

La qualité du RAG dépend directement de la qualité des documents indexés. Des PDF scannés avec une OCR approximative, des documents obsolètes jamais archivés, des doublons, des formats hétérogènes : autant de facteurs qui dégradent la pertinence de la recherche. Le nettoyage et la préparation des données représentent souvent la majorité de l'effort d'un projet RAG.

Une recherche insuffisamment précise

La recherche vectorielle seule ne suffit pas toujours. Les embeddings capturent la similarité sémantique, mais peuvent manquer des correspondances lexicales exactes (noms propres, références, acronymes). La combinaison de la recherche vectorielle avec une recherche par mots-clés (approche hybride) améliore significativement la couverture des résultats.

Les bonnes pratiques issues du terrain

Soigner la préparation documentaire

Audit de la base documentaire : identifier les documents à jour, archiver les versions obsolètes, harmoniser les formats.
OCR de qualité : pour les documents numérisés, investir dans une OCR performante fait toute la différence. Les modèles de vision récents offrent des résultats nettement supérieurs aux OCR traditionnelles.
Enrichissement des métadonnées : chaque document doit porter des métadonnées exploitables (type, date, auteur, service, classification) qui permettent un filtrage en amont de la recherche.

Choisir le bon modèle d'embedding

Le modèle d'embedding détermine la qualité de la représentation sémantique des documents. Les modèles multilingues spécialisés pour le français (comme les modèles de la famille E5 ou BGE) surpassent largement les modèles anglophones génériques sur des corpus francophones. Le choix du modèle doit être validé par des tests sur des données représentatives du corpus cible.

Implémenter un re-ranking

Le re-ranking consiste à appliquer un second modèle, plus précis mais plus coûteux, pour réordonner les résultats de la recherche initiale. Cette étape améliore considérablement la pertinence du premier résultat, qui est souvent le plus déterminant pour la qualité de la réponse finale. Les modèles de cross-encoding, qui évaluent conjointement la question et chaque segment candidat, offrent les meilleurs résultats.

Évaluer systématiquement

Un pipeline RAG sans évaluation est un pipeline aveugle. La mise en place d'un jeu de questions-réponses de référence permet de mesurer objectivement la qualité de la récupération (les bons documents sont-ils trouvés ?) et de la génération (la réponse est-elle correcte et fidèle aux sources ?). Cette évaluation doit être automatisée et exécutée à chaque modification du pipeline.

Les patterns avancés

Au-delà du RAG classique, plusieurs approches permettent d'améliorer les résultats :

RAG multi-étapes : décomposer une question complexe en sous-questions, interroger le corpus pour chacune, puis synthétiser une réponse globale.
RAG avec filtrage contextuel : exploiter les métadonnées pour restreindre la recherche au périmètre pertinent (documents d'un service, d'une période, d'un type).
RAG agentic : le modèle décide lui-même s'il a besoin de chercher, quoi chercher, et itère jusqu'à obtenir une réponse satisfaisante.

Mon IA & Moi : un RAG pensé pour l'entreprise

Mon IA & Moi intègre un pipeline RAG complet, conçu pour les exigences du déploiement en entreprise : découpage intelligent des documents, recherche hybride vectorielle et lexicale, re-ranking, gestion fine des droits d'accès aux documents et traçabilité des sources citées. L'ensemble fonctionne intégralement sur votre infrastructure, garantissant que vos connaissances internes restent sous votre contrôle.

Le RAG n'est pas une brique qu'on installe et qu'on oublie. C'est un système vivant qui s'améliore avec la qualité des données, l'affinage des paramètres et les retours des utilisateurs. Les organisations qui investissent dans cette rigueur en récoltent des bénéfices durables.