Le Retrieval-Augmented Generation (RAG) est une architecture d'intelligence artificielle qui combine la puissance générative des LLM avec une base de connaissances externe consultable dynamiquement. Contrairement à un LLM seul qui ne peut utiliser que les connaissances encodées lors de son entraînement, un système RAG récupère en temps réel des passages pertinents depuis une base documentaire, une base de données vectorielle ou un ensemble de fichiers, puis injecte ces extraits dans le contexte du prompt avant de générer la réponse.

Le flux d'un système RAG comporte trois étapes principales : (1) l'indexation — les documents source sont découpés en chunks, transformés en embeddings vectoriels et stockés dans une base vectorielle (Pinecone, Qdrant, Weaviate, etc.) ; (2) la récupération — à chaque requête utilisateur, les chunks les plus similaires sémantiquement sont récupérés par recherche de similarité vectorielle ; (3) la génération — le LLM reçoit la question et les chunks pertinents en contexte et génère une réponse ancrée dans les sources. Ce mécanisme réduit drastiquement les hallucinations.

Dans un contexte d'agence ou d'entreprise, le RAG permet de créer des assistants IA contextualisés : chatbot de support client alimenté par la documentation produit, assistant juridique nourri par les contrats internes, agent SEO qui consulte les guides de style de la marque. C'est la technologie sous-jacente à de nombreux copilotes IA d'entreprise et la brique fondamentale pour construire des agents IA fiables sur des données propriétaires.

Exemple concret

Une agence SEO déploie un assistant RAG alimenté par ses 200 guides clients et ses process internes, permettant aux account managers de répondre instantanément aux questions clients sans chercher dans des dossiers dispersés.

Besoin d'un expert en IA & Automatisation ?

Découvrez nos services et comment nous pouvons vous aider.

Voir nos services

RAG (Retrieval-Augmented Generation)

Termes associés