- AI Brew
- Posts
- Pourquoi RAG ne résoudra pas tous les problèmes d'hallucination de l'IA générative
Pourquoi RAG ne résoudra pas tous les problèmes d'hallucination de l'IA générative
Et aussi : le futur LLM à 500 milliards de paramètres de Microsoft, les fuites sur iOS 18 et le futur Siri…
Hello 👋
Cette semaine, c’est un numéro plus long et plus technique de AI Brew que je vous propose, avec un focus sur le Retrieval Augmented Generation (ou RAG pour les intimes). Que vous soyez d’un niveau débutant ou avancé en IA générative, vous devriez sûrement apprendre des choses ou peut-être voir le RAG sous un angle différent. Et bien sûr, vous retrouverez ensuite la section avec les news.
Bonne lecture !
🔮 Pourquoi RAG ne résoudra pas tous les problèmes d'hallucination de l'IA générative
💡 Après avoir lu un article sur le Retrieval Augmented Generation et les problèmes d’hallucination, je me suis dit qu’il pouvait être intéressant de revenir sur la définition et apporter des précisions, notamment sur les dernières avancées qui permettent de limiter le risque d’hallucination des LLMs. L’objectif est donc de donner un aperçu de ce en quoi consiste le RAG aujourd’hui, et comment il est en train d’évoluer.
Les LLMs et leurs limites
Les LLMs sont des technologies importantes en IA générative. C’est ce qui permet d’alimenter des outils comme ChatGPT et autres applications capables de traiter du langage naturel (NLP, pour Natural Language Processing). Avec de tels outils, l'un des cas d’usages/objectifs peut être de créer des Assistants IA capables de répondre aux questions des utilisateurs dans divers contextes en croisant des sources de connaissances autoritaires. Mais c’est sans compter sur la nature imprévisible des réponses que l’on obtient avec un LLM. De plus, les données d'entraînement LLM sont statiques et introduisent une date de fin sur les connaissances qu'elles possèdent.
Les challenges que l’on a généralement avec des LLMs sont les suivants :
Ils peuvent présenter de fausses informations lorsqu’ils n’ont pas la réponse.
Ils peuvent présenter des informations obsolètes ou génériques lorsque l'utilisateur s'attend à une réponse spécifique et sur un fait d’actualité.
Ils peuvent générer des réponses à partir de sources non autoritaires.
Ils peuvent créer des réponses inexactes en raison de la confusion terminologique, où différentes sources d'entraînement utilisent la même terminologie pour parler de choses différentes.
Les LLMs sont souvent comparés à l’image d’un employé qui serait trop enthousiaste à l’idée de répondre à toutes les questions qu’on lui pose, mais qui partagerait de fausses informations, le tout avec une grande confiance. Malheureusement, une telle attitude peut nuire à la confiance des utilisateurs et n'est clairement pas un que vous voulez que vos Assistants IA imitent !
Définition et promesses du RAG
Le Retrieval Augmented Generation (RAG) est une approche pour résoudre certains de ces défis. Il redirige le LLM pour récupérer des informations pertinentes à partir de sources de connaissances prédéterminées et autoritaires.
Image : Google
Le RAG permet donc de récupérer des documents potentiellement pertinents pour une question posée, comme une page Wikipédia sur un évènement historique, puis de demander au modèle de générer des réponses en tenant compte de ce contexte supplémentaire.
Voici un schéma qui permet de mieux comprendre comment le RAG s’intègre dans un workflow avec un LLM :
Image : AWS
Utilité et limites de RAG
Bien que le RAG soit utile pour attribuer la génération d'un modèle à des documents récupérés afin de vérifier leur factualité, il ne peut pas empêcher un modèle de produire des hallucinations. Le RAG est particulièrement efficace dans les scénarios "intensifs en connaissances" où la réponse à une question contient probablement les mêmes mots-clés que la question elle-même. Cependant, le RAG rencontre des difficultés avec les tâches "intensives en raisonnement", comme la programmation et les mathématiques, où il est plus difficile de spécifier les concepts nécessaires pour répondre à une demande via une recherche basée sur des mots-clés.
Défis techniques et coûts
Côté expérience utilisateur, le RAG est assez simple. Mais d’un point de vue technique, le fonctionnement est bien plus complexe, et pose de nombreuses questions. Ci-dessous, une représentation des étapes classiques du RAG, allant de la collecte de documents à l’intégration de ceux-ci dans la réponse d’un LLM :
Image : Google
L'application du RAG à grande échelle nécessite un stockage en mémoire des documents récupérés et un calcul supplémentaire pour le contexte accru que le modèle doit traiter avant de générer sa réponse. Le fonctionnement est assez similaire à celui d’un moteur de recherche comme Google Search, qui va indexer les contenus des pages web, puis être capable de répondre à des requêtes de recherches, tout en classant les résultats de manière pertinente. Tout cela représente un coût significatif en termes de matériel et de consommation d'électricité.
Améliorations potentielles
Les challenges du RAG sont bien connus, et des efforts sont déployés dans de nombreuses entreprises pour former des modèles à mieux utiliser les documents récupérés par RAG, y compris des modèles qui peuvent "décider" quand utiliser les documents ou choisir de ne pas effectuer de récupération si cela est jugé inutile. La recherche se concentre également sur des moyens d'indexer plus efficacement d'énormes ensembles de documents et d'améliorer la recherche à travers de meilleures représentations des documents, qui vont au-delà des mots-clés. C’est là que la rechercher sémantique intervient.
Petite précision, il faut bien distinguer la recherche par mots clés de la recherche sémantique. Les deux sont distinctes mais peuvent être utilisées de manière complémentaire :
Recherche par mots clés : La recherche par mots clés est la méthode la plus traditionnelle et la plus simple. Elle repose sur l'identification de mots spécifiques dans une requête de recherche. Le système cherche ensuite ces mots exacts dans les documents ou les pages web indexés. Cette méthode ne prend pas en compte le contexte ou la relation entre les mots. Par exemple, si vous tapez "chat" dans un moteur de recherche qui utilise la recherche par mots clés, il cherchera toutes les occurrences du mot "chat" sans distinguer s'il s'agit de l'animal, d'une conversation ou d'une partie d'un mot plus long.
Recherche sémantique : La recherche sémantique, en revanche, est plus avancée. Elle vise à comprendre l'intention et le contexte derrière les mots utilisés dans la requête de recherche. Cette approche utilise des technologies de traitement du langage naturel pour analyser la signification des mots dans la phrase et trouver des résultats qui sont non seulement textuellement mais aussi contextuellement pertinents. Par exemple, si vous recherchez "traiter une fenêtre", une recherche sémantique comprendra que vous cherchez des informations sur comment protéger ou décorer une fenêtre, plutôt que des informations sur des fenêtres d'ordinateur.
Google, qui bénéficie de plus de 25 ans d’expérience dans la recherche web, focalise ses efforts sur les technologies de recherche les plus avancées, ce qui comprend notamment la compréhension, l’interprétation ainsi que la ré-écriture des requêtes utilisateurs (query rewriting and query expansion), de manière à apporter des résultats plus pertinents.
Image : Google
La compréhension du contexte de la recherche permet aussi d’avoir de meilleurs résultats, notamment grâce à :
La racination des mots et correction orthographique
L’ajout de mots connexes et de synonymes
La suppression de mots non importants
L’annotation des entités importantes
Le Re-ranking
Une stratégie complémentaire (déjà utilisée sur de la recherche web, et de plus en plus importante pour le RAG) fait aussi de plus en plus parler d’elle : c’est le re-ranking, aussi connu comme l’approche de récupération en deux étapes (two staged retrieval approach). Comme son nom l’indique, le re-ranking est un processus en deux étapes :
Image : Google
Voici comment cela fonctionne :
Étape 1 : Récupération initiale
Les moteurs de recherche sémantique utilisent d'abord des algorithmes de recherche de voisins les plus proches approximatifs (ANN) pour récupérer rapidement un ensemble de résultats pertinents pour une requête. Voici un exemple avec le mot “capital” :
Image : Microsoft
Étape 2 : Re-ranking
Ensuite, un modèle de re-ranking est utilisé pour affiner et réorganiser ces résultats, en plaçant les plus pertinents en haut de la liste. Le processus diffère d’une technologie à l’autre et peut être hybride (par mots clés et sémantique), mais s’appuie généralement sur les critères suivants :
Pertinence : Le critère principal est la pertinence des documents par rapport à la requête de l'utilisateur.
Signaux de popularité : Ex. le nombre de visites ou de partages d'un document, pour classer les résultats.
Qualité du contenu : Ex. en évaluant des aspects comme l'autorité de la source, la cohérence et la clarté du texte.
Recency : La fraîcheur des informations est importante pour de nombreux types de requêtes. Les documents plus récents sont souvent priorisés, notamment pour des sujets d'actualité.
Localisation : Pour les requêtes locales, on peut tenir compte de la proximité géographique des résultats par rapport à l'utilisateur.
Signaux spécifiques aux entreprises : Dans des applications d'entreprise, les moteurs de recherche peuvent inclure des signaux spécifiques, comme des filtres ou des boosts, pour privilégier certains types de documents ou de contenus en fonction des besoins de l'entreprise.
Relations de graphes de connaissances : Les moteurs de recherche peuvent également utiliser des graphes de connaissances pour comprendre les relations entre les entités mentionnées dans les requêtes et les documents, afin de mieux contextualiser les résultats.
Ces technologies de RAG plus avancées sont en pleine évolution, notamment :
Chez Google : Vertex AI Search utilise cette approche de reranking pour offrir une qualité de recherche de niveau professionnel.
Chez Microsoft : L’équivalent s’appelle Semantic Ranking, et il est disponible sur Azure AI Search (anciennement connu sous le nom Cognitive Search).
Ce qu’il faut retenir en résumé, c’est que le reranking permet de s'assurer que les résultats les plus pertinents apparaissent en tête de liste, améliorant ainsi la qualité de la recherche.
Le mot de la fin
Comme on peut le voir, le RAG peut évoluer de manière à réduire énormément le potentiel d’hallucination des modèles, mais il n'est pas la solution à tous les problèmes hallucinatoires de l'IA. Il est donc important de garder un regard critique, notamment face aux affirmations de ceux qui pourraient prétendre le contraire. Ces technologies vont sûrement encore beaucoup évoluer, et nous pourrions avoir de belles surprises dans les prochains mois, notamment lorsqu’on voit la vitesse à laquelle des acteurs comment OpenAI ont accéléré le rythme des innovations. OpenAI est d’ailleurs censé présenter dans quelques jours la première version d’un nouveau service qui sera dédié à la recherche web.
📢 News
Microsoft construit un modèle de 500 milliards de paramètres
Microsoft développe actuellement un nouveau modèle de langage nommé MAI-1, avec environ 500 milliards de paramètres. Il vise à rivaliser avec des modèles importants tels que GPT-4 d'OpenAI et Gemini Ultra de Google. MAI-1 est dirigé par Mustafa Suleyman et utilise une infrastructure solide avec des serveurs équipés de GPU Nvidia. Il devrait être intégré aux services cloud de Microsoft et améliorer des applications comme Bing et Azure. La date de sortie de MAI-1 n'a pas encore été précisée.
Apple améliore Siri avec une IA plus puissante
Selon les rumeurs, Siri dans iOS 18 bénéficiera de nouvelles fonctionnalités d'IA, notamment des modèles de langage avancés pour des conversations plus naturelles, la capacité de créer des GIFs à partir de photos, une meilleure compréhension du contexte et une intégration plus étroite avec les applications. La date de sortie prévue pour iOS 18 n'est pas précisée. Siri utilisera le traitement des données sur l'appareil pour préserver la confidentialité.
iOS 18 : Nouvelles fonctionnalités IA d'Apple révélées par des fuites
Les nouveautés IA d'Apple pour iOS 18 se dévoilent : l'IA générative sera intégrée aux applications natives comme Siri, Safari, Mail et Messages. L'IA pourra suggérer des réponses aux messages et résumer le contenu des pages web visitées. Ces fonctionnalités respecteront le modèle de langage maison Ajax et pourront fonctionner en local ou en réseau.
Stack Overflow signe un accord avec OpenAI pour la fourniture de données
OpenAI collabore avec Stack Overflow (un forum bien connu des développeurs) pour améliorer les performances de ses modèles d'IA générative sur les tâches liées à la programmation. Les modèles d'OpenAI, y compris ChatGPT, devraient répondre de manière plus précise aux questions techniques. Stack Overflow bénéficiera de l'expertise d'OpenAI pour développer de nouvelles intégrations d'IA générative. Les premières fonctionnalités seront disponibles fin juin. Cette collaboration marque un changement significatif pour Stack Overflow qui avait initialement banni ChatGPT de sa plateforme. Les outils d'IA générative suscitent des préoccupations quant à la validité des informations générées, à la surcharge d'informations et à la confidentialité des données. Malgré ces problèmes, de nombreux développeurs utilisent des outils d'IA.
De l'énergie renouvelable pour alimenter l'IA de Microsoft
Microsoft a signé un contrat historique pour s'approvisionner en électricité renouvelable afin de soutenir son développement dans l'IA. L'accord représente une puissance de 10,5 gigawatts et nécessitera un investissement de plus de 11,5 milliards de dollars. Cette initiative vise à répondre aux besoins énergétiques croissants du secteur de l'IA, tout en respectant l'objectif de la neutralité carbone de Microsoft d'ici 2030.
Le plan d’Elon Musk pour les actus boostées à l’IA
Elon Musk a partagé sa vision d'utiliser l'IA pour combiner les actualités en temps réel et les réactions sur les réseaux sociaux. Le but est de fournir des informations “maximales” et à jour en citant les sources les plus importantes. Musk reconnaît que Grok, l'IA de X, a encore des améliorations à faire, notamment en termes de citation et de pertinence des posts. L'approche de Musk est différente des autres résumés d'actualités basés sur l'IA et pourrait être controversée, mais elle offre une opportunité de satisfaire utilisateurs, éditeurs et plateformes.
Microsoft retarde les mises à jour de Copilot AI dans Windows
Microsoft a décidé de suspendre le déploiement des nouvelles fonctionnalités de Copilot dans Windows 11 afin de les peaufiner en fonction des commentaires des utilisateurs. Malgré cela, Copilot continuera de fonctionner normalement pour ceux qui l'ont déjà. De plus, Microsoft prévoit de présenter davantage lors de son événement sur l'IA le 20 mai. Des fonctionnalités telles qu'une application AI Explorer et un Copilot amélioré sont attendues. De nouveaux ordinateurs portables Surface équipés du processeur Snapdragon X Elite de Qualcomm sont également attendus pour rivaliser avec le MacBook Air d'Apple. Des mises à jour ont également été apportées aux canaux Dev et Beta de Windows 11.
🎙️ Opinions
Sam Altman dit que l'IA sera comme une personne super intelligente qui "sait absolument tout" de votre vie
L'IA du futur sera un collègue super intelligent qui sait tout de votre vie, selon Sam Altman. Elle aura une connaissance détaillée de ses utilisateurs et travaillera plus dur qu'un assistant exécutif humain. Altman a également évoqué les progrès de l'IA, mais sans fournir de calendrier précis pour la sortie de GPT-5.
Warren Buffett effrayé par une IA
Warren Buffett a été impressionné et effrayé par un deepfake d'IA de lui-même. Buffett a comparé l'IA au génie sorti de la bouteille et a exprimé sa peur face au pouvoir de l'IA. Les deepfakes impliquant Buffett ont également été signalés dans le passé. L'article souligne l'importance de l'IA et de ses implications.
🙏 Merci de nous lire. À la prochaine !
Pierre + 🤖