L'IA cherche, mais cite mal : les limites des moteurs de recherche génératifs

Le robot qui cherche sur le net • Qant, M. de R. avec Midjourney

14 mars 25

Une étude de l’université Columbia révèle que les moteurs de recherche basés sur l'IA peinent à citer correctement leurs sources, présentant souvent des réponses erronées avec une confiance trompeuse. Grok et Gemini remportent le bonnet d’âne.

Près d'un quart des Américains déclarent qu’ils ont remplacé Google par un outil de recherche générative, généralement ChatGPT. Or, les chatbots ne redirigent pas vers les sites d'origine des informations, mais les reformulent directement dans leurs réponses en les citant en marge. Le Tow Center for Digital Journalism, un centre de recherche et développement affilié à l’université de Columbia à New York, a évalué huit outils d'IA pour mesurer leur capacité à retrouver et citer correctement les articles de presse. L'étude conclut à des performances globalement mauvaises, avec plus de 60 % de réponses incorrectes et une tendance générale à présenter ces erreurs avec une confiance injustifiée.

Une incapacité à refuser de répondre

Les modèles testés ont généralement produit des réponses erronées plutôt que d'admettre leur incapacité à fournir une information fiable. ChatGPT, par exemple, a proposé 134 réponses incorrectes sur 200 tests, mais n'a exprimé un doute que dans 15 cas. Perplexity, un moteur conçu pour la recherche, s'est trompé dans 37 % des cas, tandis que Grok 3 a atteint un taux d'erreur de 94 %. Copilot a été le seul système à préférer refuser une réponse plutôt que de fournir une information incorrecte.

Les modèles premium, censés offrir de meilleures performances grâce à des ressources de calcul supérieures, ont paradoxalement présenté des taux d'erreur plus élevés que leurs versions gratuites. Perplexity Pro (20 dollars par mois) et Grok 3 (40 dollars par mois) ont répondu correctement à un plus grand nombre de questions que leurs homologues gratuits, mais avec un surcroît d'erreurs factuelles et une propension accrue à donner des réponses fausses avec assurance. Cette tendance accentue la difficulté pour l'utilisateur de distinguer le vrai du faux.

Certains moteurs ont accédé à du contenu alors même que les éditeurs avaient explicitement bloqué leurs robots d'exploration via le protocole Robots Exclusion. Perplexity Pro a correctement identifié près d'un tiers des articles issus de sites qui lui avaient interdit l'accès. Par exemple, la version gratuite de Perplexity a retrouvé et cité sans problème des articles payants de National Geographic, alors que le média a bloqué ses robots et ne dispose d'aucun accord avec le journal.

Des citations imprécises et des liens fictifs

Les outils analysés ne renvoient pas toujours vers les sources originales. Lorsqu'un article était correctement identifié, il était fréquemment cité via une version syndiquée sur Yahoo News ou AOL plutôt que via le site du média d'origine, même lorsque celui-ci avait un accord de licence avec l'IA. Perplexity Pro, par exemple, a cité des versions non officielles d'articles du Texas Tribune dans 30 % des cas.

Les différentes réactions des outils d'IA • Source : TCDJ

Les moteurs ont aussi tendance à inventer des URL. Plus de la moitié des réponses de Gemini et Grok 3 renvoyaient vers des liens erronés ou inexistants. Sur 200 tests effectués avec Grok 3, 154 citations menaient à des pages d'erreur. Ce phénomène, bien que plus rare chez d'autres modèles, constitue un frein à la vérification des sources.

Malgré des partenariats avec plusieurs groupes de presse, les performances des chatbots restent inégales. OpenAI et Perplexity, qui ont signé des accords avec le Guardian et Time, n'ont pas pour autant amélioré la précision de leurs citations de ces médias. Le San Francisco Chronicle, qui autorise l'accès à OpenAI, a vu son contenu correctement identifié par ChatGPT seulement une seule fois sur dix.

Pour en savoir plus :

Columbia Journalism Review

Plus sur IA

L’IA pourrait éroder la valeur du travail et augmenter les inégalités

Alors que les premières études sur l'IA suggéraient qu'elle pourrait combler les écarts de compétences professionnelles et jouer un rôle d'égalisation, des données plus récentes indiquent que les personnes les plus performantes obtiendront de nouveaux “superpouvoirs” qui leur permettront de réaliser une croissance des revenus beaucoup plus importante que les autres. Les entreprises et les travailleurs devront se préparer en conséquence.

Par Azeem Azhar et Chantal Smith (Exponential View)

Alibaba dévoile une IA capable de lire les émotions

Le groupe chinois Alibaba a lancé R1-Omni, un modèle d'intelligence artificielle capable d'analyser les expressions du visage humain, à partir de vidéos.

Des idées pour un Plan d’Action pour l’IA

Google et OpenAI ont soumis leurs propositions pour le futur AI Action Plan de Donald Trump.

Simuler le monde réel avec des modèles génératifs multimodaux

Une équipe de chercheurs de Hong Kong propose une synthèse inédite sur les modèles génératifs multimodaux, intégrant 2D, vidéo, 3D et 4D pour une simulation plus réaliste du monde réel.

L’essentiel

Une IA pour les gamers

14 mars 25

Dès avril, les testeurs Xbox Insiders pourront essayer Copilot for Gaming, un assistant IA intégré à l’application mobile Xbox. Cet outil proposera des suggestions tactiques en jeu. Copilot pourra observer l’écran du joueur et fournir des indications en temps réel. Microsoft prévoit d’élargir ses fonctionnalités progressivement, mais le premier test servira à affiner l’outil avant un déploiement sur d’autres supports. En savoir plus…

L’Espagne serre la vis sur l’IA

14 mars 25

Le Conseil des ministres espagnol a approuvé un projet de loi imposant des amendes allant de 7,5 millions à 35 millions d'euros (ou jusqu’à 7 % du chiffre d’affaires mondial) aux entreprises d’IA qui ne signalent pas clairement les contenus générés artificiellement, notamment pour limiter les deepfakes. Inspirée de l’AI Act européen, la loi interdit aussi l’usage de techniques subliminales qui manipulent les décisions des utilisateurs et l’exploitation de données biométriques à des fins discriminatoires. Elle doit encore être validée par le parlement espagnol. En savoir plus…

L’Europe découvre Operator

14 mars 25

L'agent Operator d'OpenAI, lancé fin janvier et capable d'exécuter des tâches sur le web comme réserver un restaurant ou effectuer des achats en ligne, est désormais accessible aux utilisateurs de l'abonnement ChatGPT Pro dans l'Union européenne, la Suisse, la Norvège, le Liechtenstein et l'Islande. En savoir plus…

Salesforce mise sur Singapour

13 mars 25

Salesforce va investir 1 milliard de dollars à Singapour sur cinq ans pour accélérer l’adoption de l’IA. Cet investissement vise à soutenir le déploiement d’Agentforce, l'outil d’IA de Salesforce destiné aux entreprises. Salesforce, qui opère à Singapour depuis 25 ans, développe également des technologies avancées dans son centre de recherche local. En savoir plus…

Anthropic perce le plafond de verre

13 mars 25

Anthropic a atteint un chiffre d’affaires annualisé de 1,4 milliard de dollars début mars, en hausse de 40 % par rapport à fin 2024, selon The Information. À ce rythme, l’entreprise pourrait générer entre 2 et 4 milliards de dollars en 2025. La start-up, valorisée 61,5 milliards de dollars, a récemment levé 3,5 milliards lors d’un tour de financement en mars. Google détient 14% de ses actions, mais sans droit de vote ni présence au conseil. En savoir plus…