icopedia.org

La recherche sémantique transforme notre façon de trouver les données de développement

page-banner-circle
blog-page-banner

Faites l’expérience. Rendez-vous sur n’importe quel grand portail de données de développement — IATI Datastore, la base de données de projets de la Banque mondiale, une bibliothèque documentaire d’une agence des Nations Unies — et recherchez « community resilience programs in the Sahel. »

Vous obtiendrez des résultats. Certains seront pertinents. Beaucoup ne le seront pas. Et vous passerez presque certainement à côté de documents qui utilisent une terminologie différente pour le même concept : « renforcement de la résilience communautaire, » « community-based adaptation, » « pastoral risk management, » ou « social protection in fragile contexts. »

Le même concept. Des mots différents. La recherche traditionnelle par mots-clés les traite comme des requêtes totalement sans rapport.

Comment la recherche par mots-clés échoue dans le secteur du développement

La plupart des bases de données de développement reposent encore sur la correspondance par mots-clés — la même technologie qui alimentait les moteurs de recherche au début des années 2000. Tapez un mot, obtenez les documents contenant ce mot exact (ou une variante proche). Cela fonctionne bien quand vous savez exactement ce que vous cherchez et que vous connaissez son appellation.

Dans le développement international, ces deux conditions échouent régulièrement.

Premièrement, le problème multilingue. Les documents de développement existent en anglais, français, espagnol, arabe, portugais et des dizaines d’autres langues. Une recherche par mots-clés en anglais ne trouvera pas les documents en français, même lorsqu’ils décrivent des programmes identiques. Pour les consultants travaillant au Sahel — où le français et l’anglais coexistent comme langues de travail — cela signifie que la moitié de la base de connaissances pertinente est invisible.

Deuxièmement, le problème du vocabulaire. Le développement a un problème de jargon. Chaque donateur, agence et cadre d’évaluation utilise une terminologie légèrement différente. Ce que la Banque mondiale appelle « social safety nets, » l’UE appelle « social protection floors, » et un document du gouvernement sénégalais pourrait appeler « filets sociaux. » C’est la même chose. La recherche par mots-clés ne le sait pas.

Troisièmement, le problème conceptuel. Parfois, vous ne cherchez pas un terme spécifique du tout. Vous voulez trouver des projets qui ont abordé un type particulier de défi, ou des évaluations qui ont mesuré un type particulier de résultat. Vous cherchez du sens, pas des mots.

Ce que fait réellement la recherche sémantique

La recherche sémantique fonctionne différemment. Au lieu de faire correspondre des chaînes de caractères, elle convertit le texte en représentations mathématiques — appelées « embeddings » — qui capturent le sens. Deux phrases qui signifient la même chose mais utilisent des mots complètement différents auront des embeddings similaires. Deux phrases qui partagent des mots mais signifient des choses différentes auront des embeddings différents.

En termes pratiques, cela signifie que vous pouvez effectuer une recherche dans une base de données de documents de développement en anglais et trouver des résultats pertinents en français. Vous pouvez chercher « drought response » et trouver des documents sur « early warning systems for food insecurity » — parce que le système comprend que ce sont des concepts liés.

La technologie derrière tout cela a mûri rapidement. Des modèles comme les embeddings multilingues de Voyage AI peuvent représenter du texte dans plus de 100 langues dans le même espace mathématique. Combinés avec des bases de données vectorielles (comme pgvector, s’exécutant sur PostgreSQL), cela crée des systèmes de recherche à la fois puissants et pratiques à déployer.

RAG : quand la recherche rencontre l’intelligence

La recherche sémantique devient encore plus puissante lorsqu’elle est combinée avec la Génération Augmentée par Récupération, ou RAG. Dans un système RAG, la question d’un utilisateur déclenche d’abord une recherche sémantique pour trouver les documents les plus pertinents. Ces documents sont ensuite transmis à un modèle de langage, qui synthétise une réponse ancrée dans le matériel source réel.

Au lieu d’obtenir une liste de 200 documents à parcourir, vous obtenez une réponse directe — avec des citations pointant vers les sources originales que vous pouvez vérifier.

Pour un consultant en développement préparant une proposition de projet, cela change radicalement la phase de recherche. Au lieu de passer deux jours à lire des documents de projets de la Banque mondiale, vous pouvez demander : « Quelles ont été les principales leçons tirées des projets de gestion communautaire des ressources naturelles en Mauritanie entre 2018 et 2024 ? » et obtenir une réponse synthétisée en quelques secondes, avec des liens vers les évaluations sources.

Comment ICOpedia utilise cette technologie

La couche d’intelligence documentaire d’ICOpedia est construite exactement sur cette architecture : embeddings multilingues (Voyage AI), stockage vectoriel (pgvector sur Supabase), et synthèse alimentée par RAG (Claude API). Le système ingère des documents provenant de l’IATI, des portails de donateurs et des rapports institutionnels téléchargés, les convertit en embeddings recherchables, et les rend interrogeables via une interface en langage naturel.

Le résultat : un professionnel du développement à Nouakchott peut effectuer une recherche en français et trouver des évaluations de la Banque mondiale en anglais. Un consultant à Dakar peut poser une question conceptuelle et obtenir des réponses tirées de l’ensemble du corpus documentaire — pas seulement les documents qui utilisaient les bons mots-clés.

Ce n’est pas une amélioration marginale. C’est la différence entre avoir accès à une fraction des connaissances accumulées du secteur et avoir accès à leur totalité.

Ce qui vient ensuite

La recherche sémantique dans le développement en est encore à ses débuts. La plupart des grandes plateformes ne l’ont pas encore adoptée. Les organisations et les outils qui franchiront le pas en premier auront un avantage significatif — non seulement en qualité de recherche, mais dans la profondeur des analyses qu’ils peuvent extraire des données existantes.

Les connaissances existent déjà. La technologie pour les exploiter est là. La seule question est la rapidité avec laquelle le secteur s’en emparera.