Partie 4 - La recherche documentaire : interroger les banques de données et exploiter les ouvrages de référence
Chapitre 6 - La recherche documentaire
4.6/3 - L'accès direct aux mots du texte
Une base de données des documents en texte intégral permet d’accéder directement à n’importe quel terme qui la compose. Le fait d’interroger les énormes index constitués par l’indexation de tous les mots de textes confronte le documentaliste et l’utilisateur aux problèmes de bruit (documents non pertinents retrouvés) et de silence (documents pertinents non retrouvés). Ce chapitre explique les raisons de ces phénomènes et leurs conséquences tout en recherchant par ailleurs leurs remèdes.
Une base de données des documents en texte intégral (par exemple, les archives du quotidien Le Monde) permet d'accéder directement à n'importe lequel des termes qui la composent ; il en est de même pour les immenses bases de données des agrégateurs de contenus mentionnés plus haut. Mais le fait d'interroger les énormes index constitués par l'indexation de tous les mots de textes confronte le documentaliste (et aussi l'utilisateur) aux importants problèmes de bruit et de silence :
Bruit | Silence |
---|---|
Documents non pertinents retrouvés | Documents pertinents non retrouvés |
En d'autres termes, il s'agit du taux de rappel non compensé par le taux de précision :
Taux de rappel | Taux de précision |
---|---|
Ensemble de documents retrouvés | Documents pertinents retrouvés |
Sont considérés comme des termes suffisamment discriminants la plupart des « noms propres », c'est-à-dire les noms des personnes et des institutions. Sauf exceptions (du type « Jean Dupont »), les noms propres permettent une recherche efficace et, dans la plupart des cas, exhaustive. Habituellement ils ne génèrent pas de bruit documentaire et n'entraînent pas non plus de silence.
Il en va autrement pour la majorité des termes dits « noms communs ». Il va de soi que l'accès à un mot aussi courant que le terme « politique » ou « roman », dans les archives du Monde, générera un nombre de réponses tellement élevé qu'il risque d'être dépourvu de toute utilité pour la recherche. Cette conséquence néfaste d'une recherche imprécise répond au nom de « bruit » dans le vocabulaire de la documentation. On évitera cette situation en combinant ce terme imprécis avec d'autres termes de recherche qui en limiteront la portée.