vendredi 18 février 2011

L'ontologie : un outil pour structurer les connaissances

Ce qu'on sait, savoir qu'on le sait ; ce qu'on ne sait pas, savoir qu'on ne le sait pas : c'est savoir véritablement. (Confucius)
Comment structurer les connaissances d'un expert pour les transmettre à un autre professionnel ? Se contenter de la retranscription d'un entretien, même étoffé, n'assure pas que le savoir de l'expert est complètement décrit, ni qu'il sera bien compris. Pour cela, il convient de structurer ce savoir.

Structurer la connaissance par un ontologie

Une ontologie est un ensemble de concepts relatifs à un domaine, ensemble auquel on rajoute des liens qui relient ces concepts. C'est une construction classique de l'ingénierie des connaissances.
Les concepts peuvent représenter des individus (la tour Eiffel) ou des classes qui regroupent des individus (le concept de "tour" rassemble la tour Eiffel, la tour Montparnasse, et toute autre tour). Les concepts ont généralement des propriétés ou caractéristiques qu'on appelle des attributs (une tour a une hauteur).
Les concepts sont reliés entre eux par des relations, dont las plus élémentaires sont l'inclusion entre classes (l'ensemble des tours est inclus dans l'ensemble des bâtiments) et l'appartenance d'un individu à une classe (la tour Eiffel est une tour). Une ontologie qui se résume à ces relations est une taxonomie : la classification scientifique des espèces vivantes de Linné en règne, classe, ordre, famille, genre et espèces en est un exemple emblématique.
Une taxonomie est un début, mais les connaissances d'un expert sur les relations entre divers concepts sont souvent bien plus riches. Ainsi, si on considère les concepts de "voiture", de "moteur" et de "phare" pour un garagiste, il est clair qu'un moteur ou un phare n'est pas une voiture, donc il n'y a pas de relation d'inclusion ; par contre, une voiture comporte un moteur et des phares, et les concepts sont reliés par une relation "a pour partie".
Les ontologies ne se limitent pas aux objets physiques, car les connaissances peuvent porter sur des tâches que l'expert sait réaliser ("faire une vidange"), de règles à appliquer ("laisser un mètre entre la voiture et un vélo"), de constats empiriques ("si aucune lumière ne s'allume sur le tableau de bord quand on met le contact, c'est la batterie qui a un problème")...
La structuration des connaissances grâce à l'ontologie peut être facilitée si l'on utilise des outils informatiques adaptés. Il en existe plusieurs, qui proviennent essentiellement de deux domaines de recherche, à ma connaissance : les spécialistes de l'intelligence artificielle et les spécialistes de la documentation technique.

L'intelligence artificielle : l'ontologie pour les machines

L'un des buts de l'intelligence artificielle, sinon le seul, est de rendre un ordinateur capable de raisonner comme un être humain.

Un ordinateur gagne à Jeopardy contre des humains
L'actualité illustre les progrès de l'intelligence artificielle. Le 16 février 2011, dans le célèbre jeu télévisé Jeopardy, l'ordinateur Watson d'IBM a battu deux candidats humains, choisis parmi les plus brillants de l'histoire du jeu.

Pour cela, les chercheurs de ce domaine ont développé des représentations de connaissances basés sur des ontologies, ce qui les a conduit à développer différents formats électroniques. Citons par exemple OWL (pour Web Ontology Language, dans le désordre), le langage d'ontologie à la mode : un format de type XML plutôt abscons et qui est principalement utilisé à des fins de raisonnement automatique. Autant dire qu'il est fait pour les ordinateurs et les chercheurs en intelligence artificielle, mais pas pour le commun des mortels. En fait, c'est le cas de l'ensemble des outils informatiques assez riches pour faire appliquer des règles logiques à une machine : ils ne sont pas vraiment adaptés à la transmission des connaissances entre être humains.

Index, thésaurus, glossaires : l'ontologie pour l'être humain

Lorsque l'on consulte un ouvrage de référence pour chercher une information précise, on passe généralement soit par la table des matières, soit par l'index. Or rédiger à la main un index est une tâche ingrate. Les rédacteurs de documentation technique ont donc cherché à créer automatiquement des index à partir du texte de leur documentation.
Ils se sont vite aperçus qu'un index est essentiellement une liste de sujets et de références (numéros de page) à ces sujets. Il est également possible de réaliser des index thématiques (index d'auteurs, de notions...), ce qui impose de définir la typologie des termes.
Ils ont également compris que l'on pouvait réaliser d'une manière similaire un thésaurus, c'est-à-dire un index enrichi de liens entre les sujets : synonymes, termes plus précis ou au contraire plus larges, sujets voisins...
Ils ont enfin observé qu'un glossaire est structuré de la même manière qu'un index, mais les références sont remplacées par des définitions.
Index, thésaurus et glossaires sont ainsi des moyens de cartographier le contenu d'un document, en indiquant où trouver des informations sur différents sujets. Il en est issu le principe du topic map (parfois traduit par carte topique, bien que l'adjectif adéquat serait plutôt "subjective") : un topic map est une représentation informatique de la localisation des informations contenues dans un document (ou plus généralement dans un ensemble de documents) et de liens entre ces informations.
En fait, un topic map est une forme d'ontologie : les sujets et les concepts jouent le même rôle, ainsi que les liens entre sujets et les relations entre concepts, la typologie des sujets est une forme d'attribut de concept, la définition trouvable dans un glossaire en est une autre.
Les chercheurs en documentation technique ont donc redécouvert l'ontologie des chercheurs en intelligence artificielle. Le format informatique de référence des topic maps aujourd'hui est le format XTM, un autre format de type XML. Toutefois, dans la mesure où leur but est de faire assimiler une documentation technique à un lecteur, et non à une machine, ils ont développé des outils informatiques différents et beaucoup plus adaptés à la transmission de connaissances entre humains. La différence majeure avec les logiciels de l'intelligence artificielle est que chaque sujet comporte en principe des liens vers des documents qui ont trait au sujet et qui sont en principe compréhensibles par un être humain (texte, schéma, site internet, enregistrement audio ou vidéo...).
Ainsi, le logiciel Ontopia est un ensemble d'outils qui permettent de créer une ontologie, de l'alimenter avec des concepts et des relations entre concepts, et de lier ces concepts à des documents lisibles. Cet outil permet donc de construire une base de connaissances qui peut se traduire par un site internet.

A quand l'outil idéal ?

Lorsqu'un médiateur technique élicite les connaissances d'un expert, il a intérêt à créer une telle base de connaissances et à l'alimenter au fur et à mesure de l'élicitation. L'ontologie qu'il construit ainsi est une base de structuration du livrable qu'il va fournir à son client, et les documents liés à chaque sujet constituent une base du contenu du livrable.
Il reste que, malgré l'utilité d'un logiciel comme Ontopia, il manque à ce type d'outil deux composants importants :
  • un éditeur de documents intégré, qui permettrait d'éviter de sortir du logiciel pour rédiger des connaissances concernant un sujet que l'on vient de créer par exemple,
  • et un ensemble de générateurs de documents de divers formats (documents papiers, présentations, pages web, wikis...) pour passer d'un support informatique adapté au médiateur à un livrable adapté au client final.
Avis aux amateurs prêts à mettre leurs mains dans le cambouis numérique !