jeudi 5 mai 2011

L'exploration de données

Les innovations sont presque toujours le fait d'explorateurs individuels ou de petits groupes, et presque jamais celui de bureaucraties importantes et hautement structurées. (Harold J. Leavitt)
Toute entreprise a pour obligation d'enregistrer ses opérations comptables, et se trouve ainsi pourvue d'un ensemble parfois colossal de données. Les experts-comptables et autres contrôleurs de gestion savent bien à quel point l'exploitation de ces données permet à une entreprise d'améliorer sa gestion et d'augmenter ses résultats.
Plus généralement, lorsqu'une entreprise dispose de données nombreuses concernant l'un des aspects de son activité, elle peut espérer l'exploiter. Ainsi, dans le domaine commercial, des outils de gestion de la relation client (ou CRM, pour Customer Relationship Management) fleurissent dans de nombreuses entreprises car elles permettent, outre la tenue à jour de l'historique des échanges avec chaque client ou prospect, d'analyser quels sont les différents profils de clients, ce qu'ils achètent ou n'achètent pas... Cela permet aux vendeurs de proposer des produits ou services ciblés et ainsi d'optimiser l'effort commercial.
Mais si la comptabilité et la gestion de la relation client sont des domaines très transversaux, qui concernent quasiment toutes les entreprises, dans le domaine technique les données sont souvent plus spécialisées, et il n'existe que rarement sur le marché des outils pour analyser des données spécifiques (agricoles, chimiques, électroniques, mécaniques, optiques...).
Pourtant, ces données sont parfois nombreuses : données d'essais R&D, historique de réglage d'une production industrielle, liste d'incidents... Existe-t-il des techniques pour en tirer parti ?

L'exploration des données

L'exploration de données, ou Data Mining, est une approche d'acquisition de connaissances à partir de données brutes. Typiquement, elle conduit à 4 opérations :
  • la recherche de relations,
  • le regroupement,
  • la classification,
  • et la régression.
La recherche de relations vise à identifier comment plusieurs variables sont reliées entre elles. Ainsi, si vous achetez un livre sur le site d'Amazon, le site vous proposera quelques livres fréquemment achetés en même temps par les consommateurs, car ils ont utilisé leur base de données d'achats, et ont observé des corrélations entre l'achat d'un livre et l'achat d'un autre. Évidemment, il s'agit d'un moyen de vous faire acheter deux livres au lieu d'un.
Dans un domaine plus technique, si un industriel produit des pièces dont certaines ont un défaut (disons, entre une et trois sur mille), et qu'il enregistre chaque jour les divers réglages de son procédé ainsi que le taux de défauts, il dispose d'une base de données qu'il peut chercher à exploiter. Un logiciel adapté lui montrera par exemple qu'il y a moins de défauts lorsque tel courant électrique est supérieur à 2,5 ampères et que telle température est comprise entre 310°C et 315°C, ce qui n'est pas toujours facile à observer parmi des dizaines de paramètres.
Le regroupement consiste à observer dans les données l'existence de groupes similaires. Un marketeur analysant les habitudes de consommation d'un produit dans divers pays européens pourra ainsi identifier des pays ayant une culture de consommation similaire (par exemple : les pays nordiques, les pays slaves et germaniques et les pays latins), et imaginer des produits différents pour chaque type de pays. En marketing, cela s'appelle de la segmentation.
Pour prendre une illustration plus technique, prenons l'exemple d'un chercheur de l'industrie chimique, à qui on demande de trouver un substitut à une molécule donnée car elle va être prochainement interdite. Par exemple, une molécule permettant à une colle de durcir rapidement. Il prend sa base de données de molécules préférée, et observe qu'aucune autre molécule n'est aussi performante que celle qu'il faut éliminer. Toutefois, par l'utilisation d'un logiciel bien choisi, il identifie cinq groupes de molécules qui ont des performances proches. L'un de ces groupes contient la molécule interdite, mais les quatre autres ont des compositions très différentes. De plus, deux de ces groupes correspondent à des familles de molécules dont uniquement un petit nombre de compositions a été évalué : il y a donc fort à parier que tester des molécules de ces deux familles conduisent à trouver la perle rare.
La classification consiste à définir quels données correspondent à une classe parmi une liste définie à l'avance. L'exemple-type est le filtre anti-spam de nos serveurs de courrier électronique.
Dans une situation plus industrielle, prenons par exemple un chercheur de l'industrie agroalimentaire qui produit des biscuits. Selon le réglage de telle ou telle machine, le biscuit produit peut être friable ou non, lisse ou rugueux, homogène ou grumeleux... Un logiciel adéquat pourra, à partir des données expérimentales que le chercheur a obtenues, déterminer des règles de classification. Ces règles pourront être validées par quelques tests, puis utilisées à la guise de l'entreprise agroalimentaire pour obtenir plus rapidement le réglage idéal d'un nouveau type de biscuit.
Enfin, la régression vise à déterminer une fonction mathématique qui prédit les résultats associés avec une combinaison de paramètres avec un minimum d'erreur. Cette capacité à prédire est très appréciée par les décideurs, notamment les chefs d'entreprise pour des raisons évidentes.
Prenons comme illustration industrielle un métallurgiste qui développe de nouveaux alliages. Son historique de test comporte des milliers de compositions différentes, avec des traitements thermiques (recuits) ou mécaniques (forgeage) associés. Son expérience lui a donné des intuitions (par exemple, mettre plus de 1% d'aluminium est défavorable pour telle propriété) mais il imagine volontiers qu'une analyse méthodique de l'historique pourrait lui apporter plus. Un outil numérique de régression bien choisi pourra par exemple lui proposer un modèle numérique qui estime le module d'élasticité de son alliage, un autre modèle, la contrainte à rupture, et un troisième le point de fusion.

Deux entreprises basées sur le data mining
La société TecKnowMetrix utilise des techniques d'analyse lexicale (une forme de data mining spécifique aux bases de données textuelles) pour analyser notamment les bases de brevets. Cela permet de savoir quelles entreprises et quels laboratoires travaillent sur une problématique, et constitue donc un outil de veille technologique particulièrement puissant et original.
La société Expernova propose, sur le même principe, l'analyse des publications scientifiques de divers laboratoires pour permettre l'identification des chercheurs experts dans un domaine technologique spécifique.
Ces deux sociétés sont basées sur des outils d'exploration des données textuelles.

Data mining et médiation technique

Un médiateur technique n'a pas pour vocation de faire de l'exploration de données : il y a des spécialistes pour cela. Toutefois, il y a deux aspects du data mining qui sont pertinents pour le médiateur technique.
D'une part, le client peut avoir besoin d'un expert en data mining. Et plus spécifiquement, d'un expert maîtrisant l'une des méthodes d'exploration des données. Il en existe en effet des dizaines, issues pour certaines des statistiques, d'autres de l'intelligence artificielle, et certaines méthodes sont spécifiques à un type de données (géographiques, par exemple).
D'autre part, le client peut aussi avoir besoin de connaissances sur un sujet technique. Or une entreprise spécialisée dans ce domaine, et qui dispose d'une longue expérience matérialisée dans une base de données, n'a pas forcément cherché à faire une analyse de ces données dans le sens du besoin du client. Le médiateur technique fera alors appel à un expert de l'exploration de données pour obtenir les connaissances souhaitées par le client à partir de l'historique de l'entreprise spécialisée.