Autres logiciels

Un logiciel ne vient jamais du néant, dans cette page, j'ai essayé de regrouper les logiciels qui m'ont influencé dans la conception et la réalisation de TANAGRA. Je les ai classés en deux catégories : (a) les logiciels gratuits, à vocation recherche ; (b) les logiciels commerciaux.

Logiciels de recherche

Bien souvent, il s'agit de collections de code source, très difficiles à mettre en oeuvre pour des non- informaticiens. Leur principale valeur ajoutée vient (1) de l'accès au code, tout le monde peut ainsi vérifier, voire déboguer les méthodes; (2) de la rigueur scientifique qui est à l'origine de leur élaboration, bien souvent elles ont servi à des thèses et ont fédéré une communauté scientifique.

En décembre 2005, j'ai tenté de tracer, dans le cadre d'un séminaire au Laboratoire ERIC, un cahier des charges des logiciels gratuits utilisables dans l'enseignement du Data Mining. J'ai principalement mis l'accent sur les logiciels WEKA, ORANGE et TANAGRA.

Dans ce qui suit, je liste quelques logiciels ou packages, gratuits ou non, qui me semblent intéressants.

Logiciel Description
SIPINA Bien sûr, j'ai beaucoup travaillé sur les différentes versions. Le développement de la dernière version a cessé depuis le printemps 2000, et pourtant jusqu'à maintenant encore, je reçois de nombreuses demandes sur le logiciel.

Outre la recherche dans le DATA MINING, SIPINA a également beaucoup contribué à la recherche dans d'autres domaines (médecine, biologie, etc.). Le fait qu'il soit installable simplement et utilisable sous Windows (pilotage par menus, interface graphique) a beaucoup contribué à son utilisation je pense. En se référant aux fichiers logs, plusieurs milliers de personnes l'ont chargé, est-ce qu'ils l'ont vraiment utilisé...

WEKA Créé par le laboratoire d'informatique de l'université de WAIKATO (Nouvelle-Zelande), c'est, à mon sens, le meilleur projet de recherche disponible dans le monde. Programmé en JAVA, il peut fonctionner sous tous les systèmes d'exploitation. Le code est entièrement libre, lisible et documenté. De plus en plus, dans les publications à caractères scientifiques, le fait d'avoir intégré sa bidouille dans la structure WEKA est un atout, d'autres chercheurs peuvent récupérer le code pour reproduire l'expérimentation, apporter des améliorations, etc.

Son principal inconvénient est qu'il est fait par des chercheurs, pour des chercheurs. Il faut vraiment s'accrocher pour pouvoir initier une étude à partir de ses propres données, les sorties du logiciel sont tout sauf pratiques.

Pendant un moment, j'ai caressé l'idée d'apporter une structure graphique au dessus des structures WEKA. J'ai abandonné au bout de quelques milliers de lignes de code, disparues avec le formattage rageur de ma version de LINUX qui s'en est suivi, cela m'obligeait bien souvent à une série de gymnastique de programmation qui rendait la chose un peu trop complexe à mon goût. Je me suis rendu compte un peu plus tard que d'autres l'ont fait en mieux avec d'une part le projet YALE, d'autre part avec le concept Knowledge Flow dans WEKA lui-même. Comme quoi, il n'y avait pas de regrets à avoir.

ORANGE Un excellent logiciel libre, avec deux modes de fonctionnement : (1) en mode visuel sous forme de diagramme de traitements, très classique maintenant ; (2) en mode interprété avec le langage de programmation Python.

L'interface a été réalisé avec soin, le logiciel est très facile d'utilisation. Contrairement à la plupart des logiciels issus de la recherche, il dispose de modules pour l'exploration graphique des données. Vraiment un très bon produit. La culture est très clairement Machine Learning.

IND Le premier projet de ce type, à ma connaissance, dans le domaine du machine learning. Initié par un pape du bayesianisme, il a largement contribué à la compréhension du mécanisme de contrôle de la complexité d'un arbre de décision. Il a beaucoup frayé avec la chapelle des MML (Minimum message length) qui n'est, finalement (tout dépend du point de vue bien sûr), qu'une ré-expression du bayesianisme.

Tous ces gens là ont fortement influencé la recherche sur les arbres de décision au début des années 90. La bibliothèque IND contient des méthodes qui n'ont jamais été implémentées nulle part ailleurs, telle que les méthodes d'averaging, etc. Elle comporte également, oh miracle, un algorithme pour construire des graphes d'induction (Oliver, 1993).

MLC++ Je n'ai jamais réellement étudié en détail cette bibliothèque. Elle est surtout intéressante par sa destinée, en effet elle a servi avec succès à des projets commerciaux qui marchent (MineSet et Blue Martini Software).

Son auteur, Rohan Kohavi est certainement une des personnalités les plus dynamiques du data mining ces dernières années, il suffit de voir sa page de publis pour s'en convaincre.

Logiciels commerciaux

La prolifération des outils commerciaux, de plus ou moins bonne qualité, est carrément terrifiante. On nous sert souvent, à tort et à travers, la fameuse image du chercheur d'or en quête d'une pépite, c'est à se demander si, finalement, le principal filon du DATA MINING, ce n'est pas la production de logiciels censés "faire du DATA MINING".

L'expérience prime sur les paillettes à mon avis, les principaux logiciels qui m'ont le plus influencé viennent souvent du domaine de la statistique, de l'analyse de données et de l'apprentissage automatique. Ils ont pour point commun une expérience forgée au fil des années avec des utilisateurs exigeants.

Logiciel Caractéristiques
SPAD A tout seigneur, tout honneur, serais-je tenté de dire. Historiquement, SPAD est le premier logiciel a avoir adopté le principe de la programmation visuelle à l'aide d'un enchaînement d'icônes en analyse de données.

Par son historique et les personnes qui gravitent autour -- voir par exemple les intervenants qui participent aux formations -- c'est un logiciel qui fait référence en France.

Clementine Repris par SPSS depuis quelques années déjà, Clementine bénéficie de toute la puissance d'un des grands de la statistique.

A une époque j'utilisais beaucoup Clementine pour mes cours, j'ai pu en apprécier les qualités. J'avoue que j'ai été bluffé lorsque j'ai assisté à une de ses présentations, je me suis rendu compte qu'une grande partie des fonctionnalités de l'outil m'échappaient complètement, ceci après deux années d'utilisation. Je n'ai jamais su si c'est parce qu'elles étaient superflues, ou si c'est tout simplement moi qui n'en avait pas besoin.

Sites de référence sur les logiciels

Il existe de nombreux sites qui réferencent les logiciels de DATA MINING existants. Il y en a tellement de toute manière que toute une vie ne suffirait pas pour les recenser tous. Voici quelques pointeurs qui peuvent vous aider :

Dernière modification : 12 janvier 2004.