Comparaison de logiciels

La principale idée est de montrer l'utilisation et le comportement de plusieurs logiciels gratuits face à différents scénarios de traitement des données. On se rend rapidement compte que ces logiciels ont de nombreux points communs.

Nous utilisons principalement les logiciels suivants :

Didacticiels

Problématique Opérateurs utilisés Didacticiel Fichier
Logiciels gratuits et enseignement universitaire

Faut-il (et peut-on se contenter de) utiliser des logiciels gratuits de Data Mining dans l'enseignement ? Quelques critères d'évaluation et de positionnement des logiciels.

Etude des fonctionnalités de trois logiciels gratuits : ORANGE - TANAGRA - WEKA. (Séminaire du Laboratoire ERIC -- 12 déc. 2005).

Slides -
Construire une courbe ROC avec ORANGE, TANAGRA et WEKA.

Dans ce didacticiel, nous montrons les points communs et les différences entre ces trois logiciels lors de la construction d'une courbe ROC consécutive à l'apprentissage d'un modèle de prédiction avec la régression logistique.

Dataset
Sampling
Define Status
Logistic regression
ROC Curve
ds1_10
Construire un arbre de décision avec ORANGE, TANAGRA et WEKA.

Dans ce didacticiel, nous montrons comment, avec ces trois logiciels, (1) contruire un arbre de décision à partir d'un fichier de données au format texte ; (2) en évaluer les performances à l'aide de la validation croisée.

Dataset
Define Status
C-RT Classification tree
Cross-validation
heart
Comparaison de performances de méthodes supervisées sur un échantillon test prédéfini (ORANGE, TANAGRA et WEKA).

Dans ce didacticiel, nous montrons comment, avec ces trois logiciels, (1) construire plusieurs modèles de prédiction sur un seul et mÍme fichier d'apprentissage ; (2) en évaluer les performances sur un seul et mÍme fichier test. La comparaison est parfaitement rigoureuse dans ce cas.

Dataset
Define Status
C-RT Classification tree
Logistic regression
SVM (Linear)
breast tow
Interactive Tree Builder (ORANGE et SIPINA)

Dans ce didacticiel, nous montrons comment, avec ces deux logiciels, intervenir dans le coeur du processus de construction d'un arbre de décision. Ces outils sont assez simplifiés par rapport aux logiciels commerciaux, ils ont néanmoins le mérite de montrer l'intérÍt des arbres par rapport aux autres méthodes supervisées.

iris
Construire des règles d'association (ORANGE, TANAGRA et WEKA).

Dans ce didacticiel, nous montrons comment, avec ces trois logiciels, construire des règles d'association à l'aide de différentes implémentations de l'algorithme A PRIORI d'AGRAWAL.

Dataset
Define Status
A PRIORI
vote
Apprentissage d'un réseau de neurones (SIPINA, TANAGRA et WEKA).

Dans ce didacticiel, nous montrons comment, avec ces trois logiciels, paramétrer, apprendre et évaluer un perceptron multicouches.

Dataset
Define Status
Multilayer perceptron
ionosphere
K-Means - Comparaison de logiciels.

Dans ce didacticiel, nous montrons comment, avec plusieurs logiciels, élaborer et interpréter une typologie à l'aide de la méthode des K-Means. Les logiciels utilisés sont : Tanagra 1.4.28 ; R 2.7.2 (sans package additionnel spécifique) ; Knime 1.3.5 ; Orange 1.0b2 et RapidMiner Community Edition.

Dataset
Define Status
Principal Component Analysis
K-Means
Group Characterization
Export Dataset
cars
Régression logistique - Comparaison de logiciels.

Dans ce didacticiel, nous comparons la mise en oeuvre de la régression logistique à l'aide de plusieurs logiciels de Data Mining. Les logiciels utilisés sont : Tanagra 1.4.27, bien sûr, puisque je travaille dessus ; R 2.7.2 (procédure GLM), qui est incontournable dès que l'on souhaite utiliser des techniques d'obédience statistique ; Orange 1.0b2, qui l'intègre dans sa panoplie ; Weka 3.5.6, qui l'aborde exclusivement sous l'angle de l'optimisation, en faisant l'impasse sur la partie inférentielle ; et enfin, toujours Weka mais via le package RWeka 0.3-13 pour le logiciel R.

Dataset
Define Status
Binary Logistic Regression
Supervised Learning
Test
Discrete Select Examples
wave
SVM - Comparaison de logiciels.

Dans ce didacticiel, nous comparons la mise en oeuvre des SVM (support vector machine ou spéarateurs à vaste marge) à l'aide de plusieurs logiciels de Data Mining. Le contexte est assez particulier, le fichier de données comporte 31809 descripteurs (!). Les logiciels utilisés sont : ORANGE, RAPIDMINER, TANAGRA et WEKA.

Dataset
Define Status
C-SVC
SVM
Supervised Learning
Cross-validation
protein
Traitement de gros volumes avec les arbres de décision (C4.5) - Comparaison de logiciels.

Dans ce didacticiel, nous comparons la mise en oeuvre de la méthode C4.5 (Quinlan, 1993) à l'aide de plusieurs logiciels de Data Mining. Le contexte est assez particulier, le fichier de données comporte 500000 observations (!) et 22 variables. Les logiciels utilisés sont : KNIME, ORANGE, R (package RPART), RAPIDMINER (anciennement YALE), SIPINA, TANAGRA et WEKA.

Dataset
Define Status
C4.5
Supervised Learning
wave


Ricco Rakotomalala.