Comparaison de logiciels
La principale idée est de montrer l'utilisation et le comportement de plusieurs logiciels gratuits face à différents scénarios de traitement des données. On se rend rapidement compte que ces logiciels ont de nombreux points communs.
Nous utilisons principalement les logiciels suivants :
Didacticiels
| Problématique | Opérateurs utilisés | Didacticiel | Fichier |
| Logiciels gratuits et enseignement universitaire Faut-il (et peut-on se contenter de) utiliser des logiciels gratuits de Data Mining dans l'enseignement ? Quelques critères d'évaluation et de positionnement des logiciels. Etude des fonctionnalités de trois logiciels gratuits : ORANGE - TANAGRA - WEKA. (Séminaire du Laboratoire ERIC -- 12 déc. 2005). |
Slides | - | |
| Construire une courbe ROC avec ORANGE, TANAGRA et WEKA. Dans ce didacticiel, nous montrons les points communs et les différences entre ces trois logiciels lors de la construction d'une courbe ROC consécutive à l'apprentissage d'un modèle de prédiction avec la régression logistique. |
Dataset Sampling Define Status Logistic regression ROC Curve |
![]() |
ds1_10 |
| Construire un arbre de décision avec ORANGE, TANAGRA et WEKA. Dans ce didacticiel, nous montrons comment, avec ces trois logiciels, (1) contruire un arbre de décision à partir d'un fichier de données au format texte ; (2) en évaluer les performances à l'aide de la validation croisée. |
Dataset Define Status C-RT Classification tree Cross-validation |
![]() |
heart |
| Comparaison de performances de méthodes supervisées sur un échantillon test prédéfini (ORANGE, TANAGRA et WEKA). Dans ce didacticiel, nous montrons comment, avec ces trois logiciels, (1) construire plusieurs modèles de prédiction sur un seul et même fichier d'apprentissage ; (2) en évaluer les performances sur un seul et même fichier test. La comparaison est parfaitement rigoureuse dans ce cas. |
Dataset Define Status C-RT Classification tree Logistic regression SVM (Linear) |
![]() |
breast tow |
| Interactive Tree Builder (ORANGE et SIPINA) Dans ce didacticiel, nous montrons comment, avec ces deux logiciels, intervenir dans le coeur du processus de construction d'un arbre de décision. Ces outils sont assez simplifiés par rapport aux logiciels commerciaux, ils ont néanmoins le mérite de montrer l'intérêt des arbres par rapport aux autres méthodes supervisées. |
![]() |
iris | |
| Construire des règles d'association (ORANGE, TANAGRA et WEKA). Dans ce didacticiel, nous montrons comment, avec ces trois logiciels, construire des règles d'association à l'aide de différentes implémentations de l'algorithme A PRIORI d'AGRAWAL. |
Dataset Define Status A PRIORI |
![]() |
vote |
| Apprentissage d'un réseau de neurones (SIPINA, TANAGRA et WEKA). Dans ce didacticiel, nous montrons comment, avec ces trois logiciels, paramétrer, apprendre et évaluer un perceptron multicouches. |
Dataset Define Status Multilayer perceptron |
![]() |
ionosphere |
| K-Means - Comparaison de logiciels. Dans ce didacticiel, nous montrons comment, avec plusieurs logiciels, élaborer et interpréter une typologie à l'aide de la méthode des K-Means. Les logiciels utilisés sont : Tanagra 1.4.28 ; R 2.7.2 (sans package additionnel spécifique) ; Knime 1.3.5 ; Orange 1.0b2 et RapidMiner Community Edition. |
Dataset Define Status Principal Component Analysis K-Means Group Characterization Export Dataset |
![]() |
cars |
| Régression logistique - Comparaison de logiciels. Dans ce didacticiel, nous comparons la mise en oeuvre de la régression logistique à l'aide de plusieurs logiciels de Data Mining. Les logiciels utilisés sont : Tanagra 1.4.27, bien sûr, puisque je travaille dessus ; R 2.7.2 (procédure GLM), qui est incontournable dès que l’on souhaite utiliser des techniques d’obédience statistique ; Orange 1.0b2, qui l’intègre dans sa panoplie ; Weka 3.5.6, qui l’aborde exclusivement sous l’angle de l’optimisation, en faisant l’impasse sur la partie inférentielle ; et enfin, toujours Weka mais via le package RWeka 0.3-13 pour le logiciel R. |
Dataset Define Status Binary Logistic Regression Supervised Learning Test Discrete Select Examples |
![]() |
wave |
| SVM - Comparaison de logiciels. Dans ce didacticiel, nous comparons la mise en oeuvre des SVM (support vector machine ou spéarateurs à vaste marge) à l'aide de plusieurs logiciels de Data Mining. Le contexte est assez particulier, le fichier de données comporte 31809 descripteurs (!). Les logiciels utilisés sont : ORANGE, RAPIDMINER, TANAGRA et WEKA. |
Dataset Define Status C-SVC SVM Supervised Learning Cross-validation |
![]() |
protein |
| Traitement de gros volumes avec les arbres de décision (C4.5) - Comparaison de logiciels. Dans ce didacticiel, nous comparons la mise en oeuvre de la méthode C4.5 (Quinlan, 1993) à l'aide de plusieurs logiciels de Data Mining. Le contexte est assez particulier, le fichier de données comporte 500000 observations (!) et 22 variables. Les logiciels utilisés sont : KNIME, ORANGE, R (package RPART), RAPIDMINER (anciennement YALE), SIPINA, TANAGRA et WEKA. |
Dataset Define Status C4.5 Supervised Learning |
![]() |
wave |