Le plus générique possible, le plus simple possible et le plus rapide possible, essaies de t'en sortir avec ça !!! Va falloir faire qqs compromis ... mais sur quoi ? 2 options de compilation sont dispo: "TREE_SPLIT_EXAMPLES" indique que la liste des individus sur un noeud est maintenu sur le split candidat, cela évite un passage supplémentaire dans la BD lorsque l'on applique un split, on évite donc LxN opérations (L nombre de feuilles, N individus), c'est peu tranchant en réalité en temps et pourtant c'est très gourmand en mémoire, cette option peut être intéressante si la base n'est pas en mémoire mais ce n'est pas le cas ici ==>>> à éviter "GLOBAL_SORTED_TREE_LIST" idée de WEKA, construire au départ une liste triée des individus pour chaque attribut continu candidat à la segmentation, ainsi le tri n'est effectué qu'une seule fois, la liste filtrée est passé de sommet en sommet. on évite ainsi "nombre attributs continus x nombre de sommets x nlog(n)" opérations (tri sur chaque sommet) gourmand en mémoire (la taille est connue à l'avance : 4 x nb att continu x nb individus total) mais ça permet de réduire dans des proportions considérables le temps de calcul, surtout lorsque la base est constituée d'attributs en majorité continus (cf. par exemple sur les wave) ==>>> à garder donc
| Name | Description |
|---|---|
Class TLstSplitAttributes |
|
Class TMLTreeNode |
|
Class TMLTreeStructure |
|
Class TSplitAttribut |
|
Class TSplitLeaf |
| Name | Description |
|---|---|
| TClassLstSplitAttributes | classe de recherche des splits |
| TClassMLTreeNode | classe de sommets |
| TClassSplitAttribut | classe de split attribut |
| TClassSplitLeaf | classe de feuille |
Ricco
12/01/2004