Nouveautés TANAGRA -- 18 décembre 2013 -- version 1.4.50
Des améliorations ont été introduites, un nouveau composant est ajouté.
HAC. Classification ascendante hiérarchique. Le temps de calcul a été très fortement amélioré. Nous détaillerons la nouvelle procédure utilisée dans un prochain tutoriel.
CATVARHCA. Classification des modalités des variables qualitatives. Basée sur les travaux d’Abdallah et Saporta (1998), le composant réalise une classification ascendante hiérarchique des modalités de variables qualitatives, la distance utilisée est l’indice de Dice. Trois stratégies d’agrégation sont proposées : saut minimum, saut maximum, lien moyen. Un tutoriel viendra décrire la méthode.
Nouveautés TANAGRA -- 15 septembre 2013 -- version 1.4.49
Quelques perfectionnements concernant les techniques d’analyse factorielle (ACP – analyse en composantes principales, ACM – analyse des correspondances multiples, AFC – analyse factorielle des correspondances, AFDM – analyse factorielle des données mixtes) ont été introduites. Les sorties en particulier ont été complétées, suite à l’écriture de supports de cours relatives à ces méthodes durant cet été 2013.
La rotation VARIMAX a été améliorée. Merci à Frédéric Glausinger d’avoir proposé un code optimisé.
La correction de Benzecri a été ajoutée dans l’affichage des résultats de l’ACM. Merci à Bernard Choffat pour cette suggestion.
Nouveautés TANAGRA -- 01 décembre 2012 -- version 1.4.48
Des nouveaux composants ont été implémentés.
K-Means Strengthening. Ce composant m'a été suggéré par Mme Claire Gauzente. Il s'agit de « confirmer » une partition existante (ex. issue d'une CAH – Classification ascendante hiérarchique) à l'aide de plusieurs passes de l'algorithme des centres mobiles. Une comparaison des partitions avant et après optimisation est proposée, indiquant l'efficacité de la post-optimisation. Dans Tanagra, l'approche peut intervenir après toute technique de clustering. Merci à Claire pour cette idée très intéressante.
Discriminant Correspondence Analysis. Analyse factorielle discriminante pour les variables qualitatives (Hervé Abdi, 2007). Elle vise à caractériser l'appartenance des individus à des groupes (définies par une variable cible) à l'aide d'un ensemble de variables descriptives qualitatives. La méthode s'appuie sur une transformation du tableau de données attribut-valeur en un tableau de contingence qui permet l'application d'une analyse factorielle des correspondances. Nous retrouvons dès lors le mode de lecture habituel des résultats de cette dernière (coordonnées factorielles, contributions, qualité de représentation).
D'autres composants ont été améliorés.
HAC. Après le choix du nombre de classes dans le dendrogramme dans la classification ascendante hiérarchique, une dernière passe sur les données est effectuée, affectant chaque individu de l'échantillon d'apprentissage au centre de classes qui leur est le plus proche. La même approche est mise en œuvre lorsqu'il s'agit de déployer le modèle de classification aux individus supplémentaires. De fait, il peut y avoir incohérence entre le nombre d'observations affiché sur les nœuds du dendrogramme et le nombre d'individus dans les classes. Tanagra fournit à présent les deux informations. Seule la seconde est utilisée pour le déploiement et le calcul des statistiques descriptives subséquentes (moyennes conditionnelles pour la comparaison des groupes, etc.).
Correspondence Analysis. Tanagra fournit maintenant les coefficients des fonctions de projection pour les lignes et colonnes supplémentaires dans l'analyse factorielle des correspondances (AFC). Il sera ainsi possible de calculer facilement les coordonnées factorielles d'un nouveau point décrit par un profil ligne ou colonne. Enfin, les tableaux de résultats peuvent être triés suivant les contributions aux axes des lignes et des colonnes.
Multiple correspondence analysis. Plusieurs améliorations ont été apportées à l'analyse factorielle des correspondances multiples (AFCM) : le composant sait prendre en compte les variables supplémentaires quantitatives et qualitatives ; les variables peuvent être triées selon leur contribution aux axes ; tous les indicateurs d'évaluation peuvent être réunis dans un seul grand tableau pour une vision synthétique des résultats, cette fonctionnalité est surtout intéressante si on s'en tient à un faible nombre de facteurs ; les fonctions de score sont fournies, elles permettent de calculer facilement les coordonnées factorielles des individus supplémentaires en dehors de Tanagra.
Des tutoriels viendront décrire la mise en œuvre de ces composants dans des études de cas réalistes.
Nouveautés TANAGRA -- 24 septembre 2012 -- version 1.4.47
Non iterative Principal Factor Analysis (PFA). Analyse en facteurs principaux est une technique factorielle qui cherche à mettre en évidence les variables latentes qui lient deux ou plusieurs variables actives de la base de données. A ce titre, à la différence de l'analyse en composante principales (ACP), elle s'intéresse uniquement à la variabilité partagée entre les variables. Dans les faits, elle travaille à partir d'une variante de la matrice des corrélations où pour chaque variable, sur la diagonale principale, nous remplaçons la valeur 1 par sa proportion de variance expliquée par les autres variables.
Harris Component Analysis. C'est une technique factorielle qui s'intéresse à la variabilité partagée entre les variables. Elle travaille sur une seconde variante de la matrice des corrélations où les liaisons entre deux variables sont accentuées lorsqu'elles (l'une des deux ou les deux) présentent une relation forte avec les autres variables de la base. Seule l'approche non itérative a été implémentée.
Analyse en composantes principales (ACP). L'outil est complété avec la reconstitution de la matrice de corrélation. Il est aussi réorganisé en interne afin que la structure puisse couvrir les différentes variantes de techniques factorielles pour variables quantitatives ou mixtes.
Ces trois techniques peuvent être couplées avec la rotation orthogonale des axes (FACTOR ROTATION). Elles peuvent être couplées également avec les composants d'aide à la détection du nombre adéquat d'axes : PARALLEL ANALYSIS et BOOTSTRAP EIGENVALUES.
Nouveautés TANAGRA -- 01 septembre 2012 -- version 1.4.46
AFDM (Analyse factorielle des données mixtes). Etend l'analyse en composantes principales (ACP) aux données comportant un mélange de variables quantitatives et qualitatives. La méthode est due à Pagès (2004). Un tutoriel viendra décrire la mise en œuvre de la méthode et la lecture des résultats.
Nouveautés TANAGRA -- 12 juin 2012 -- version 1.4.45
Plusieurs nouveautés autour de l'analyse en composantes principales (ACP).
PRINCIPAL COMPONENT ANALYSIS. Sorties additionnelles pour le composant : Dessin de la scree plot et de la courbe de l'inertie expliquée ; ACP normée – Aide à la détection du nombre d'axes avec les seuils de Kaiser-Guttman, de Karlis-Saporta-Spinaki, test des bâtons brisés de Legendre-Legendre ; ACP normée – test de Bartlett et indice KMO (indice MSA de Kaiser-Mayer-Olkin) si le déterminant de la matrice des corrélations est supérieur à 1E-45 ; ACP normée – Affichage de la matrice des corrélations brutes et des corrélations partielles.
PARALLEL ANALYSIS. Le composant calcule la distribution des valeurs propres pour un jeu de données généré aléatoirement. Il procède par randomisation. Il s'applique à l'analyse en composantes principales et l'analyse des correspondances multiples. Un facteur est considéré significatif si sa valeur propre est supérieure au quantile d'ordre 0.95 (paramétrable).
BOOTSTRAP EIGENVALUES. Calcul par ré-échantillonnage bootstrap de l'intervalle de variation des valeurs propres. Un axe est significatif si sa valeur propre est supérieure à un seuil qui dépend de la méthode sous-jacente (ACP ou ACM), ou si la borne basse de la valeur propre d'un axe est supérieure à la borne haute de la suivante. Le niveau de confiance 0.90 est paramétrable. S'applique à l'analyse en composantes principales et l'analyse des correspondances multiples.
JITTERING. S'applique aux composants de visualisation de nuages de points (SCATTERPLOT, CORRELATION SCATTERPLOT, SCATTERPLOT WITH LABEL, VIEW MULTIPLE SCATTERPLOT). Modifie très légèrement, aléatoirement, la position des points dans le nuage pour que l'utilisateur puisse identifier les superpositions.
RANDOM FOREST. Libération de la mémoire non utilisée après apprentissage des arbres de décision. Dans un apprentissage simple, cela ne porte pas à conséquence. En revanche, dans les méthodes ensemble (BAGGING, BOOSTING, et les RANDOM FOREST) où l'on empile un très grand nombre d'arbres, les capacités de calcul sont très largement améliorées. Merci à Vincent Pisetta de m'avoir signalé cet écueil.
Nouveautés TANAGRA -- 14 mai 2012 -- version 1.4.44
LIBSVM (http://www.csie.ntu.edu.tw/~cjlin/libsvm/). Mise à jour de la librairie LIBSVM version 3.12 (Avril 2012) [concerne les composants de support vector machine : C-SVC, Epsilon-SVR, nu-SVR]. Les calculs sont plus rapides. Possibilité de normalisation ou non des données (elle était imposée auparavant).
LIBCVM (http://c2inet.sce.ntu.edu.sg/ivor/cvm.html ; version 2.2). Intégration de la librairie LIBCVM. Deux méthodes sont disponibles : CVM et BVM (Core Vector Machine et Ball Vector Machine). Possibilité de normalisation ou non des données.
TR-IRLS (http://autonlab.org/autonweb/10538). Mise à jour de la librairie TR-IRLS pour la régression logistique sur de grandes bases de données, comportant un grand nombre de descripteurs (dernière version disponible - 08/05/2006). Calcul automatique de la déviance, et amélioration de l'affichage des coefficients (plus de décimales). Accès à plusieurs paramètres de l'algorithme d'apprentissage (règles d'arrêt).
FICHIER SPARSE. Importation des fichiers “sparse” (cf. format SVMLight, LibSVM ou LibCVM), extensions .DAT ou .DATA Les données peuvent être relatives à l'apprentissage supervisé ou à la régression. Le format est décrit en ligne (http://c2inet.sce.ntu.edu.sg/ivor/cvm.html).
SéLECTION DES INDIVIDUS. Un nouveau composant pour la sélection des m premiers individus parmi n dans une branche du diagramme. Cette option est utile lorsque le fichier résulte de la concaténation des échantillons d'apprentissage et de test.
Nouveautés TANAGRA -- 28 mars 2012 -- version 1.4.43
Quelques bugs ont été corrigés et quelques nouvelles fonctionnalités ajoutées.
Le calcul des contributions des individus dans l'ACP (PRINCIPAL COMPONENT ANALYSIS) ont été corrigées. Il était faussé lorsque nous travaillons sur un sous-échantillon de notre fichier de données. Cette erreur m'a été signalée par M. Gilbert Laffond.
La normalisation des facteurs après VARIMAX (FACTOR ROTATION) ont été corrigés de manière à ce que leur variance coïncide avec la somme des carrés des corrélations avec les axes, et donc avec la valeur propre associée à l'axe. Cette modification m'a été suggérée par M. Gilbert Laffond.
Dans le calcul de l'intervalle de confiance bootstrap de la Régression PLS (PLS CONF. INTERVAL), une erreur survenait lorsque le nombre d'axes demandé était supérieur au nombre de variables prédictives. Il est maintenant réduit d'autorité. Cette erreur m'a été signalée par M. Alain Morineau.
Dans certaines circonstances, une erreur peut survenir dans FISHER FILTERING, surtout lorsque Tanagra est exécuté via Wine sous Linux. Le composant a été sécurisé. Cette erreur m'a été signalée par M. Bastien Barchiési.
La vérification des données manquantes durant l'importation est maintenant optionnelle. La performance peut être privilégiée pour le traitement des très gros fichiers. Nous retrouvons les temps de traitement des versions 1.4.41 et précédentes.
Le menu «COMPONENT / COPY RESULTS » envoie des informations au format HTML qui sont maintenant compatibles avec le tableur Calc de la suite bureautique Libre Office (3.5.1). Il fonctionnait déjà avec le tableur Excel auparavant. Curieusement, la copie vers le tableur OOCalc d'Open Office n'est pas possible à l'heure actuelle (Open Office 3.3.0).
Nouveautés TANAGRA -- 4 février 2012 -- version 1.4.42
La macro complémentaire Tanagra.xla est maintenant compatible avec les versions 64 bits d'Excel (en plus des versions 32 bits gérées auparavant).
Avec le gestionnaire de mémoire FastMM, Tanagra peut adresser 3 Go de RAM sur les versions 32 bits de Windows, et 4 Go sur les versions 64 bits. La capacité à traiter des très grands fichiers est largement améliorée.
L'importation des fichiers texte (séparateur tabulation) et xls (Excel 97-2003) a été sécurisée. Auparavant, lorsqu'une ligne invalide était rencontrée (valeur manquante ou incohérente), le chargement était interrompu et les données tronquées. Maintenant, Tanagra saute la ligne incriminée et poursuit le chargement pour les observations restantes. Le nombre de lignes ignorées sont indiquées dans le rapport d'importation.
Nouveautés TANAGRA -- 22 septembre 2011 -- version 1.4.41
A PRIORI PT. Ce composant génère des règles d'association. Il est basé sur le programme apriori.exe de Borgelt qui a été mis à jour. Il s'appuie maintenant sur la version 5.57 du 02/09/2011. Le progrès de cette nouvelle mouture, en termes de temps de calcul, est impressionnant.
FREQUENT ITEMSETS. Egalement basé sur le programme apriori.exe de Borgelt (version 5.57), ce composant génère les itemsets fréquents, fermés, maximaux, ou générateurs.
Des tutoriels viendront bientôt décrire le fonctionnement de ces nouveaux outils.
Nouveautés TANAGRA -- 05 juillet 2011 -- version 1.4.40
Quelques améliorations pour cette nouvelle version.
L'addon de connexion avec le tableur Open Office Calc a été renouvelé. Il ne fonctionnait plus pour les versions récentes (Open Office 3.3 et LibreOffice 3.4). Une autre librairie a été rajoutée ("TanagraModule.oxt") pour ne pas interférer avec l'ancienne, toujours fonctionnelle pour les versions précédentes d'Open Office (3.2 et antérieures). Un tutoriel décrivant son installation sera mis en ligne bientôt. Je profite de cette mise à jour pour redire à quel point la liaison entre un tableur et un outil spécialisé de Data Mining est profitable. Les professionnels, les praticiens, ceux qui s'attaquent à des vrais problèmes avec des vraies données, connaissent l'importance du tableur dans la pratique journalière des statistiques et du data mining. Le sondage annuel organisé par le site kdnuggets.com le montre suffisamment (2011, 2010, 2009, ...). Il faut simplement savoir en circonscrire les limites en fonction de ses objectifs et de son contexte. Et comme outil pédagogique, le tableur est ce qui se fait de mieux pour comprendre les techniques. Les modifications m'ont été suggérées par Jérémy Roos (OpenOffice) et Franck Thomas (LibreOffice).
Notons qu'un addon similaire existe pour le logiciel R (R4Calc).
L'ACP non normée est maintenant disponible. Il est possible de la mettre en œuvre en désactivant l'option de standardisation des données dans le composant Principal Component Analysis. Modification suggérée par Elvire Antanjan.
La régression simultanée (régressions croisées) a été introduite. Inspirée sur logiciel LazStats qui n'est malheureusement plus accessible librement aujourd'hui. La technique est décrite dans notre fascicule accessible en ligne "Pratique de la régression linéaire - Diagnostic et sélection de variables" (section 3.6).
Les codes couleurs selon les p-value (probabilités critiques) ont été implémentées pour le composant Linear Correlation. Modification suggérée par Samuel KL.
Encore une fois, merci infiniment à toutes les personnes qui par leurs commentaires et leurs indications me permettent d'améliorer Tanagra.
Nouveautés TANAGRA -- 26 mai 2011 -- version 1.4.39
Quelques corrections mineures pour la version 1.4.39 de Tanagra.
Pour le composant PCA (Analyse en Composantes Principales), lorsque l'utilisateur demande explicitement tous les axes factoriels, Tanagra n'en génère aucun. Signalée par Jérémy Roos.
La régression logistique multinomiale (Multinomial Logistic Regression) implémentée dans la version précédente plante. Il n'était pas possible notamment de reproduire le tutoriel qui était en ligne. Signalée par Nicole Jurado.
Il n'était pas possible de calculer les scores avec le composant PLS-DA (Régression PLS - Analyse discriminante) c.-à-d. mettre le composant SCORING à la suite de PLS-DA. Signalée par Carlos Serrano.
Toutes ces erreurs ont été corrigées dans cette version 1.4.39.
Je ne le répéterai jamais assez. Merci infiniment à toutes les personnes qui par leurs commentaires et leurs indications me permettent d'améliorer Tanagra.
Nouveautés TANAGRA -- 04 février 2011 -- version 1.4.38
Quelques corrections mineures pour la version 1.4.38 de Tanagra.
Les codes couleurs des tests de normalité ont été harmonisés (NORMALITY TEST). Selon la procédure, les couleurs associées aux p-value n'étaient pas cohérents, induisant en erreur le praticien. Ce problème m'a été signalé par M. Laurent Garmendia.
Suite à des indications de M. Oanh Chau, je me suis rendu compte que la standardisation des variables pour la HAC (classification ascendante hiérarchique) était basée sur l'écart-type d'échantillon. Ce n'est pas une erreur en soi. Mais du coup, la somme des indices de niveau dans le dendrogramme ne coïncidait pas avec la TSS (total sum of squares). C'est plus gênant. L'écart est surtout perceptible sur les petits fichiers, il s'estompe lorsque l'effectif augmente. La correction a été introduite, maintenant le « BSS ratio » vaut bien 1 lorsque nous avons la partition triviale c.-à-d. un individu par groupe.
La régression linéaire multiple (MULTIPLE LINEAR REGRESSION) fournit maintenant la matrice (X'X)^(-1). Elle permet de déduire la matrice de variance covariance des coefficients (en la pré-multipliant par la variance estimée de l'erreur). Elle rentre aussi dans les tests généralisés sur les coefficients : les tests de conformité simultanés; les tests de combinaisons linéaires. Ces tests sont décrits (entres autres) dans les diaporamas de mes enseignements d'économétrie en Licence IDS.
Enfin, les sorties de l'analyse discriminante descriptive (CANONICAL DISCRIMINANT ANALYSIS) ont été complétées. Les barycentres des groupes (Group centroïds) sur les axes factoriels sont directement fournies.
Merci infiniment à toutes les personnes qui, par leurs commentaires ou leurs suggestions, m'aident à améliorer quotidiennement le travail que je mets en ligne (logiciel, documents).
Nouveautés TANAGRA -- 19 octobre 2010 -- version 1.4.37
Naive Bayes Continuous est un composant d'apprentissage supervisé. Il implémente le modèle d'indépendance conditionnelle pour les prédicteurs continus (quantitatifs). La principale originalité est dans la production d'un modèle explicite sous forme d'une combinaison linéaire des variables prédictives et, éventuellement, de leur carré.
Les fonctionnalités de reporting ont été améliorées.
Nouveautés TANAGRA -- 23 mars 2010 -- version 1.4.36
ReliefF est un composant de sélection automatique de variables pour l'apprentissage supervisé. Il sait traiter les descripteurs continus ou discrets. On peut le placer devant n'importe quelle méthode supervisée.
Naive Bayes a été modifié. Il affiche maintenant un modèle de prédiction sous une forme explicite, facile à déployer. Un tutoriel accompagne cette mise à jour.
Nouveautés TANAGRA -- 19 janvier 2010 -- version 1.4.35
CTP. Modification de la méthode de détection de la bonne taille de l'arbre dans le composant " Clustering Tree " avec post-élagage (CTP). Elle s'appuie à la fois sur l'angle entre chaque demi-droite à chaque point de la courbe de décroissante de l'inertie intra-classe sur l'échantillon d'expansion (growing set) et la décroissance du même indicateur calculé sur l'échantillon d'élagage (pruning set). Par rapport à l'implémentation précédente, il en résulte un choix de partitionnement avec un nombre plus faible de clusters.
Regression Tree. La modification précédente est répercutée sur le composant arbre de régression qui en est une version univariée.
C-RT Regression Tree. Un nouveau composant d'arbre de régression a été introduit. Il implémente fidèlement la technique décrite dans l'ouvrage de Breiman et al. (1984), notamment la partie post-élagage avec la règle de l'écart type (1-SE Rule) (chapitre 8, en particulier p. 226 concernant la formule de la variance du MSE).
C-RT. L'affichage de la méthode d'induction d'arbre de décision C-RT a été complété. En s'appuyant sur la dernière colonne du tableau d'élagage, il devient plus aisé de choisir le paramètre " x " (dans x-SE Rule) pour définir arbitrairement la taille de l'arbre élagué.
Des tutoriels viendront décrire ces différentes modifications.
Nouveautés TANAGRA -- 22 novembre 2009 -- version 1.4.34
Un composant d'induction de règles prédictives (RULE INDUCTION) a été ajouté dans la section " Apprentissage Supervisé ". Son utilisation est décrite dans un didacticiel accessible en ligne.
Le composant DECISION LIST a été amélioré, nous avons modifié le test réalisé lors de la procédure de pré-élagage. La formule est décrite dans le même didacticiel que ci-dessus.
Les composants SAMPLING et STRATIFIED SAMPLING (onglet Instance Selection) ont été légèrement modifiés. Il est maintenant possible de contrôler le générateur de nombres pseudo aléatoires en fixant nous même la valeur de départ de la " graine ".
Suite à une indication de Anne Viallefont, le calcul des degrés de liberté dans les tests sur tableaux de contingence est maintenant plus générique. En effet, le calcul était erroné lorsque la base était préalablement filtrée et que certaines marges (ligne ou colonne) contenaient un effectif égal à zéro. Merci Anne pour ces indications. De manière plus générale, merci à tous ceux qui m'envoient des commentaires. Programmer a toujours été pour moi une sorte de loisir. Le vrai boulot commence lorsqu'il faut contrôler les résultats, les confronter avec les références disponibles, les croiser avec les autres logiciels de Data Mining, libres ou non, comprendre les éventuelles différences, etc. A ce stade, votre aide m'est très précieuse.
Nouveautés TANAGRA -- 03 octobre 2009 -- version 1.4.33
Cette version accompagne la sortie du fascicule du cours consacré à la régression logistique (" Pratique de la Régression Logistique - Régression logistique binaire et polytomique " - Septembre 2009). Plusieurs techniques d'évaluation et de diagnostic de la régression logistique ont été développées, l'une d'entre elles (reliability diagram) peut s'appliquer à toute méthode supervisée :
- La matrice de variance covariance des coefficients.
- Test de Hosmer et Lemeshow
- Diagramme de fiabilité (reliability diagram ou calibration plot en anglais)
- Analyse des résidus, détection des points atypiques et/ou influents (résidus de pearson, résidus déviance, dfichisq, difdev, levier, distance de Cook, dfbeta, dfbetas)
Un tutoriel décrivant la mise en œuvre de ces outils a également été mis en ligne.
Nouveautés TANAGRA -- 15 avril 2009 -- version 1.4.31
M. Thierry Leiber a amélioré l'add-on réalisant la connexion entre Tanagra et Open Office. Il est maintenant possible, sous Linux, d'installer la macro complémentaire sous Open Office et de lancer directement Tanagra après avoir sélectionné les données (voir le tutoriel associé). Merci beaucoup Thierry pour cette contribution qui élargit le panel des utilisateurs de Tanagra.
Suite à une suggestion de M. Laurent Bougrain, la matrice de confusion est ajoutée à la sauvegarde automatique des résultats lors des expérimentations à grande échelle (voir « Tanagra en Ligne de commande »). Merci à Laurent, et à tous ceux qui par leurs commentaires constructifs m'aident à aller dans le bon sens.
Par ailleurs deux composants de régression par la méthode des Machines à Vastes Marges (Support Vector Regression) ont été ajoutés : Epsilon-SVR et Nu- SVR. Un didacticiel présente ces méthodes et compare nos résultats avec ceux du logiciel R. Tanagra, comme R avec la package « e1071 », s'appuie sur la fameuse bibliothèque LIBSVM.
Nouveautés TANAGRA -- 06 février 2009 -- version 1.4.30
La principale évolution est l'intégration de la bibilothèque FastMM (http://sourceforge.net/projects/fastmm/) dans le projet. Les (ré)allocations mémoires sont optimisées. Le gain est surtout sensible lors de l'importation des grandes bases de données. Le temps de traitement peut être divisé par un facteur 4 dans certains cas.
Le composant EXPORT DATASET (onglet DATA VISUALIZATION) sait exporter maintenant des fichiers au format ARFF (Weka) et EXCEL (97 --> XP). Pour Excel, le nombre d'observations (resp. colonnes) est limité à 65534 (resp. 256).
Les composants A PRIORI MR, SPV ASSOC TREE et SPV ASSOC RULE ont été mis à jour. Leur rôle, le paramétrage et la lecture des résultats sont décrits dans plusieurs didacticiels (http://tutoriels-data-mining.blogspot.com/).
Nouveautés TANAGRA -- 06 janvier 2009 -- version 1.4.29
Thierry Leiber m'a indiqué un bug dans le composant FACTOR ROTATION. Le projection après rotation était erronée dans certains cas. C'est corrigé maintenant. Merci infiniment Thierry, ce type de retour aide à faire avancer les choses.
Cette nouvelle version se démarque par une série de composants dédiés à l'intégration des coûts de mauvais classement dans le processus d'apprentissage supervisé.
Un tutoriel détaille l'utilisation de ces composants.
Composants | Description |
POSTERIOR PROB (onglet Scoring) | Ce composant calcule, pour chaque observation, à partir du composant d'apprentissgae supervisé auquel il est connecté, la probabilité P(Y/X) où Y est la variable à prédire, X les prédictives. |
CS-CRT (Spv Learning tab) | Cette version de CART (Breiman et al, 1984) cherche à minimiser le coût moyen de mauvais classement en intégrant la matrice de coûts de mauvais classement dans le processus de post-élagage. L'implémentation est fidèle au livre de référence. |
CS-MC4 (onglet Spv Learning) | Une version de C4.5 sensible aux coûts (Chauchat et Rakotomalala, 2001). On essaie aussi de minimiser le coût de mauvais classement. |
COST SENSITIVE LEARNING (onglet Meta-Spv Learning) | Un composant générique qui corrige la règle d'affectation de n'importe quelle méthode d'apprentissage supervisé en intégrant les coûts de mauvais classement. |
COST SENSITIVE BAGGING (onglet Meta-Spv Learning) | Un composant générique qui implémente le bagging. La prédiction des modèles individuels est corrigée aussi en intégrant les coûts de mauvais classement. |
MULTICOST (onglet Meta-Spv Learning) | Un composant générique qui combine bagging et production d'un modèle individuel final. La méthode est fortement inspirée de MetaCost de Domingos (KDD-1999). |
Nouveautés TANAGRA -- 26 octobre 2008 -- version 1.4.28
Dans le cadre d'un didactciel consacré à la comparaison de plusieurs logiciels libres lors de la mise en oeuvre de la méthode des centres mobiles (K-Means), les sorties du composant K-Means (et par extension, les composants dédiés à la classification automatique sur variables continues) ont été améliorées.
Le didacticiel est accessible sur le blog des tutoriels de Tanagra.
Nouveautés TANAGRA -- 22 août 2008 -- version 1.4.27
De nouveaux composants pour les tests de comparaisons non-paramétriques ont été ajoutés. L'intégration de ces nouveaux composants s'accompagne d'un nouveau fascicule de cours sur les tests non paramétriques. Les techniques sont décrites en profondeur (fondements, champ d'application, mise en oeuvre). Les sorties de TANAGRA sont explicitées et mises en relation avec les formules utilisées.
Composant | Description et Références |
K-S 2-Sample Test | Test de Kolmogorov-Smirnov. Test de comparaison des fonctions de répartition de 2 échantillons indépendants. Les statistiques de Kuiper et Cramer - von Mises sont calculés. |
Ansari-Bradley Scale Test | Test de comparaison des dispersions (paramètres d'échelle) de (K >= 2) échantillons indépendants. |
Mood Scale Test | Test de comparaison des dispersions de (K >= 2) échantillons indépendants. |
Klotz Scale Test | Test de comparaison des dispersions de (K >= 2) échantillons indépendants. |
FYTH 1-way ANOVA | Test de Fisher-Yates-Terry-Hoeffding. Comparaison des paramètres de localisation de (K >= 2) échantillons indépendants. |
Median Test | Test de la médiane généralisée. Comparaison des paramètres de localisation de (K >= 2) échantillons indépendants. |
Van der Waerden 1-way ANOVA | Test de Van der Waerden. Comparaison des paramètres de localisation de (K >= 2) échantillons indépendants. |
Cochran's Q-test | Test Q de Cochran. Comparaison de proportions sur (K >=2) échantillons dépendants (appariés). |
Nouveautés TANAGRA -- 22 juillet 2008 -- version 1.4.26
De nouveaux composants pour les tests paramétriques, univariés et multivariés, de comparaison de populations.
Composant | Description et Références |
ANOVA Randomized Blocks | Analyse de variance pour les plans d'expérimentations en blocs aléatoires complets (ou pour les mesures répétées). |
Paired V-Test | Comparaison de variances pour 2 échantillons appariés. |
Welch ANOVA | Analyse de variance à 1 facteur pour échantillons indépendants, avec hypothèse d'inégalité des variances conditionnelles. |
Hotelling's T2 | Comparaison de 2 vecteurs de moyennes, avec hypothèse d'égalité des matrices de variance covariance (homoscédasticité). |
Hotelling's T2 Heteroscedastic | Comparaison de 2 vecteurs de moyennes, avec hypothèse d'inégalité des matrices de variance covariance (hétéroscédasticité) |
Box's M Test | Comparaison de K (K >= 2) matrices de variance covariance conditionnelles. |
Les méthodes implémentées sont décrites dans un support de cours accessible en ligne. Elles sont illustrées dans deux nouveaux didacticiels (1 et 2).
Nouveautés TANAGRA -- 17 juin 2008 -- version 1.4.25
Deux composants ont été ajoutés : le premier calcule les corrélations partielles (PARTIAL CORRELATION), le second les corrélations semi-partielles (SEMI-PARTIAL CORRELATION).
Ces composants font suite à la rédaction d'un support de cours consacré à la corrélation. Nous leur avons adjoints deux tutoriels (1 et 2) détaillant leur utilisation et la lecture des résultats.
Nouveautés TANAGRA -- 25 mai 2008 -- version 1.4.24
Un nouveau composant de régression PLS est proposé (PLSR). Il combine les caractéristiques de deux anciens composants (toujours présents) : PLS Factorial, qui produit les scores factoriels ; et PLS Regression, qui produit les projections et les résidus. Le rapport a été amélioré de manière à se rapprocher des standards des logiciels spécialisés. Un didacticiel détaillant les fonctionnalités du composant est disponible. Sa particularité est de comparer en détail les tableaux de Tanagra avec ceux des logiciels phares du domaine, tels que SIMCA-P, SAS avec la Proc PLS, R avec le package PLS, SPAD avec le composant Régression PLS.
Sur un tout autre chapitre, un second composant destiné à la détection univariée des données aberrantes (atypiques) a été implémenté (UNIVARIATE OUTLIER DETECTION).
Enfin, un petit bilan sur le projet Tanagra aujourd'hui. Il comporte 213780 lignes de code ; 139 méthodes sont implémentées ; près de 90 didacticiels accompagnent la diffusion du logiciel. Le site web de Tanagra enregistre en moyenne 160 visites journalières (données STATCOUNTER sur la période janvier 2008 à avril 2008).
Nouveautés TANAGRA -- 08 mai 2008 -- version 1.4.23
L'analyse discriminante PLS est à l'honneur dans cette nouvelle version de TANAGRA. Un composant a été remanié (C-PLS), deux nouveaux composants ont été ajoutés (PLS-DA et PLS-LDA). Tous répondent à un problème d'apprentissage supervisé, c.-à-d. prédiction d'une variable catégorielle à partir d'un ensemble de descripteurs, en utilisant le principe de la régression PLS.
Un didacticiel explicitant la mise en œuvre des méthodes et la lecture des résultats accompagne cette nouvelle version 1.4.23 de TANAGRA.
Nouveautés TANAGRA -- 05 avril 2008 -- version 1.4.22
Des évolutions mineures (courbes de décroissance : de l'erreur pour les arbres de décision "C-RT" ; de l'inertie intra-classes pour les arbres classification "Clustering Tree"), et surtout deux corrections de bugs :
- Les variables étaient systématiquement centrées et réduites avec les réseaux de neurones ("Multilayer Perceptron"), même lorsque les utilisateurs ne demandaient pas de transformation préalable ;
- L'analyse des correspondances mutliples ("Multiple Correspondence Analysis") plantait lorsque certaines modalités des variables avaient un effectif nul. Ce cas peut survenir lorsque un filtrage des observations basé sur des règles est réalisé en amont. Un grand merci à M. Sylvain Willart de m'avoir signalé ce bug.
La véritable nouveauté est à voir du côté des tutoriels. Un nouveau mode de diffusion sous forme de blog vient compléter l'organisation actuelle. L'objectif est de rendre plus performant la recherche en améliorant l'indexation, et en profitant des prouesses des moteurs de recherche (par mots clés) des blogs. Ce travail a été réalisé pour les tutoriels en français, la documentation des articles en anglais viendra par la suite. Voir la section Didacticiels pour plus de détails.
Nouveautés TANAGRA -- 11 décembre 2007 -- version 1.4.21
Deux composants de sélection de variables pour la régression logistique ont été ajoutés (onglet FEATURE SELECTION) : la sélection par ajouts successifs (FORWARD-LOGIT) et la sélection par élimination séquentielle (BACKWARD-LOGIT). Toutes les étapes du calcul peuvent être retracées. Un didacticiel décrit la mise en oeuvre de ces composants.
Le composant régression logistique multinomiale (MULTINOMIAL LOGISTIC REGRESSION, onglet SPV LEARNING) a été amélioré. Les tests de significativité des variables, dans chaque équation et globalement, toutes les deux basées sur la statistique de Wald, sont maintenant fournis. Un didacticiel décrit cela.
Ces composants font suite à l'introduction de la régression logistique dans mes cours de data mining. La description des méthodes et techniques associées est accessible sur mon site de supports.
Nouveautés TANAGRA -- 20 octobre 2007 -- version 1.4.20
Peu de modifications visibles mais beaucoup d'améliorations en interne. GongYu a réalisé le mise à jour de plusieurs bibliothèques, il a également traqué une grande majorité des fuites de mémoire dans le code source. Un grand grand merci GongYu pour ton travail impressionnant. Il travaille actuellement sur une version dérivée de TANAGRA.
J'ai profité de cette mise à jour pour ajouter le composant LEAVE-ONE-OUT et rédiger un didacticiel concernant les méthodes de ré-échantillonnage pour l'évaluation des méthodes supervisées.
Nouveautés TANAGRA -- 1er octobre 2007 -- version 1.4.19
Des composants mesurant l'association entre variables ordinales ont été ajoutés : Gamma de Goodman et Kruskal, Tau-b et Tau-c de Kendall, d de Sommers (onglet NONPARAMETRIC STATISTICS).
Un didacticiel pour l'étude de la liaison entre variables ordinales est rédigé. La grande nouveauté surtout est que pour chaque groupe de méthodes introduites dans TANAGRA, j'essaierais de rédiger le support de cours correspondant. Voir par exemple, les supports sur le diagnostic de la régression ; sur les mesures d'associations entre variables qualitatives, nominales ou ordinales ; sur les tests d'adéquation à la loi normale, etc. sur mon site de supports.
D'autres évolutions ont été introduites :
- Les sorties de la régression logistique ont été complétées avec les indicateurs pseudo-R2 suite à une suggestion de Mme Gauzente-Juguet.
- Un composant transformant une variable continue en variable discrète en énumérant les valeurs constatées a été ajouté (CONT TO DISC - onglet FEATURE CONSTRUCTION).
- Suite à une correction qui m'a été suggérée par Gong Yuarm, le "hint" de description des méthodes ne tremblote plus.
Nouveautés TANAGRA -- 28 mai 2007 -- version 1.4.18
Des composants mesurant l'association entre variables qualitatives nominales ont été ajoutés : Lambda de Goodman et Kruskal, Tau de Goodman et Kruskal, U de Theil (onglet NONPARAMETRIC STATISTICS).
Un didacticiel pour l'étude de la liaison entre variables nominales est rédigé. On en profite pour mettre en avant le composant construisant le tableau de contigence et réalisant le test d'indépendance du KHI-2 (CONTINGENCY CHI-SQUARE).
Nouveautés TANAGRA -- 08 mai 2007 -- version 1.4.17
Quelques nouveaux outils pour la régression :
Sélection de variables BARCKWARD (BACKWARD ELIMINATION REG)
Deux nouveaux composants (OUTLIER DETECTION et DFBETAS) pour la détection des observations aberrantes et influentes. Les indicateurs usuels sont proposés (leverage, DFFITS, COVRATIO, Distance de Cook, DFBETAS). Un didacticiel indique le mode d'utilisation de ces composants.
Nouveautés TANAGRA -- 01 mars 2007 -- version 1.4.16
Des composants de classification de variables ont été ajoutées. Elles reposent toutes sur le principe de la classification de variables autour de composantes latentes (Vigneau et Qannari, 2003). Trois variantes ont été implémentées : VARKMEANS (méthode de ré-allocation), VARHCA (méthode ascendante hiérarchique), et VARCLUS (méthode descendante ou divisive). Cette dernière est une variante simplifiée de la procédure que l' on retrouve dans certains logiciels.
Un tutoriel détaillant le fonctionnement de ces composants est disponible.
Nouveautés TANAGRA -- 11 février 2007 -- version 1.4.15
Toujours en analyse de données, l'AFC est maintenant disponible dans TANAGRA sous l'appelation anglo-saxonne CORRESPONDENCE ANALYSIS.
Cette fois-ci le tutoriel (AFC) a été calé sur un autre excellent livre, celui de Lebart, Morineau et Piron, "Statistique Exploratoire Multidimensionnelle", Dunod, 2000.
La méthode est décrite dans la section 1.3 (pages 67 à 107). L'exemple est celui du tableau 1.3-10, avec les résultats détaillés pages 104 à 107.
Nouveautés TANAGRA -- 07 février 2007 -- version 1.4.14
En discutant avec des collègues, je me suis rendu compte que TANAGRA ne proposait pas les sorties standards des méthodes d'analyse factorielle -- Analyse en Composantes Principales (ACP, en anglais PCA) et Analyse des Correspondances Multiples (ACM, en anglais MCA).
Dans la version de TANAGRA, je me suis donc attaché à compléter les sorties de ces deux composants en m'alignant sur les descriptions trouvées dans deux ouvrages qui font référence dans le domaine : celui de G. Saporta pour l'ACP (« Probabilités, Analyse de Données et Statistique », Dunod, 2006, pages 177 à 181) ; et celui de M. Tenenhaus pour l'ACM (« Méthodes Statistiques en Gestion », Dunod, 1996, pages 212 à 222).
La mise en oeuvre de ces méthodes et, surtout, la lecture des résultats sont décrits dans deux didacticiels disponibles dans la section DIDACTICIELS du site, section STATISTIQUE EXPLORATOIRE (ACP, ACM). Les fichiers ont été saisis à partir des tableaux de données fournis dans les ouvrages.
Nouveautés TANAGRA -- 27 janvier 2007 -- version 1.4.13
La recherche des variables pertinentes est une activité clé de la fouille de données. La version 1.4.13 de TANAGRA inclut un nouveau composant -- STEPDISC (pour Stepwise Discriminant Analysis) -- destiné à la sélection de variables dans l'analyse supervisée. Il sera le plus souvent associé à l'analyse discriminante linéaire, mais son champ d'application est plus vaste (cf. tutoriel STEPDISC).
Nouveautés TANAGRA -- 22 décembre 2006 -- version 1.4.12
Une macro complémentaire permettant de faire le pont entre le tableur gratuit OPEN OFFICE CALC et TANAGRA a été mise au point. Attention, pour que le tout fonctionne correctement, il faut disposer de la version 1.4.12 de TANAGRA et 2.1.0 de Open Office (voir didacticiel).
De plus en plus, nous essayerons, lorsque cela est nécessaire, de doubler les didacticiels avec des démonstrations animées (voir par ex. la construction d'un arbre de décision à partir de données en provenance de OOoCalc).
Il est possible maintenant d'effectuer une recherche par mots-clés sur l'ensemble des didacticiels (voir la démonstration).
Nouveautés TANAGRA -- 22 novembre 2006 -- version 1.4.11
A l'aide de la macro complémentaire TANAGRA.XLA, il est maintenant possible de lancer TANAGRA à partir d'une session de travail sous le tableur EXCEL. Les données sélectionnées par l'utilisateur sont automatiquement préparées et transmises à TANAGRA (voir didacticiel).
Cette approche est une alternative aux technologies (XLMINER et XLSTAT par exemple) où les techniques statistiques apparaissent comme des menus supplémentaires d'EXCEL, et où les rapports sont édités dans les feuilles de calcul du classeur.
Nouveautés TANAGRA -- 31 octobre 2006 -- version 1.4.10
Une description détaillée est maintenant disponible lorsque nous déplaçons la souris sur chaque composant. La méthode statistique sous-jacente est brièvement décrite, le principal objectif est de bien préciser les conditions d'utilisation du composant.
Un composant de calcul des intervalles de confiance des coefficients de la Régression PLS par la méthode Bootstrap a été ajouté. Ce composant a été suggéré par Rainer Block.
Nouveautés TANAGRA -- 01 septembre 2006 -- version 1.4.9
Plusieurs composants ont été ajoutés :
- Random Forest. Une association entre le BAGGING et une méthode particulière de construction des arbres (cf. didacticiel).
- Rotation VARIMAX, QUARTIMAX des axes factoriels produits par l'ACP (cf. didacticiel).
- Modèle de mélanges gaussiens pour la classification automatique. L'algorithme EM et la sélection automoatique du nombre de clusters. Plusieurs critères sont disponibles (cf. didacticiel).
- Sélection automatique du nombre de facteurs dans la régression PLS (cf. didacticiel).
Par ailleurs, Rainer Block m'a signalé quelques bugs et a émis quelques suggestions. J'ai eu le temps de mettre en oeuvre certaines. Merci beaucoup Rainer pour vos remarques très constructives.
Nouveautés TANAGRA -- 03 juillet 2006 -- version 1.4.8
Il est maintenant possible de sauver/charger des parties du diagramme. L'objectif est de pouvoir appliquer des traitements similaires sur différents fichiers de données (cf. didacticiel).
Le dendrogramme pour la CAH et le cercle de corrélation pour l'ACP sont dorénavant mieux mis en valeur (cf. didacticiel).
Luc Sorel m'a envoyé le message suivant, il concerne l'utilisation de TANAGRA sous Linux, je le remercie encore une fois pour ces précieuses indications : "Après m'y être mal pris une 1e fois, j'ai trouvé comment installer et utiliser Tanagra sous Linux (distribution Kubuntu 5.10, basée sur Debian). Je me suis dit que ce genre d'information (si vous la publiez sur votre site) pourrait encourager l'utilisation de Tanagra sous Linux :
- la mauvaise manière : ayant un double démarrage Windows-Linux sur ma machine, j'ai d'abord installé Tanagra sous Windows. Après avoir redémarré sous Kubuntu, je voulais lancer Tanagra.exe avec Wine mais ça ne fonctionnait pas, vraisemblablement parce que Wine ne savait alors pas où chercher les bibliothèques nécessaires
- la bonne manière : lancer le Setup.exe avec Wine directement sous Kubuntu dans un 1er temps, lancer Tanagra.exe avec Wine dans un 2e temps et là ça marche du tonnerre !
Nouveautés TANAGRA -- 18 mai 2006 -- version 1.4.7
Il est maintenant possible de copier/coller un composant ou une partie du diagramme. Les paramètres des composants sont également dupliqués, des traitements rigoureusement identiques peuvent être exécutés sur différents ensembles de variables (voir le didacticiel).
Un composant arbre de régression a été ajouté, il est très proche de la méthode CART (Breiman et al., 1984).
Nouveautés TANAGRA -- 03 mai 2006 -- version 1.4.6
Un nouveau composant CLUSTERING TREES a été ajouté. Il permet de créer une typologie décrite directement par un arbre de décision. Le nombre de classes peut être détecté automatiquement en utilisant un mécanisme de post-élagage analogue à celui des arbres de décision. Nos principales références ont été les travaux de Chavent (1998) et Blockeel (1998). Un didacticiel a été mis en ligne (section Statistique Exploratoire).
La régression PLS a été adaptée à la discrimination (C-PLS). Nous avons la possibilité de contrôler la variance de la méthode (son aptitude à "coller" aux données) en fixant de manière appropriée le nombre d'axes à retenir. Ses performances sont proches des SVM linéaires dans des espaces à très grandes dimensions (plusieurs milliers de variables pour une centaine d'observations).
La régression logistique binaire (Binary Logistic Regression) a été améliorée. Le vecteur gradient et la matrice hessienne est maintenant calculée directement et non pas approximée comme auparavant (cf. Nakache et Confais, 2005). La procédure est mieux sécurisée et le temps de calcul largement amélioré.
Nouveautés TANAGRA -- 12 février 2006 -- version 1.4.4
Un nouveau composant GROUP EXPLORATION permet d'explorer manuellement des sous-groupes d'individus. Ce composant généralise le composant GROUP CHARACTERIZATION. Un petit tutoriel permet de mieux situer les fonctionnalités de l'outil.
Nouveautés TANAGRA -- 31 janvier 2006 -- version 1.4.3
Une méthode "supervisée" des règles d'association a été ajoutée. Il s'agit tout simplement de la méthode A PRIORI dans laquelle nous pouvons spécifier l'item que vous voulons voir dans le conséquent.
Autre avancée importante dans la structure de TANAGRA, la possibilité de lancer un programme externe a été ajoutée. Pour tester cette technologie, nous avons décidé d'intégrer le programme de génération de règles d'association de Christian Borgelt, particulièrement performant, tant en rapidité qu'en occupation mémoire. Les résultats sont bluffants, la création et le chargement des fichiers temporaires sont transparents et ne dégradent pas trop le temps total de traitement, même sur de très gros fichiers (près de 90 Mo).
Nouveautés TANAGRA -- 9 janvier 2006 -- version 1.4.2
L'algorithme C4.5 de Quinlan a été ajouté. Cette méthode d'induction d'arbres de décision se démarque surtout par (1) l'utilisation du "gain ratio" lors de l'évaluation des segmentations ; (2) le post-élagage avec l'estimation pessimiste des erreurs.
Plus important par rapport à la structure de TANAGRA, la méthode C-SVC issue de la bibliothèque LIBSVM a été ajoutée. Elle instancie des SVM en apprentissage supervisé. Contrairement aux autres algorithmes, le code n'a pas été porté dans TANAGRA. Le code source originel en C a été compilé sous forme de DLL, dynamiquement chargée au démarrage du logiciel. Le principal intérêt est la facilité de mise à jour lorsque les auteurs de la bibliothèque produisent une nouvelle version. Nous avons intégré la version 2.8 de LIBSVM.
Nouveautés TANAGRA -- 24 oct 2005 -- version 1.4.1
Un composant Régression PLS (Partial Least Square) a été ajouté. La principale référence utilisée a été l'ouvrage de M. Tenenhaus "La régréssion PLS -- Théorie et Pratique", ed. Technip, 1998 (Chap.7 à 10).
Ce composant a été implémenté par M. Jean-François Grange (Master IDS - Université Lumière Lyon 2).
Nouveautés TANAGRA -- 15 août 2005 -- version 1.3.4 & 1.3.5
Plusieurs composants ont été ajoutés.
Méthode | Description et Références |
Forward Selection for Regression | Ce composant réalise une sélection automatique de variables dans une régression linéaire multiple. Elle introduit les variables unes à unes en s'appuyant sur le calcul des corrélations partielles. |
Friedman & Kendall K-related Samples Tests | Analyse de variance non-paramétrique à un facteur pour échantillons appariés ; il permet par exemple d'évaluer les effets de différents traitements appliqués successivement sur les mêmes individus. |
Kendall's Concordance W | Test non-paramétrique pour évaluer la concordance de classements proposés par plusieurs juges ; plus généralement, il permet de juger de la cohérence de notes attribués sur différents critères à un ensemble d'individus. |
MANOVA | Analyse de variance mutilvariée, il s'agit d'une généralisation d'une analyse de variance à un facteur avec plusieurs variables dépendantes. |
Canonical Discriminant Analysis | Analyse discriminante descriptive, elle produit des (K - 1) axes factoriels qui permettent de discerner au mieux K groupes d'individus définis par la variable TARGET et décrits par plusieurs variables continues INPUT. |
Nouveautés TANAGRA -- 31 juillet 2005 -- version 1.3.3
Un composant "Test d'adéquation à la loi normale" NORMALITY TEST a été introduit, il cherche à vérifier que la distribution empirique d'un échantillon est compatible avec les caractéristiques de la loi de répartition de Laplace-Gauss.
Plusieurs méthodes ont été implémentées et regroupés dans le composant, les calculs ne sont pas possibles si la taille de l'échantillon est inférieure à 4 observations.
Méthode | Description et Références |
Test de Shapiro Wilk |
Ce test est le plus populaire pour évaluer la compatibilité d'un échantillon avec une distribution normale. Nos
principales références ont été les articles de Patrick Royston (1) "An Extension of Shapiro and Wilk's W Test for
Normality to Large Samples". Applied Statistics, 31, 115--124, 1982 ; (2) A Remark on Algorithm AS 181: The W Test for Normality.
Applied Statistics, 44, 547--551, 1995. Plus de détails sur ce test est disponible sur la référence suivante NIST. Notre implémentation est une reproduction en DELPHI du code source FORTRAN disponible sur le site STATLIB (R94). NB : Le code n'est opérationnel que si la taille de l'échantillon est inférieure ou égale à 5000 observations. |
Test de Kolmogorov-Smirnov & Lilliefors |
Ce test s'appuie sur la statistique de Kolmogorov-Smironov.
Le test de Kolmogorov-Smirnov est applicable à tout type de distribution, nous l'appliquons spécifiquement à la distribution normale dans ce composant ; les paramètres (moyenne ; écart-type) sont estimés sur l'échantillon. Nous utilisons la tabulation proposée par Lilliefors (1967), dont voici un exemplaire . |
Test d'Anderson-Darling |
Ce test est une variante du test de Kolmogoriv-Smirnov, il donne plus d'importance aux queues de distributions.
Ce test peut s'appliquer à différents types de distribution, nous l'appliquons à la loi de Laplace-Gauss dans ce composant, nous utilisons donc les valeurs critiques tabulées spécifiquement pour la loi normale. |
Test de D'Agostino |
Ce test s'appuie sur une statistique calculée à partir des coefficients SKEWNESS (asymétrie) et KURTOSIS (applatissement) empiriques de
l'échantillon.
Ce test est peu implémenté dans les logiciels commerciaux, la principale référence est D'Agostino, "Test for Normal Distribution", in R. B. D'Agostino and M. A. Stephens, editors. Goodness-of-Fit Techniques. Marcel Dekker, Inc., 1986. Notre implémentation s'appuie sur le descriptif proposé sur ce site. |
Nouveautés TANAGRA -- 25 juillet 2005 -- version 1.3.2
Une collection de tests statistiques ont été ajoutés.
L'implémentation repose en grande partie sur la référence en ligne : NIST/SEMATECH e-Handbook of Statistical Methods -- NIST
Composant | Comparaison de moyennes |
T-Test | Comparaison de moyennes de 2 populations, les variances sont supposées égales dans les groupes. |
T-Test Unequal Variance | Comparaison de moyennes de 2 populations, les variances sont supposées inégales dans les groupes. |
Composant | Comparaison de variances |
Fisher's Test | Comparaison de variances de 2 populations, la normalité des données doit être vérifiée. |
Bartlett's Test | Comparaison de variances de K populations, la normalité des données doit être vérifiée. |
Levene's Test | Comparaison de variances de K populations, ce test est autrement plus robuste que le test précédent. |
Brown & Forsythe's Test | Comparaison de variances de K populations, ce test est une variante du test de Levene. |
Nouveautés TANAGRA -- 18 juillet 2005 -- version 1.3.1
Une nouvelle famille de composants a été ajoutée : les tests non-paramétriques.
L'implémentation repose en grande partie sur l'ouvrage de Siegel & Castellan, "Nonparametric Statistics for the Behavioral Sciences", McGraw-Hill, 1988
Composant | Description |
Kendall's Tau | Un coefficient de corrélation fondé sur les concordances et les discordances |
Spearman's Rho | Un coefficient de corrélation fondé sur les rangs |
Wald & Wolfowitz Runs Test | Comparaison de 2 populations fondée sur les séquences |
Mood Runs Test | Une généralisation à K populations du test de Wald & Wolfowitz |
Mann & Whitney | Comparaison de 2 populations fondée sur les rangs |
Kruskal & Wallis | Une généralisation du test de Mann & Whitney à K populations |
Sign Test | Comparaison de 2 populations pour les échantillons appariés |
Wilcoxon Signed Ranks Test | Comparaison de 2 populations pour les échantillons appariés |
Nouveautés TANAGRA -- 28 avril 2005 -- version 1.2.1
Un véritable saut qualitatif, une nouvelle famille de composants est introduite : les composants de SCORING
Ces composants ont pour point commun d'exploiter la probabilité a posteriori d'affectation des méthodes supervisées.
Trois nouveaux composants sont ajoutés :
- Scoring : récupérer la probabilité d'affectation pour une valeur de la variable à prédire.
- Lift : construire la courbe LIFT pour évaluer la qualité d'un ciblage.
- Roc : construire la courbe ROC pour comparer globalement deux ou plusieurs méthodes et déterminer empiriquement le seuil optimal d'affectation pour un problème donné.
Nouveautés TANAGRA -- 22 avril 2005 -- version 1.1.7
Deux nouvelles méthodes d'apprentissage supervisé ont été introduites :
- Régression Logistique Polytomique, plusieurs méthodes d'optimisations sont proposése, elles sont plus ou moins rapides, ils faut les tester alternativement, la minimisation de la vraisemblance peut ne pas être effective sur certains cas.
- Listes de Décision, inspiré par l'algorithme CN2 (Clark & Niblett, 1989). Un didacticiel a été mis en ligne.
Nouveautés TANAGRA -- 17 avril 2005 -- version 1.1.6
Les machines à vecteurs de support (SVM -- Support Vector Machine) sont disponibles dans les méthodes supervisées. L'attribut classe doit être bianire, tous les descripteurs doivent être continus. Un didacticiel a été mis en ligne.
Cette implémentation est un portage du code en JAVA de WEKA (SMO.JAVA), la similarité des structures de données ont permis de le réaliser assez rapidement.
Les résultats peuvent très légèrement différer dans certains cas, cela est dû au fait qu'un mélange aléatoire des observations est réalisé avant l'apprentissage : les générateurs de nombre aléatoire de JAVA et de DELPHI n'étant pas les mêmes, la séquence des calculs n'est pas non plus la même, avec le seuil de tolérance choisi, l'optimum retenu peut être très légèrement différent. Lorsque le mélange aléatoire est désactivé dans le code source, les résultats obtenus sont complètement identiques (ouf !).
Nouveautés TANAGRA -- 08 avril 2005 -- version 1.1.5
NIPALS ou une autre manière de calculer les axes factoriels de l'ACP, partiuclièrement efficace lorsque la dimension est très élevée.Nouveautés TANAGRA -- 18 février 2005 -- version 1.1.4
2 nouvelles procédures d'évaluation de l'apprentissage supervisé ont été ajoutés (Spv Learning Assessment):- 0.632 Bootstrap (Efron B. (1983) "Estimating the error rate of a prediction rule: improvement on cross-validation.", JASA, 78, p316-31) et 0.632+ Bootstrap (B Efron & R. Tibshirani. (1997) "Improvements on cross-validation: The 0.632+ bootstrap method.", JASA, 92(438), p548-560).
- Décomposition biais variance de l'erreur (R. Kohavi & D. Wolpert (1996), "Bias plus variance decomposition for zero-one loss functions ", in Proc. of the Thirteenth International Machine Learning Conference (ICML96)).
Nouveautés TANAGRA -- 29 décembre 2004 -- version 1.1.2
TANAGRA peut directement importer des fichiers au format WEKA (.arff) et EXCEL (.xls, version 97 & 2000). La présence de ces logiciels n'est pas requise.Le temps d'exécution des importations a été considérablement amélioré.
Attention, les options d'importations sont limitées pour les fichiers WEKA (.arff). Si vous souhaitez bénéficier d'une approche plus sophistiquée, notamment pour le traitement des données manquantes, utilisez le logiciel DATANAMORF.
Nouveautés TANAGRA -- 19 décembre 2004 -- version 1.1.1
De nouveaux composants ont été ajoutés.
Composant | Section | Description |
Fisher Filtering | Feature selection | Utilise un test univarié ANOVA pour évaluer le pouvoir discriminant d'un descripteur continu (Apprentissage supervisé) |
Runs Filtering | Feature selection | Utilise un test non-paramétrique (Test des séquences de Mood, 1940) pour évaluer le pouvoir discriminant d'un descripteur continu (Apprentissage supervisé) |
C-RT | Supervised learning | Construction d'un arbre de décision avec la méthode décrite dans le célèbre ouvrage de Breiman et al. (1984) |
Select examples | Instance selection | Sélection des individus actifs en utilisant les valeurs d'une variable discrète. Utilisé à bon escient, ce composant rend possible le déploiement, càd l'application des modèles de prédiction sur un fichier à part. |
Nouveautés TANAGRA -- 15 octobre 2004 -- version 1.1
A - Intégration d'un nouveau mode de fonctionnement
Traitement batch : il est possible de passer un diagramme de traitements par la ligne de commande, l'exécution du diagramme est réalisé puis TANAGRA est automatiquement refermé. Cette option se révèle surtout intéressante lorsqu' elle est couplée avec la nouvelle fonctionnalité de sauvegarde automatique des résultats : il est possible de réaliser un grand nombre d'expérimentations et de collecter chaque résultat. Le rapport au format HTML est automatiquement généré.
B - Autres nouveautés
Optimisation du temps de traitement lorsque la base contient un grand nombre de variables. Nos tests ont été réalisés sur un problème de discrimination de séquences de protéines, la base contenait seulement une centaine d'observations pour près de 10 000 variables. L'exécution des méthodes de sélection de variables a été amélioré.
Sélection univariée de prédicteurs continus en apprentissage supervisé. Les variables sont classés selon le F de Fisher.
Les méthodes d'évaluation de l'apprentissage supervisé (Train-Test et Cross-Validation) intègrent un paramètre supplémentaire, il est maintenant possible de sauver dans un fichier les résultats de chaque exécution du composant. NB : les sauvegardes binaires incluant ces composants ne sont plus compatibles avec cette nouvelle version. Si vous souhaitez récupérer un ancien diagramme, il est nécessaire de le sauver en format texte avec l'ancienne version (1.0.x) avant de le charger.
Nouveautés DATANAMORF 1.0 -- 29 juin 2004
DATANAMORF est un logiciel destiné à transformer un ensemble de données du format WEKA (.arff) au format texte (.txt) accepté par TANAGRA. Il intègre plusieurs options pour le traitement des données manquantes.La procédure d'importation est bien entendu représentée sous forme de filière, il est possible de la ré-exécuter automatiquement lorsque les données originelles sont mises à jour.
DATANAMORF a été élaboré par Aurélien BERTRAND, il est accessible gratuitement sur le site DATANAMORF
Nouveautés TANAGRA -- 24 mai 2004 -- version 1.0.2
Ajout de composants de sélection de variables pour l'apprentissage supervisé, toutes les méthodes implémentées sont des "correlation-based". Ce sont des méthodes de filtrage, càd elles agissent avant et indépendamment de la méthode d'apprentissage mise en oeuvre.Modification d'un composant (ID3), aucune modification structurelle.
Composant | Section | Description |
ID3 | Spv Learning | Le test sur la taille limite des feuilles a été modfié, il s'agit d'un supérieur ou égal et non plus d'un supérieur strict. |
CFS Filtering | Feature selection | Hall et al. (1997 - 2000). |
CHI-2 Filtering | Feature selection | Calcul du lien du chi-2 entre chaque descripteur et la variable à prédire. |
FCBF Filtering | Feature selection | Yu et Liu (2003). |
MIFS Filtering | Feature selection | Battiti (1994). |
MODTree Filtering | Feature selection | Lallich et Rakotomalala (1999 - 2002). |
Remove constant | Feature selection | Exclure des descripteurs les attributs composés d'une valeur constante, quel que soit leur type.
Cela peut arriver par exemple si la discrétisation de l'attribut a échoué. |
Nouveautés TANAGRA -- avril 2004 -- version 1.0.1
Ajout de nouveaux composants, aucune modification structurelle.
Composant | Section | Description |
EqFreq Disc | Feature construction | Discrétisation avec des intervalles de fréquences égales, le nombre d'intervalles doit être fixé par l'utilisateur. Les bornes de découpage correspondent aux quantiles, c'est une méthode "tout terrain" qui donne des résultats intéressants tant qu'on ne se met pas dans le cadre du supervisé. |
EqWidth Disc | Feature construction | Discrétisation avec des intervalles de largeur égales, le nombre d'intervalles doit être fixé par l'utilisateur. Une méthode ultra-rapide, il n'est pas nécessaire de trier les données, mais elle n'est pas efficace, surtout lorsque les distributions sont disymétriques. |
MDLPC | Feature construction | Discrétisation supervisée univariée (Fayyad et Irani, IJCAI-1993), c'est "la" méthode de référence, il n'existe pas un article qui parle de discrétisation supervisée qui ne la cite pas. Tout le monde veut se comparer à elle, tout le monde veut la battre, mais elle est toujours là. |
Standardize | Feature construction | Normalisation des données, soit par centrage, soit par centrage réduction, etc. Cela peut être intéressant si on veut ramener toutes les données à la même échelle afin de les rendre comparables par exemple. |
HAC | Clustering | Classification ascendante hiérarchique "mixte", cette dernière caractéristique la rend praticable sur de grandes bases de données. La méthode est décrite dans le livre de Lebart et al. (2000). |