Analyse discriminante lineaire

Analyse discriminante lineaire: Analyse discriminante linéaire

L’analyse discriminante linéaire fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide de variables prédictives.

Dans l’exemple de l'article Analyse discriminante, le fichier Flea Beetles, l’objectif est de déterminer l’appartenance de puces à telle ou telle espèce à partir de la largeur et de l’angle de son aedeagus.

La variable à prédire est forcément catégorielle (discrète), elle possède 3 modalités dans notre exemple. Les variables prédictives sont a priori toutes continues. Il est néanmoins possible de traiter les variables prédictives discrètes moyennant une préparation adéquate des données.

L’analyse discriminante linéaire peut être comparée aux méthodes supervisées développées en apprentissage automatique et à la régression logistique développée en statistique.

Sommaire

1 Hypothèses et Formules

1.1 La règle bayesienne

1.2 L'analyse discriminante paramétrique - L'hypothèse de multinormalité

1.3 L’analyse discriminante linéaire – L’hypothèse d’homoscédasticité

1.4 Fonction de classement linéaire

1.5 Robustesse

2 Évaluation

2.1 Taux d’erreur

2.2 Séparabilité - Evaluation globale

2.3 Evaluation individuelle des variables prédictives

3 Un exemple

3.1 Lecture des résultats

3.2 Déploiement

4 Références

Hypothèses et Formules

Nous disposons d’un échantillon de $n\,$ observations réparties dans $K\,$ groupes d’effectifs $n_k\,$ .

Notons $Y\,$ la variable à prédire, elle prend ses valeurs dans $\{y_1,...,y_K\}\,$ . Nous disposons de $J\,$ variables prédictives $X = (X_1,...,X_J)\,$ .

Nous notons $\mu_k\,$ les centres de gravité des nuages de points conditionnels, $W_k\,$ leurs matrice de variance-covariance.

La règle bayesienne

L’objectif est de produire une règle d’affectation $F : X \Rightarrow \{y_1,...,y_K\}$ qui permet de prédire, pour une observation $ω$ donnée, sa valeur associée de Y à partir des valeurs prises par X.

La règle bayesienne consiste à produire une estimation de la probabilité a posteriori d’affectation

$P(Y=y_k/X) = \frac{P(Y=y_k) \times P(X/Y=y_k)}{\sum_{k=1}^K P(Y=y_k) \times P(X/Y=y_k)}$

$P(Y=y_k)\,$ est la probabilité a priori d’appartenance à une classe. $P(X/Y=y_k)\,$ représente la fonction de densité des X conditionnellement à la classe $y_k\,$ .

La règle d’affectation pour un individu $ω$ à classer devient alors

$Y(\omega)=y_k^*$ si et seulement si $y_k^* = arg\; max_{k}\ P[Y(\omega)=y_k/X(\omega)]$

Toute la problématique de l’analyse discriminante revient alors à proposer une estimation de la quantité $P(X/Y = y_k)\,$

L'analyse discriminante paramétrique - L'hypothèse de multinormalité

On distingue principalement deux approches pour estimer correctement la distribution $P(X/Y=y_k)\,$ :

L’approche non-paramétrique n’effectue aucune hypothèse sur cette distribution mais propose une procédure d’estimation locale des probabilités, au voisinage de l’observation $\omega\,$ à classer. Les procédures les plus connues sont les noyaux de Parzen et la méthode des plus proches voisins. La principale difficulté est de définir de manière adéquate le voisinage.

La seconde approche effectue une hypothèse sur la distribution des nuages de points conditionnels, on parle dans ce cas d’analyse discriminante paramétrique. L’hypothèse la plus communément utilisée est sans aucun doute l’hypothèse de multinormalité (voir loi normale).

Dans le cas de la loi normale multidimensionnelle, la distribution des nuages de points conditionnels s’écrit

$f_k(x)=\frac{1}{(2\pi)^{j/2} \times |W_k|^{1/2}} \times e^{-\frac{1}{2}(X-\mu_k)'W_k^{-1}(X-\mu_k)}$

où $|W_k|\,$ représente le déterminant de la matrice de variance co-variance conditionnellement à $y_k\,$

L’objectif étant de déterminer le maximum de la probabilité a posteriori d’affectation, nous pouvons négliger tout ce qui ne dépend pas de k. En passant au logarithme, nous obtenons le score discriminant qui est proportionnel à $P(Y=y_k/X)\,$

$D[Y=y_k,X] = 2 \times Ln[P(Y=y_k)] - Ln |W_k| - (X-\mu_k)'W_k^{-1}(X-\mu_k)$

La règle d’affectation devient donc

$Y(w)=y_k*\,$ ssi $y_k^* = arg\, max_k\, D[Y(w) = y_k,X(w)]$

Si l’on développe complètement le score discriminant, nous constatons qu’il s’exprime en fonction du carré et du produit croisé entre les variables prédictives. On parle alors d’analyse discriminante quadratique. Très utilisée en recherche car elle se comporte très bien, en termes de performances, par rapport aux autres méthodes, elle est moins répandue auprès des praticiens. En effet, l’expression du score discriminant étant assez complexe, il est difficile de discerner clairement le sens de la causalité entre les variables prédictives et la classe d’appartenance. Il est notamment mal aisé de distinguer les variables réellement déterminantes dans le classement, l’interprétation des résultats est assez périlleuse.

L’analyse discriminante linéaire – L’hypothèse d’homoscédasticité

Une seconde hypothèse permet de simplifier encore les calculs, c’est l’hypothèse d’homoscédasticité : les matrices de variances co-variances sont identiques d’un groupe à l’autre. Géométriquement, cela veut dire que les nuages de points ont la même forme (et volume) dans l’espace de représentation.

La matrice de variance co-variance estimée est dans ce cas la matrice de variance co-variance intra-classes calculée à l’aide de l’expression suivante

$W = \frac{1}{n-K} \sum_k n_k \times W_k$

De nouveau, nous pouvons évacuer du score discriminant tout ce qui ne dépend plus de k, il devient

$D[Y=y_k,X] = 2 \times Ln[P(Y=y_k)] - (X-\mu_k)'W^{-1}(X-\mu_k)$

Fonction de classement linéaire

En développant l’expression du score discriminant après introduction de l’hypothèse d’homoscédasticité, on constate qu’elle s’exprime linéairement par rapport aux variables prédictives.

Nous disposons donc d’autant de fonctions de classement que de modalités de la variable à prédire, ce sont des combinaisons linéaires de la forme suivante :

$D(y_1,X) = a_0 + a_1 \times X_1 + ... + a_J \times X_J$

$D(y_2,X) = b_0 + b_1 \times X_1 + ... + b_J \times X_J$

$...\,$

Cette présentation est séduisante à plus d’un titre. Il est possible, en étudiant la valeur et le signe des coefficients, de déterminer le sens des causalités dans le classement. De même, il devient possible, comme nous le verrons plus loin, d’évaluer le rôle significatif des variables dans la prédiction.

Robustesse

Les hypothèses de multinormalité et d’homoscédasticité peuvent sembler trop contraignantes, restreignant la portée de l’analyse discriminante linéaire dans la pratique.

La notion clé qu’il faut retenir en statistique est la notion de robustesse. Même si les hypothèses de départ ne sont pas trop respectées, une méthode peut quand même s’appliquer. C’est le cas de l’analyse discriminante linéaire. Le plus important est de le considérer comme un séparateur linéaire. Dans ce cas, si les nuages de points sont séparables linéairement dans l’espace de représentation, elle peut fonctionner correctement.

Par rapport aux autres techniques linéaires telles que la régression logistique, l’analyse discriminante présente des performances comparables. Elle peut être lésée néanmoins lorsque l’hypothèse d’homoscédasticité est très fortement violée.

Évaluation

Taux d’erreur

De manière classique en apprentissage supervisé, pour évaluer les performances d'une fonction de classement, nous confrontons ses prédictions avec les vraies valeurs de la variable à prédire sur un fichier de données. Le tableau croisé qui en résulte s’appelle une matrice de confusion avec : en ligne les vraies classes d’appartenance, en colonne les classes d’appartenance prédites. Le taux d’erreur ou taux de mauvais classement est tout simplement le nombre de mauvais classement, lorsque la prédiction ne coïncide par avec la vraie valeur, rapporté à l’effectif du fichier de données.

Le taux d’erreur a de séduisant qu’il est d’interprétation aisée, il s’agit d’un estimateur de la probabilité de se tromper si l’on applique la fonction de classement dans la population.

Attention cependant, le taux d’erreur mesuré sur les données qui ont servi à construire la fonction de classement, on parle alors de taux d’erreur en resubstitution, est biaisé. Tout simplement parce que les données sont juges et parties dans ce schéma. La bonne procédure serait de construire la fonction de classement sur une fraction des données, dites d'apprentissage ; puis de l’évaluer sur une autre fraction de données, dite de test. Le taux d’erreur en test ainsi mesuré est un indicateur digne de foi.

La pratique veut que la répartition des données en apprentissage et test soit de 2/3 – 1/3. Mais en réalité, il n’y a pas de règle véritable. Le plus important est de concilier deux exigences contradictoires : en avoir suffisamment en test pour obtenir une estimation stable de l’erreur, tout en réservant suffisamment en apprentissage pour ne pas pénaliser la méthode d’apprentissage.

Lorsque les effectifs sont faibles, et que le partage apprentissage-test des données n’est pas possible, il existe des méthodes de ré-échantillonnage telles que la validation croisée ou le bootstrap pour évaluer l’erreur de classement.

Séparabilité - Evaluation globale

Le taux d’erreur permet d’évaluer et de comparer des méthodes, quelles que soient leurs hypothèses sous-jacentes. Dans le cas de l’analyse discriminante linéaire, nous pouvons exploiter le modèle probabiliste pour réaliser des tests d’hypothèses.

Un premier test permet de répondre à la question suivante : est-il possible de discerner les nuages de points dans l’espace de représentation. Rapporté dans le cadre multinormal, cela revient à vérifier si les centres de gravité conditionnels sont confondus (hypothèse nulle) ou si un au moins de ces centres de gravité s’écarte significativement des autres (hypothèse alternative).

La statistique du test est le $\lambda\,$ de Wilks, son expression est la suivante

$\lambda = \frac{|W|}{|V|}\,$

où $|W|\,$ représente le déterminant de la matrice de variance co-variance intra-classes, $|V|\,$ le déterminant de la matrice de variance co-variance globale.

La table des valeurs critiques de la loi de Wilks étant rarement disponible dans les logiciels, on utilise couramment les transformations de Bartlett et de Rao qui suivent respectivement une loi du KHI-2 et de Fisher.

Avec un prisme différent, nous constatons que ce test peut s’exprimer comme une généralisation multidimensionnelle de l’analyse de variance à un facteur (ANOVA), on parle dans ce cas de MANOVA (Multidimensional Analysis of Variance).

Evaluation individuelle des variables prédictives

Comme dans toutes les méthodes linéaires, il est possible d’évaluer individuellement chaque variable prédictive, et éventuellement d’éliminer celles qui ne sont pas significatives dans la discrimination.

La statistique du test s’appuie sur la variation du Lambda de Wilks lors de l'adjonction de la (J+1)-ième variable dans le modèle de prédiction. Sa formule est la suivante

$F = \frac{n-K-J}{K-1} \times (\frac{\lambda_J}{\lambda_{J+1}}-1)\,$

Elle suit une loi de Fisher à $(K-1, n-K-J)\,$ degrés de liberté.

Un exemple

Lecture des résultats

Une analyse discriminante linéaire a été lancée sur les Flea Beetles décrites dans l'article analyse discriminante. Les résultats sont les suivants.

La matrice de confusion indique qu'une seule erreur a été commise, un "Concinna" a été classé en "Heikertingeri". Le taux d'erreur associé est de $1.35\%\,$ . Ce résultat est à relativiser, il a été établi sur les données ayant servi à l'apprentissage.

Les centres de gravité des trois nuages de points s'écartent significativement. C'est ce que nous indique la statistique de Wilks dans la section MANOVA. Les probabilités critiques associées, transformation de Bartlett et de Rao, sont proches de 0. Ce résultat numérique confirme l'impression visuelle laissée par la projection des nuages de points dans l'espace de représentation (voir Analyse discriminante).

La variable à prédire comportant 3 modalités, nous obtenons 3 fonctions de classement linéaires. L'évaluation individuelle des variables dans la discrimination indique qu'elles sont toutes les deux très significatives (p-value proches de 0).

Déploiement

Pour classer une nouvelle observation avec les coordonnées (Width = 150 et Angle = 15), nous appliquons les fonctions de la manière suivante.

Con : $6.778171 \times 150 + 17.636347 \times 15 - 621.005831 = 660.265024\,$

Hei : $5.83441 \times 150 + 17.307979 \times 15 - 488.153893 = 646.627292\,$

Hep : $6.332343 \times 150 + 13.442467 \times 15 - 506.831534 = 644.656921\,$

Sur la base de ces calculs, nous affectons à cette observation la classe "Concinna".

Références

M. Bardos, Analyse Discriminante - Application au risque et scoring financier, Dunod, 2001.

G. Celeux, J.P. Nakache, Analyse discriminante sur variables qualitatives, Polytechnica, 1994.

Portail des probabilités et des statistiques

Portail de l’informatique

Ce document provient de « Analyse discriminante lin%C3%A9aire ».

Catégories : Analyse des données | Algorithme de classification

Contenu soumis à la licence CC-BY-SA. Source : Article Analyse discriminante lineaire de Wikipédia en français (auteurs)

Игры ⚽ Нужен реферат?

Regardez d'autres dictionnaires:

Analyse Discriminante Linéaire — L’analyse discriminante linéaire fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide… … Wikipédia en Français
Analyse discriminante linéaire — L’analyse discriminante linéaire fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide… … Wikipédia en Français
Analyse Discriminante — L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...) d’un ensemble… … Wikipédia en Français
Analyse discriminante descriptive — Analyse discriminante L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...)… … Wikipédia en Français
Analyse discriminante — L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, …) d’un ensemble… … Wikipédia en Français
Analyse factorielle discriminante — Analyse discriminante L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...)… … Wikipédia en Français
Analyse des données — L’analyse des données est un domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique … Wikipédia en Français
Analyse canonique des corrélations — L Analyse canonique des corrélations[i 1] permet de comparer deux groupes de variables quantitatives appliqués tous deux sur les mêmes individus. Le but de l analyse canonique est de comparer ces deux groupes de variables pour savoir si ils… … Wikipédia en Français
Analyse canonique généralisée — L Analyse canonique généralisée au sens de Caroll (d après J.D.Caroll) étend l Analyse canonique ordinaire à l étude de p Groupes de variables (p > 2) appliquées sur le même espace des individus. Elle admet comme cas particuliers l ACP, l AFC… … Wikipédia en Français
Classifieur linéaire — En apprentissage automatique, le terme de classifieur linéaire représente une famille d algorithmes de classement statistique. Le rôle d un classifieur est de classer dans des groupes (des classes) les échantillons qui ont des propriétés… … Wikipédia en Français

Mark and share
Search through all dictionaries
Translate…
Search Internet

Share the article and excerpts