Introduction à l'analyse en composante principale

Principe de l'ACP




L'ACP permet de synth?tiser l'information contenue dans un tableau de donn?es (n colonnes * p lignes). Elle permet d'identifier une ?ventuelle similarit? entre les individus et de d?terminer la liaison entre les variables.

Les donn?es sont tout d'abord centr?es et r?duites c'est ? dire que chaque variable a une moyenne =0 et un ?cart type = 1.


Notion de composante principale et de valeurs propres (= pourcentage d'inertie)



Lorsque l'on a un tableau contenant n variables, ceci correspond ? n axes (n dimensions) sous lesquels il faut repr?senter les individus. Le principe de l'ACP consiste ? projeter les donn?es dans un espace de dimensions inf?rieures permettant une analyse facile des donn?es. Il faut donc remplacer les n anciens axes par de nouveaux axes. Ces nouveaux axes (Ck) sont appel?s composantes principales et s'expriment comme une combinaison linaire des anciens axes (anciennes variables).

Ck = ak1x1 +ak2x2 .......+ akmxm

- Les coefficients de ces combinaisons lin?aires sont fournis par le logiciel; c'est eux qui d?finissent les
nouveaux axes :

* ils permettent de calculer les nouvelles coordonn?es d'un point-individu ? partir des anciennes
* ils permettent ?galement de voir le poids d'une ancienne variable dans la d?finition d'un facteur. Le rep?rage des variables d'origine correspondant aux coefficients les plus ?lev?s en valeur absolu permet de d?gager une interpr?tation des facteurs.


Choix des composantes principales



Le premier axe principal est l'axe suivant lequel on a la plus grande dispersion du nuage de points (le plus grand allongement du nuage de points), permettant de distinguer au mieux les points. On dit en terme statistique, que c'est l'axe qui a la plus grande variance ou pourcentage d'inertie. La variance ou l'inertie d'un axe principal est encore appel?e valeur propre.

Le 2?me axe principal, est la 2e direction d'allongement du nuage. C'est celui qui a la plus grande inertie r?siduelle apr?s la premi?re composante. Ainsi de suite jusqu'? remplacer les n axes anciens par m axes nouveaux.

Pourcentage d'inertie : valeurs propres ou variances associ?es aux axes



Le pourcentage d'inertie ou de dispersion repr?sente la quantit? d'information recueillie par un axe principal.

L'analyse ACP es pertinent lorsqu'on arrive avec un petit nombre d'axes ? synth?tiser le maximum de l'information (80% de l'information par exemple). En g?n?ral on poursuit l'analyse si on arrive avec 3 ou 4 axes ? conserver le maximum de l'information.

Le graphique ci-dessous montre qu'avec les 3 premiers axes, on a 64% de l'information.




Plan des variables




Le cercle de corr?lation



Les variables sont projet?es dans un cercle de rayon 1 appel? cercle des corr?lations. Lorsqu'une variable est proche du bord du cercle, on dit qu'il est bien repr?sent? par le plan factoriel. Cette variable est alors bien corr?l?e avec les 2 facteurs principaux constituant ce plan.

Le cercle permet de voir la corr?lation ou la liaison entre les variables.

La corr?lation entre 2 points variables est ?gale au cosinus de l'angle entre les 2 variables. Plus cet angle est petit plus la corr?lation est forte.

- Si l'angle = 90? => Cos = 0 => pas de corr?lation
- Si l'angle = 180? => Cos = -1 => Corr?lation inverse forte entre les 2 variables.

Le graphique ci-dessous montre une tr?s forte corr?lation entre les variables Discus et Shot.put





qualit? de la repr?sentation d'une variable selon un axe principal



Les coordonn?es des variables sont repr?sent?es par les coefficient de corr?lation des variables avec les diff?rentes composantes.

La qualit? de la repr?sentation d'une variable selon un axe principal est donn? par le carr? de son coefficient de corr?lation avec cet axe et repr?sente le cosinus carr?. COS2 = COR*COR

Pour chaque variable la somme horizontale(lorsque l'on prend toutes les composantes) est ?gale ? 1 (100%).
La qualit? de la repr?sentation d'une variable sur les axes s?lectionn?s est la somme des COS2 des axes.

Poids d'une variable dans la d?finition d'une composante principale



C'est la part en % du COS2 de la variable.


Plan des individus



Repr?sentation des individus sur les 2 premiers axes






Repr?sentation simultan?e des individus et des variables






Qualit? de la repr?sentation des individus en % selon les composantes principales



La qualit? de la repr?sentation d'un individu par un axe U est donn?e par le COS2 de l'angle form? avec cet axe

La qualit? de la repr?sentation d'un point M par un plan factoriel constitu? de 2 axes est mesur?e par la
somme des cos2 avec 2 axes