L'ACP permet de synth?tiser l'information contenue dans un tableau de donn?es (n colonnes * p lignes). Elle permet d'identifier une ?ventuelle similarit? entre les individus et de d?terminer la liaison entre les variables.
Les donn?es sont tout d'abord centr?es et r?duites c'est ? dire que chaque variable a une moyenne =0 et un ?cart type = 1.
Lorsque l'on a un tableau contenant n variables, ceci correspond ? n axes (n dimensions) sous lesquels il faut repr?senter les individus. Le principe de l'ACP consiste ? projeter les donn?es dans un espace de dimensions inf?rieures permettant une analyse facile des donn?es. Il faut donc remplacer les n anciens axes par de nouveaux axes. Ces nouveaux axes (Ck) sont appel?s composantes principales et s'expriment comme une combinaison linaire des anciens axes (anciennes variables).
Ck = ak1x1 +ak2x2 .......+ akmxm
- Les coefficients de ces combinaisons lin?aires sont fournis par le logiciel; c'est eux qui d?finissent les
nouveaux axes :
* ils permettent de calculer les nouvelles coordonn?es d'un point-individu ? partir des anciennes
* ils permettent ?galement de voir le poids d'une ancienne variable dans la d?finition d'un facteur. Le rep?rage des variables d'origine correspondant aux coefficients les plus ?lev?s en valeur absolu permet de d?gager une interpr?tation des facteurs.
Le premier axe principal est l'axe suivant lequel on a la plus grande dispersion du nuage de points (le plus grand allongement du nuage de points), permettant de distinguer au mieux les points. On dit en terme statistique, que c'est l'axe qui a la plus grande variance ou pourcentage d'inertie. La variance ou l'inertie d'un axe principal est encore appel?e valeur propre.
Le 2?me axe principal, est la 2e direction d'allongement du nuage. C'est celui qui a la plus grande inertie r?siduelle apr?s la premi?re composante. Ainsi de suite jusqu'? remplacer les n axes anciens par m axes nouveaux.
Le pourcentage d'inertie ou de dispersion repr?sente la quantit? d'information recueillie par un axe principal.
L'analyse ACP es pertinent lorsqu'on arrive avec un petit nombre d'axes ? synth?tiser le maximum de l'information (80% de l'information par exemple). En g?n?ral on poursuit l'analyse si on arrive avec 3 ou 4 axes ? conserver le maximum de l'information.
Le graphique ci-dessous montre qu'avec les 3 premiers axes, on a 64% de l'information.
Les variables sont projet?es dans un cercle de rayon 1 appel? cercle des corr?lations. Lorsqu'une variable est proche du bord du cercle, on dit qu'il est bien repr?sent? par le plan factoriel. Cette variable est alors bien corr?l?e avec les 2 facteurs principaux constituant ce plan.
Le cercle permet de voir la corr?lation ou la liaison entre les variables.
La corr?lation entre 2 points variables est ?gale au cosinus de l'angle entre les 2 variables. Plus cet angle est petit plus la corr?lation est forte.
- Si l'angle = 90? => Cos = 0 => pas de corr?lation
- Si l'angle = 180? => Cos = -1 => Corr?lation inverse forte entre les 2 variables.
Le graphique ci-dessous montre une tr?s forte corr?lation entre les variables Discus et Shot.put
Les coordonn?es des variables sont repr?sent?es par les coefficient de corr?lation des variables avec les diff?rentes composantes.
La qualit? de la repr?sentation d'une variable selon un axe principal est donn? par le carr? de son coefficient de corr?lation avec cet axe et repr?sente le cosinus carr?. COS2 = COR*COR
Pour chaque variable la somme horizontale(lorsque l'on prend toutes les composantes) est ?gale ? 1 (100%).
La qualit? de la repr?sentation d'une variable sur les axes s?lectionn?s est la somme des COS2 des axes.
C'est la part en % du COS2 de la variable.
La qualit? de la repr?sentation d'un individu par un axe U est donn?e par le COS2 de l'angle form? avec cet axe
La qualit? de la repr?sentation d'un point M par un plan factoriel constitu? de 2 axes est mesur?e par la
somme des cos2 avec 2 axes