Analyse en composante principale avec R et RQuery

Faire une analyse en composante principale peut s’av?rer parfois une tache tr?s fastidieuse. Les logiciels sont en g?n?ral tr?s chers et pas tr?s clairs. Les logiciels gratuits, notamment R, n?cessitent une maitrise de la programmation sous l'environnement statistique R.

Le but de ce tutorat est de vous apprendre ? faire par vous m?me une analyse en composante principale sous R, en partant de ZERO CONNAISSANCE en programmation R.

Gr?ce ? RQuery, vous allez ?tre des pro de l'ACP en 2 minutes!!


Introduction ? l'analyse en composante principale




Cliquez sur le lien suivant : Introduction ? l'analyse en composante principale

PCA en une seule ligne de commande



Si vous avez toujours r?v? de pouvoir faire une analyse en composante principale (ACP) avec R, RQuery vous simplifie compl?tement la vie.

RQuery vous r?sume l'ACP en une seule ligne de commande dans R. Il s'agit de la fonction rquery.pca()
Taper simplement le code suivant dans R puis valider par la touche entr?e.

Code R :
res.pca = rquery.pca()


R vous demandera d'indiquer le fichier contenant les donn?es. T?l?charger un exemple de fichier en cliquant ici

Enregistrer le fichier au format .txt tabulation.

Pour en savoir plus sur le format de fichier accept? suivre le lien suivant : Importation et exportation des donn?es avec RQuery-1.0


R?sultats


Un dossier "Result/ACPResult" est cr?? contenant les fichiers r?sultats.

Les images suivantes sont automatiquement g?n?r?es par la fonction rquery.pca()

Les valeurs propres




cliquez pour agrandir


Graphique des individus




cliquez pour agrandir


Graphique des variables




cliquez pour agrandir


Repr?sentation simultan?e des individus et des variables




cliquez pour agrandir


Fichier r?sultat (acp.txt)



La fonction rquery.pca() g?n?re ?galement un fichier .txt contenant l'ensemble des donn?es ayant servi ? faire les graphiques.

Ce fichier txt vous permettra de refaire tous les graphes sur excel ? votre convenance. Le graphique ci-dessous montre un exemple du plan des individus retravaill? sur excel.


cliquez pour agrandir


T?l?charger un exemple du fichier g?n?r? en cliquant sur le lien suivant: pca_result3614.txt

Le fichier contient:

eig: correspondant aux valeurs propres, le % de variance et le % de variance cumul?e
var: Contient les r?sultats pour les variables actives (coordonn?es, corr?lation entre les variables et les axes, COS2, contributions);
ind : Contient les r?sultats pour les individus actifs (coordonn?es COS2, contributions);
ind.sup : Contient les r?sultats pour les individus suppl?mentaires (coordonn?es COS2);
quanti.sup : R?sultats pour les variables suppl?mentaires quantitatives (coordonn?es, corr?lation entre les variables et les axes).
quali.sup : R?sultats pour les variables qualitatives suppl?mentaires (coordonn?es, des cat?gories de chacun des variables ).


Un autre fichier contenant la description des diff?rents axes (acp_dimdesc.txt) est ?galement g?n?r? et ouvert automatiquement.

T?l?charger un exemple en cliquant sur le lien suivant: acp_dimdesc.txt
Ce fichier permet de voir les variables quantitatives et qualitatives les plus li?es aux axes.



G?n?rer un fichier PDF contenant les graphiques



Au lieu d'afficher les graphiques, le code ci-dessous les enregistre tous dans un fichier pdf.

Code R :
res.pca=rquery.pca(save.pdf=TRUE)


Le fichier PDF est automatiquement ouverte ? la fin de l'ex?cution de la commande.


Cliquer ici pour voir un exemple de fichier pdf g?n?r?.


Cas des individus et variables suppl?mentaires




Les individus suppl?mentaires



Ce sont des individus qui ne participeront pas ? la construction des axes de l'analyse en composante principale. Les individus participant ? l'ACP sont appel?s, par opposition, individus actifs.
La position des individus suppl?mentaires sera donc pr?dite gr?ce ? l'ACP r?alis?e uniquement avec les individus actifs.
Cette approche pourrait ?tre utilis?e lorsque l'on souhaite faire de la pr?diction avec l'ACP.

Les individus suppl?mentaires peuvent ?galement ?tre des individus dont les r?sultats sont peu fiables et contenant des valeurs manquantes.


Les variables suppl?mentaires ou illustratifs




On peut mettre des variables ? expliquer en suppl?mentaire. Par opposition les variables explicatives seront utilis?es pour faire l'ACP. La variable ? expliquer est introduite ? la fin de l'analyse afin de la positionner sur le plan principal. D'autres variables peuvent manquer de fiabilit?. On peut h?siter ? les introduire dans l'analyse. Elles peuvent ?tre utilis?es comme variables suppl?mentaires. Les variables suppl?mentaires peuvent ?tre soient qualitatives soit quantitatives


ACP avec des individus et variables suppl?mentaires




1) T?l?charger et enregistrer ce fichier au *.txt tabulation : pca_auto.txt

L'image du fichier est montr?e ci-dessous. Cliquez dessus pour agrandir.


Cliquez pour agrandir

Ce fichier contient des mod?les de voitures d?crites par plusieurs variables, notamment la vitesse maximale, la largeur, la longueur, etc, ...

Il contient 9 colonnes et 20 lignes. Les lignes 19 (Peugeot 604) et 20 (Peugeot 304S) correspondent ? des 'individus suppl?mentaires' (abr?viation : ind.sup=19:20). La colonne 8 (R-Poids.PUIS) correspond ? une variable quantitative illustrative ou suppl?mentaire (abr?viation : quanti.sup=8) et la colonne 9 (FINITION) correspond ? une variable qualitative suppl?mentaire (abr?viation : quali.sup=9)

Maintenant, nous allons faire appel ? la fonction rquery.pca() en lui donnant toutes ces informations.

2) Code R

Code R :
rquery.pca(ind.sup=19:20, quali.sup=9, quanti.sup=8)




Plan factoriel des variables Plan factoriel des individus

cliquez pour agrandir



Sur le plan des variables, les variables suppl?mentaires quantitatives sont indiqu?es en bleu.
Sur le plan factoriel des individus, les individus suppl?mentaires sont indiqu?s en bleu et les variables qualitatives suppl?mentaires sont montr?es en rose.

Nous allons maintenant colorer les individus en fonction de leur groupe , c'est ? dire en fonction de la variable qualitative FINITION ou la colonne 9.

Il suffit juste de l'indiquer ? la fonction rquery.pca() gr?ce au param?tre 'habillage' (voir le code ci-dessous)

Code R :
rquery.pca(ind.sup=19:20, quali.sup=9, quanti.sup=8, habillage = 9)


On pourrait m?me ajouter des ellipses pour chaque groupe.

Code R :
rquery.pca(ind.sup=19:20, quali.sup=9, quanti.sup=8, habillage = 9, ellipse= TRUE)


Voici le r?sultat :


cliquez pour agrandir


ACP 3d



Code R :
rquery.pca(ind.sup=19:20, quali.sup=9, quanti.sup=8, choix="3d")




cliquez pour agrandir


Utilisateur avanc?



cliquer sur le lien suivant rquery.pca


Conclusions



Code R :
 
rquery.pca()#Fait une ACP et affiche les graphiques
rquery.pca(save.pdf=T)#Fait une ACP et enregistre les graphiques
 

Enjoyed this article? I’d be very grateful if you’d help it spread by emailing it to a friend, or sharing it on Twitter, Facebook or Linked In.

Show me some love with the like buttons below... Thank you and please don't forget to share and comment below!!
Avez vous aimé cet article? Je vous serais très reconnaissant si vous aidiez à sa diffusion en l'envoyant par courriel à un ami ou en le partageant sur Twitter, Facebook ou Linked In.

Montrez-moi un peu d'amour avec les like ci-dessous ... Merci et n'oubliez pas, s'il vous plaît, de partager et de commenter ci-dessous!





Cette page a été vue 32003 fois
Licence - Pas d?Utilisation Commerciale - Partage dans les M?mes Conditions
Licence Creative Commons