Module python - Traitement d'une ACP


  • Réalisation :  2022
  • Catégorie :  Module Python

  • Techniques :  Python / Pandas / GitHub / Matplotlib / Scikit-learn / Création Packages

  • Module :  GitHub
  • Documentation :  Doc
  • Notebook :  Binder

Définition

Une Analyse en Composantes Principales (ACP) est une méthode de réduction de dimensions qui consiste à transformer des variables corrélées en un nombre restreint de variables indépendantes (cf. les composantes principales), et ce, en minimisant la perte d'information.

Contexte

Dans le cadre ma formation de Data Analyst, j'avais créé une fonction pour automatiser la réalisation des calculs et graphiques liés à une ACP.

Par la suite, j'ai décider de créer un module Python afin de pouvoir partager cette fonction d'automatisation.

Caractéristiques

A partir d'un dataframe de données, une ACP est réalisée, avec notamment :

  • Recherche du nombre de facteurs à retenir
    • graphique eboulis des valeurs propres
    • calcul de la proportion de variance expliquée
    • test bâtons brisés
  • Représentation des individus
    • coordonnées factorielles des individus
    • qualité de la représentation des individus (cos² de chaque individu par axe)
    • tcontribution des individus aux axes
  • Représentation des variables
    • les vecteurs propres
    • corrélations par facteur
    • qualité de la représentation des variables (cos² de chaque variable par axe)
    • contribution des variables aux axes
  • Traitement des variables supplémentaires
    • variables illustratives quantitatives
    • variables illustratives qualitatives
  • RReprésentation graphique (pour chaque plan factoriel)
    • projection des individus
    • cercle des corrélations
Graphique Eboulis des valeurs propres
Graphique ACP 1er plan factoriel