ACP GÉNÉRALISÉE
• ACP : recherche d’un sous-espace, décrivant les
données, en perdant "un minimum" d’information.
• Autre...
POURQUOI GÉNÉRALISER L’ACP ?
• Inutilisable pour des distributions discrètes (entières ou binaires). Le
bruit suivrait plu...
FAMILLE EXPONENTIELLE
Famille définie par :
• Theta est le paramètre naturel (cherché)
• P0 Est constant en θ(donc n’inter...
DISTANCE DE BREGMAN
• Définition :
• Intuition : elle mesure "à quel point F est convexe".
• Généralisation :
• f peut êtr...
LIEN AVEC LE PROBLÈME
ACP classique

maximiser la
vraisemblance

projeter en norme
euclidienne
ACP généralisée

maximi...
CONCEPT DE L’ACP GÉNÉRALISÉE
• Dans la "nouvelle base" V…
• … on cherche les "nouveaux vecteurs" Θ…
• … de coordonnées A.
...
ALGORITHME
• V est choisi aléatoirement,
• On minimise successivement A et V :
Tout point limite est un point stationnair...
of 7

Generalization of Principal Component Analysis, presentation, 2012

Lorsque l'on dispose d'un échantillon de n observations, distribuées sur p features (donc une matrice de design n * p), il est possible qu'il existe un sous-espace, qui "décrive convenablement" (cette notion sera définie dans la suite) les données, en ayant diminué la dimension, donc en ayant simplifié l'analyse. L'Analyse en Composantes Principales consiste en la recherche de ce sous-espace. La connaissance sur les données est quantifiée par la variance empirique. Plus cette variance est importante, plus les points de l'espace sont éloignés, et donc distinguables. On va donc chercher à réduire la dimension du problème, en général pour en simplifier l'étude, sous la contrainte de maximiser la variance obtenue dans l'espace sous-dimensionnel.
Published on: Mar 4, 2016
Published in: Technology      
Source: www.slideshare.net


Transcripts - Generalization of Principal Component Analysis, presentation, 2012

  • 1. ACP GÉNÉRALISÉE • ACP : recherche d’un sous-espace, décrivant les données, en perdant "un minimum" d’information. • Autre approche : un ensemble de données est parasité par un bruit gaussien. On souhaite remonter aux données initiales. Log-vraisemblance : On se ramène à un problème de maximisation.
  • 2. POURQUOI GÉNÉRALISER L’ACP ? • Inutilisable pour des distributions discrètes (entières ou binaires). Le bruit suivrait plutôt respectivement une loi de Poisson ou de Bernoulli. • Si le bruit n’est pas gaussien, par exemple s’il est imposé strictement positif (analyse textuelle, analyse d’images).  On l’étend à tout type de bruit appartenant à la famille exponentielle.  Le prix sera de rendre plus complexe la distance : on n'utilise plus la distance euclidienne mais la distance de Bregman. On l'étend de la même manière qu'on étend régression GLM.
  • 3. FAMILLE EXPONENTIELLE Famille définie par : • Theta est le paramètre naturel (cherché) • P0 Est constant en θ(donc n’intervient pas dans les calculs) • G caractérise le type de distribution.  Un résultat très important : • Une distribution gaussienne est un cas particulier d’une famille exponentielle, • Donc tous les résultats coïncideront avec l’ACP "classique", puisqu’elle sera un cas particulier de l’ACP généralisée.
  • 4. DISTANCE DE BREGMAN • Définition : • Intuition : elle mesure "à quel point F est convexe". • Généralisation : • f peut être remplacée par un grad. • La distance de Bregman de 2 matrices/vecteurs est la somme des distances terme à terme. Utilité : on lie la log-vraisemblance à cette distance. Donc maximiser la vraisemblance revient à minimiser cette distance.
  • 5. LIEN AVEC LE PROBLÈME ACP classique  maximiser la vraisemblance  projeter en norme euclidienne ACP généralisée  maximiser la vraisemblance  projeter en norme de Bregman Pour un bruit gaussien Pour un bruit de loi appartenant à la famille exponentielle
  • 6. CONCEPT DE L’ACP GÉNÉRALISÉE • Dans la "nouvelle base" V… • … on cherche les "nouveaux vecteurs" Θ… • … de coordonnées A.  On cherche A et V dans Θ=AV. • Tels que la distance de Bregman entre les données observées (x) et les données déduites (θ) soit minimale.
  • 7. ALGORITHME • V est choisi aléatoirement, • On minimise successivement A et V : Tout point limite est un point stationnaire.

Related Documents