Gaussian Masked Autoencoders (GMAE)

Gaussian Masked Autoencoders (GMAE) - Version imprimable

+- TISI (https://www.tisi-fr.com/board)
+-- Forum : La cafet' (https://www.tisi-fr.com/board/forumdisplay.php?fid=14)
+--- Forum : Le journal (https://www.tisi-fr.com/board/forumdisplay.php?fid=15)
+--- Sujet : Gaussian Masked Autoencoders (GMAE) (/showthread.php?tid=4840)

Gaussian Masked Autoencoders (GMAE) - Er1gon359 - 14-01-2025

L'étude de Jathushan Rajasegaran, Xinlei Chen, Rulilong Li, Christoph Feichtenhofer, Jitendra Malik, Shiry Ginosar présente une extension des Masked Autoencoders (MAE), une méthode d'apprentissage auto-supervisé, en y intégrant des représentations basées sur des Gaussiennes 3D. L'objectif est de combiner une abstraction sémantique de haut niveau avec une compréhension spatiale des images.

    Les Gaussiennes permettent une réprésentation graphique en 2D et 3D mais contrairement aux ancien Gaussiennes, GMAE peut varier la taille de façon dynamique se qui offre de plus grande possibilité.
GMAE maintient une qualité comparable à MAE sur des tâches de classification d'images (utilise l'information spectrale contenue dans les valeurs d'une ou de plusieurs bandes spectrales pour classifier chaque pixel individuellement (ImageNet))
et de détection/segmentation ( La segmentation est une tâche qui consiste à diviser une image en différentes régions sur la base du contenu de l'image. (COCO)).
     Il ajoute des capacités inédites en apprentissage sans supervision, comme la segmentation et la détection d'arêtes en zéro-shot ( L’apprentissage zero-shot (ZSL) est un scénario de machine learning dans lequel un modèle d’IA est entraîné à reconnaître et à catégoriser des objets ou des concepts sans avoir vu d’exemples de ces catégories ou concepts au préalable.)
L'implémentation des Gaussiennes n'ajoute que 1,5 % de surcharge par rapport à l'entraînement classique de MAE.
    Un des plus gros problème est que pour le moment nous ne disposons pas de la puissance de calcul nécessaire pour utiliser pleinement ces fonctionnalité de calcul.
Lorsqu’on initialise le modèle avec des Gaussiennes de grande taille (couvrant de larges portions de l’image), l’optimisation devient plus difficile. Cela résulte de la nécessité d’affiner de manière simultanée plusieurs paramètres, comme la taille, l’opacité et la position des Gaussiennes.
Un autre problème est qu'il n'est pas efficace avec de grande portion d'images pour l'instant mieux vaut faire une images en plusieurs temps pour avoir un meilleur rendu.

RE: Gaussian Masked Autoencoders (GMAE) - EnZ0 - 20-01-2025

(14-01-2025, 12:52)Er1gon359 a écrit : Cette étude présente une extension des Masked Autoencoders (MAE), une méthode d'apprentissage auto-supervisé, en y intégrant des représentations basées sur des Gaussiennes 3D. L'objectif est de combiner une abstraction sémantique de haut niveau avec une compréhension spatiale des images.

Quelle étude ?

RE: Gaussian Masked Autoencoders (GMAE) - Er1gon359 - 22-01-2025

(20-01-2025, 05:37)EnZ0 a écrit :
(14-01-2025, 12:52)Er1gon359 a écrit : Cette étude présente une extension des Masked Autoencoders (MAE), une méthode d'apprentissage auto-supervisé, en y intégrant des représentations basées sur des Gaussiennes 3D. L'objectif est de combiner une abstraction sémantique de haut niveau avec une compréhension spatiale des images.

Quelle étude ?

Veuillez m'excuser j'ai oublié de citer les personnes qui sont Jathushan Rajasegaran, Xinlei Chen, Rulilong Li, Christoph Feichtenhofer, Jitendra Malik, Shiry Ginosar dérrière cette étude/article