Catherine Soladié - Représentation invariante des expressions faciales

Soutenance de thèse vendredi 13 décembre 2013 Catherine SOLADIÉ SUPELEC
/ IETR (UMR CNRS 6164) http://www.rennes.supelec.fr/ren/perso/soladie_cat/ Alice CAPLIER Gipsa-Lab Examinateur Patrice DALLE IRIT Examinateur Mohamed DAOUDI LIFL Rapporteur Patrick LAMBERT LISTIC Rapporteur Renaud SEGUIER SUPELEC Directeur de thèse

IMMEMO, 2010 – 2013, Projet collaboratif national "ANR - CONTINT"
IMMersion 3D basée sur l'interaction EMOtionnelle Supélec, Artefacto, InstitutTelecom, ISIR. Serious Game : créer un environnement virtuel immersif 3D dans lequel est plongé un apprenant. IMMERSIVITE, 2011 – 2012, Projet régional PME IMmersion dans un environnement de forMation convERsationnel, expresSIf et VIrTuEl Dialonics, CERV, Dynamixyz, Supélec, Virtualis Serious Game : interaction entre des personnes et des agents virtuels. REPLICA, 2012 – 2015, Projet collaboratif national "ANR –TECHSAN" Rééducation des Praxies faciales chez des paralysés Cérébraux via un Avatar interactif University of Rennes II (M2S, CRP2C), Hôpitaux Saint Maurice, Dynamixyz, Supélec. Fournir un outil ludique d’entrainement à la parole. Maintient à domicile des personnes âgées, 2013 – 2015, Projet PME Bretagne soumis Neotec-Vision (porteur du projet), Supelec, Dynamixyz, ESC Rennes et INSA Rennes Outil permettant de lever une alarme lorsque des comportements inattendus se produisent Projets Collaboratifs Contextes applicatifs Serious Game Domaine médical Ambient Assisted Living (AAL) 2

Visage Expression Emotion Pablo Picasso Faut-il peindre ce qu’il y
a sur un visage ? Ce qu’il y a dans un visage ? Ou ce qui se cache derrière un visage ? Acte I Acte II Prérequis 3

Acte I : 1 système - 5 contraintes Précision Exhaustivité
Robustesse Flexibilité Signification Acte II : Challenge AVEC 2012 Données du challenge Valence (Positif vs. Actif) 4 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Acte I 1 système – 5 contraintes Précis : distinguer
les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif (caméra RGB) Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) Visage Expression Emotion 5

les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) Visage Expression Emotion 6

les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) Visage Expression Emotion 7

les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) 8

les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) ? ? ? 9

les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) ? 10

les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) 11

14 unknown blended expressions 17 subjects Database available at http://www.rennes.supelec.fr/immemo/
La base de données 12 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Précis : distinguer des expressions proches ACP alignement des visages
Sujet B Sujet A Vecteurs d’apparence Modèle générique Vecteurs d’apparence différentiels Modèle générique 13 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Précis : distinguer des expressions proches ACP ACP Vecteurs d’apparence
Modèle générique Vecteurs d’apparence Modèle spécifique (A) Vecteurs d’apparence Modèle spécifique (B) Sujet B Sujet A 14 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Précis : distinguer les déformations faciales proches Robuste : gérer
les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales Vecteurs d’apparence Modèle spécifique (A) Vecteurs d’apparence Modèle spécifique (B) 15

Robuste : gérer les différences de morphologies (identités) 16 INTRO
ACTE I P R E F S PAUSE ACTE II D V CONCLU

ACTE I P R E F S PAUSE ACTE II D V CONCLU

ACTE I P R E F S PAUSE ACTE II D V CONCLU En dimension 3 (3 principales déformations), environ 18 connexions sur 28 connexions possibles

Robuste : gérer les différences de morphologies (identités) En dimension
3 (3 principales déformations), environ 18 connexions sur 28 connexions possibles 19 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Robuste : gérer les différences de morphologies (identités) Indice de
similarité de Sorenzen : Nombre de connexions communes aux deux structures Nombre de connexions de chaque structure Facteur de normalisation 20 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Robuste : gérer les différences de morphologies (identités) 18 expressions
connectées pour A et B dont 17 communes Les configurations gardent le même voisinage 21 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Robuste : gérer les différences de morphologies (identités) A titre
de comparaison, une transposition de deux sommets voisins ayant chacun 5 voisins : aurait donné un indice de 0.78. Deux organisations dont l’indice est compris entre 0.8 et 1 peuvent être considérées comme similaires. 22 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Robuste : gérer les différences de morphologies (identités) Calcul de
l’organisation des expressions : 1. l’indice de similarité d’une organisation avec les P −1 autres organisations (valeur moyenne) 2. l’organisation universelle des expressions (indice de similarité le plus élevé) 23 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Robuste : gérer les différences de morphologies (identités) Répartition des
indices de similarité entre l’organisation de nos 17 sujets et l’organisation « universelle »  Indice entre 0.82 et 1 (donc toujours supérieur à 0.8)  Structures réelles sont des les 1.5% des indices les plus grands des structures aléatoires 24 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales 25

Une étoile (expression) peut être définie par son intensité et
sa position relative par rapport aux autres étoiles (expressions) de forte intensité Dans cette direction là, il y a trois étoiles de forte intensité qui forment un triangle quasi équilatéral, légèrement incliné vers la gauche. L’étoile est située dans le triangle formé par ces trois étoiles. Elle est d’intensité moyenne et est proche de l’étoile de droite qui forme le triangle. 26 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Exhaustif : qualifier les expressions non connues du système Direction
: Intensité : 27 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Exhaustif : qualifier les expressions non connues du système Direction
: Intensité : 28 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Résultat de la méthode en chiffres 14 expressions inconnues –
17 sujets connus 30 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

17 sujets connus Robustesse par rapport à la dimensionnalité de l’espace 31 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

17 sujets connus Robustesse par rapport au type de données 9 textures => d’un sujet i 1 expression inconnue du sujet i 9 formes => d’un sujet j != i 1 expression inconnue du sujet j similaire à celle du sujet i 32 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Flexible : s’adapter aux différents individus sans phase préalable d’apprentissage
Forme de l’espace connue : Expressions permettant de le créer inconnues : 33 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU ? ? ? ? ? ? ? ?

warping_ok_1 34

les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales Une expression inconnue = un mélange d’expressions connues + une intensité 37

Dans l’épisode précédent… Précis : distinguer les déformations faciales proches
Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée 40

Tester notre système 1. sur des données réelles issues de
séquences vidéo 2. dans un contexte de reconnaissance d’émotions (variations d’émotion) 3. en environnement multimodal 95 séquences audio-vidéo d’une durée de 2 à 10 minutes affichant une conversation entre un sujet et un agent émotionnel 4 agents émotionnels : • Poppy est joyeux • Spike est agressif • Odadiah est sombre, triste • Prudence est pragmatique Les labels de vérité terrain sont fournis pour les dimensions : • Arousal actif vs. passif • Expectation surpris vs. non surpris • Valence positif vs. passif • Power en contrôle vs. pas en contrôle Les performances sont calculées par la corrélation entre prédiction et vérité terrain Challenge AVEC 2012 Audio-Video Emotion Challenge Pourquoi ? Triple opportunité Données réelles issues de séquences audio-vidéo 4 dimensions permettant de qualifier l’émotion Variations d’émotion 41

Tester notre système 1. sur des données réelles issues de
séquences vidéo 2. dans un contexte de reconnaissance d’émotions (variations d’émotion) 3. en environnement multimodal 95 séquences audio-vidéo d’une durée de 2 à 10 minutes affichant une conversation entre un sujet et un agent émotionnel 4 agents émotionnels : • Poppy est joyeux • Spike est agressif • Odadiah est sombre, triste • Prudence est pragmatique Les labels de vérité terrain sont fournis pour les dimensions : • Arousal actif vs. passif • Expectation surpris vs. non surpris • Valence positif vs. passif • Power en contrôle vs. pas en contrôle Les performances sont calculées par la corrélation entre prédiction et vérité terrain Challenge AVEC 2012 Audio-Vidéo Emotion Challenge Pourquoi ? Triple opportunité Données réelles issues de séquences audio-vidéo 4 dimensions permettant de qualifier l’émotion Variations d’émotion Acte I Acte II Images Séquences Posées Naturelles Émotions Signaux physiologiques Visèmes Interaction sociales Émotions Visuel Audio, visuel, contexte EXPRESSION EMOTION 42

Exemple d’une séquence audio-vidéo (base de développement – sujet 2)
43

Une vérité terrain contestable… Annotateurs d’accord Annotateurs en désaccord 44
INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Une vérité terrain contestable… Valeur de power (vérité terrain) au
début des séquences audio-vidéo IDENTIQUE POUR TOUTES LES SEQUENCES Moyenne et écart type de power (vérité terrain) sur les séquences 45 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Valence Dimensions Annotateurs Arousal 0.44 Valence 0.53 Power 0.51 Expectancy
0.33 Moyenne 0.45 Valence pas (ou peu) d’impact en début de séquence + des annotateurs plutôt d’accord 46 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Valence : Le rire donne une forte indication de variation
de la valence 47 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Valence : Le rire = une expression de sourire intense
pendant une durée assez longue 51 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU Signature de l’expression à l’instant t Filtrage zone-intensité Intégration (rire) Expression de sourire T = 40 secondes

Valence : L’émotion de l’agent donne une indication de l’offset
de la valence du sujet (contagion d’émotion) Sujet 2 en conversation avec les 4 agents émotionnels 52 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Emotion des différents sujets selon l’agent émotionnel Valence : L’émotion
de l’agent donne une indication de l’offset de la valence du sujet (contagion d’émotion) 53 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Valence : Système de fusion multimodal Comparaison de deux systèmes
: FIS et RBF 54 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Valence : FIS : Fuzzy Inference System Si début :
OffSetDeb (0) Si Prudence : MoyFort (0.12) Si Spike : MoyFaible (-0.0679) Si Poppy : Fort (0.2827) Si Obadiah : Faible (-0.1259) Si inconnu : Moyen (0.0703) Si rire : Très fort (0.5) Règles issues des analyses statistiques et observations humaines 55 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU

Valence : RBF : Radial Basis Function Exemples représentatifs calculés
par k-moyenne 56 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU xj yj Si début : OffSetDeb (0) Si Obadiah : Faible (-0.1259) Si Prudence : MoyFort (0.12) Si Poppy : Fort (0.2827) Si Spike : MoyFaible (-0.0679) Si inconnu : Moyen (0.0703) Si rire : Très fort (0.5)

Equipe Supelec-Dynamixyz-TelecomParisTech : 2nd place 57 INTRO ACTE I P
R E F S PAUSE ACTE II D V CONCLU

Equipe Supelec-Dynamixyz-TelecomParisTech : 2nd place 58 INTRO ACTE I P
R E F S PAUSE ACTE II D V CONCLU Les + Les – et les ? système de représentation des expressions test sur des données réelles et spontanées analyse uniquement qualitative entièrement automatisé prise en compte la parole expression de haut niveau (zone-intensité) système complexe pour une détection du rire système global intégration de données de contexte (notion d’empathie) peu de comparaison possible entre les résultats différentes équipes interprétation (variations d’émotions) « vérité » terrain mode de représentation ?

Contributions et originalités Catherine Soladié, Nicolas Stoiber, Renaud Séguier A
new invariant representation of facial expressions: definition and application to blended expression recognition, IEEE International Conference on Image Processing (ICIP), Orlando, Florida, U.S.A., Sept.-Oct. 2012, pp.2617-2620 EXPRESSIONS FACIALES Invariant : Organisation des expressions Représentation par signature direction- intensité : Une expression est définie par sa position relative par rapport aux autres expressions Robustesse de la représentation : par rapport aux types de données par rapport à la dimensionnalité de l’espace Système flexible : Sur des personnes inconnues, création d’un espace plausible EMOTIONS Détection du rire par méthode de zone- intensité Mise en œuvre d’un système multimodal incluant des informations de contexte (empathie) Comparaison de méthodes de fusion des données multimodales (système d’inférence floue vs. fonctions de bases radiales) TRAVAUX EN COURS Modèles bilinéaires Catherine Soladié, Nicolas Stoiber, Renaud Séguier Invariant Representation for Facial Expressions for Blended Expression Recognition on Unknown Subjects, International Journal Computer Vision and Image Understanding (CVIU), Elsevier, Vol 117, Issue 11, Nov 2013, pp. 1598–1609 Catherine Soladié, Hanan Salam, Catherine Pelachaud, Nicolas Stoiber, Renaud Séguier A Multimodal Fuzzy Inference System Using a Continuous Facial Expression Representation for Emotion Detection ACM International Conference on Multimodal Interaction (ICMI), 2nd International Audio/Visual Emotion Challenge and Workshop -AVEC 2012 , Santa Monica, California, U.S.A., Oct. 2012, pp. 493-500 Catherine Soladié, Hanan Salam, Nicolas Stoiber, Renaud Séguier Continuous Facial Expression Representation for Multimodal Emotion Detection, International Journal of Advanced Computer Science (IJACSci), Vol 3, No5, mai 2013, pp. 202-216 Catherine Soladié, Nicolas Stoiber, Renaud Séguier Création de l’espace des expressions faciales à partir de modèles bilinéaires asymétriques XXIVème Colloque GRETSI, 3-6 Septembre 2013, Brest, France Catherine Soladié, Nicolas Stoiber, Renaud Séguier Bilinear Decomposition for Blended Expression Representation, IEEE Visual Communication and Image Processing (VCIP), Malaysia, Nov 2013 Publications 59

Catherine Soladié - Représentation invariante d...

Catherine Soladié - Représentation invariante des expressions faciales

More Decks by SCEE Team

Other Decks in Research

Featured

Transcript