Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Catherine Soladié - Représentation invariante d...

SCEE Team
November 28, 2013

Catherine Soladié - Représentation invariante des expressions faciales

SCEE Team

November 28, 2013
Tweet

More Decks by SCEE Team

Other Decks in Research

Transcript

  1. Soutenance de thèse vendredi 13 décembre 2013 Catherine SOLADIÉ SUPELEC

    / IETR (UMR CNRS 6164) http://www.rennes.supelec.fr/ren/perso/soladie_cat/ Alice CAPLIER Gipsa-Lab Examinateur Patrice DALLE IRIT Examinateur Mohamed DAOUDI LIFL Rapporteur Patrick LAMBERT LISTIC Rapporteur Renaud SEGUIER SUPELEC Directeur de thèse
  2. IMMEMO, 2010 – 2013, Projet collaboratif national "ANR - CONTINT"

    IMMersion 3D basée sur l'interaction EMOtionnelle Supélec, Artefacto, InstitutTelecom, ISIR. Serious Game : créer un environnement virtuel immersif 3D dans lequel est plongé un apprenant. IMMERSIVITE, 2011 – 2012, Projet régional PME IMmersion dans un environnement de forMation convERsationnel, expresSIf et VIrTuEl Dialonics, CERV, Dynamixyz, Supélec, Virtualis Serious Game : interaction entre des personnes et des agents virtuels. REPLICA, 2012 – 2015, Projet collaboratif national "ANR –TECHSAN" Rééducation des Praxies faciales chez des paralysés Cérébraux via un Avatar interactif University of Rennes II (M2S, CRP2C), Hôpitaux Saint Maurice, Dynamixyz, Supélec. Fournir un outil ludique d’entrainement à la parole. Maintient à domicile des personnes âgées, 2013 – 2015, Projet PME Bretagne soumis Neotec-Vision (porteur du projet), Supelec, Dynamixyz, ESC Rennes et INSA Rennes Outil permettant de lever une alarme lorsque des comportements inattendus se produisent Projets Collaboratifs Contextes applicatifs Serious Game Domaine médical Ambient Assisted Living (AAL) 2
  3. Visage Expression Emotion Pablo Picasso Faut-il peindre ce qu’il y

    a sur un visage ? Ce qu’il y a dans un visage ? Ou ce qui se cache derrière un visage ? Acte I Acte II Prérequis 3
  4. Acte I : 1 système - 5 contraintes Précision Exhaustivité

    Robustesse Flexibilité Signification Acte II : Challenge AVEC 2012 Données du challenge Valence (Positif vs. Actif) 4 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  5. Acte I 1 système – 5 contraintes Précis : distinguer

    les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif (caméra RGB) Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) Visage Expression Emotion 5
  6. Acte I 1 système – 5 contraintes Précis : distinguer

    les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) Visage Expression Emotion 6
  7. Acte I 1 système – 5 contraintes Précis : distinguer

    les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) Visage Expression Emotion 7
  8. Acte I 1 système – 5 contraintes Précis : distinguer

    les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) 8
  9. Acte I 1 système – 5 contraintes Précis : distinguer

    les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) ? ? ? 9
  10. Acte I 1 système – 5 contraintes Précis : distinguer

    les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) ? 10
  11. Acte I 1 système – 5 contraintes Précis : distinguer

    les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) 11
  12. 14 unknown blended expressions 17 subjects Database available at http://www.rennes.supelec.fr/immemo/

    La base de données 12 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  13. Précis : distinguer des expressions proches ACP alignement des visages

    Sujet B Sujet A Vecteurs d’apparence Modèle générique Vecteurs d’apparence différentiels Modèle générique 13 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  14. Précis : distinguer des expressions proches ACP ACP Vecteurs d’apparence

    Modèle générique Vecteurs d’apparence Modèle spécifique (A) Vecteurs d’apparence Modèle spécifique (B) Sujet B Sujet A 14 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  15. Précis : distinguer les déformations faciales proches Robuste : gérer

    les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales Vecteurs d’apparence Modèle spécifique (A) Vecteurs d’apparence Modèle spécifique (B) 15
  16. Robuste : gérer les différences de morphologies (identités) 18 INTRO

    ACTE I P R E F S PAUSE ACTE II D V CONCLU En dimension 3 (3 principales déformations), environ 18 connexions sur 28 connexions possibles
  17. Robuste : gérer les différences de morphologies (identités) En dimension

    3 (3 principales déformations), environ 18 connexions sur 28 connexions possibles 19 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  18. Robuste : gérer les différences de morphologies (identités) Indice de

    similarité de Sorenzen : Nombre de connexions communes aux deux structures Nombre de connexions de chaque structure Facteur de normalisation 20 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  19. Robuste : gérer les différences de morphologies (identités) 18 expressions

    connectées pour A et B dont 17 communes Les configurations gardent le même voisinage 21 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  20. Robuste : gérer les différences de morphologies (identités) A titre

    de comparaison, une transposition de deux sommets voisins ayant chacun 5 voisins : aurait donné un indice de 0.78. Deux organisations dont l’indice est compris entre 0.8 et 1 peuvent être considérées comme similaires. 22 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  21. Robuste : gérer les différences de morphologies (identités) Calcul de

    l’organisation des expressions : 1. l’indice de similarité d’une organisation avec les P −1 autres organisations (valeur moyenne) 2. l’organisation universelle des expressions (indice de similarité le plus élevé) 23 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  22. Robuste : gérer les différences de morphologies (identités) Répartition des

    indices de similarité entre l’organisation de nos 17 sujets et l’organisation « universelle »  Indice entre 0.82 et 1 (donc toujours supérieur à 0.8)  Structures réelles sont des les 1.5% des indices les plus grands des structures aléatoires 24 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  23. Précis : distinguer les déformations faciales proches Robuste : gérer

    les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales 25
  24. Une étoile (expression) peut être définie par son intensité et

    sa position relative par rapport aux autres étoiles (expressions) de forte intensité Dans cette direction là, il y a trois étoiles de forte intensité qui forment un triangle quasi équilatéral, légèrement incliné vers la gauche. L’étoile est située dans le triangle formé par ces trois étoiles. Elle est d’intensité moyenne et est proche de l’étoile de droite qui forme le triangle. 26 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  25. Exhaustif : qualifier les expressions non connues du système Direction

    : Intensité : 27 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  26. Exhaustif : qualifier les expressions non connues du système Direction

    : Intensité : 28 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  27. Précis : distinguer les déformations faciales proches Robuste : gérer

    les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales 29
  28. Résultat de la méthode en chiffres 14 expressions inconnues –

    17 sujets connus 30 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  29. Résultat de la méthode en chiffres 14 expressions inconnues –

    17 sujets connus Robustesse par rapport à la dimensionnalité de l’espace 31 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  30. Résultat de la méthode en chiffres 14 expressions inconnues –

    17 sujets connus Robustesse par rapport au type de données 9 textures => d’un sujet i 1 expression inconnue du sujet i 9 formes => d’un sujet j != i 1 expression inconnue du sujet j similaire à celle du sujet i 32 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  31. Flexible : s’adapter aux différents individus sans phase préalable d’apprentissage

    Forme de l’espace connue : Expressions permettant de le créer inconnues : 33 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU ? ? ? ? ? ? ? ?
  32. 35

  33. Précis : distinguer les déformations faciales proches Robuste : gérer

    les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales 36
  34. Précis : distinguer les déformations faciales proches Robuste : gérer

    les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales Une expression inconnue = un mélange d’expressions connues + une intensité 37
  35. 39

  36. Dans l’épisode précédent… Précis : distinguer les déformations faciales proches

    Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée 40
  37. Tester notre système 1. sur des données réelles issues de

    séquences vidéo 2. dans un contexte de reconnaissance d’émotions (variations d’émotion) 3. en environnement multimodal 95 séquences audio-vidéo d’une durée de 2 à 10 minutes affichant une conversation entre un sujet et un agent émotionnel 4 agents émotionnels : • Poppy est joyeux • Spike est agressif • Odadiah est sombre, triste • Prudence est pragmatique Les labels de vérité terrain sont fournis pour les dimensions : • Arousal actif vs. passif • Expectation surpris vs. non surpris • Valence positif vs. passif • Power en contrôle vs. pas en contrôle Les performances sont calculées par la corrélation entre prédiction et vérité terrain Challenge AVEC 2012 Audio-Video Emotion Challenge Pourquoi ? Triple opportunité Données réelles issues de séquences audio-vidéo 4 dimensions permettant de qualifier l’émotion Variations d’émotion 41
  38. Tester notre système 1. sur des données réelles issues de

    séquences vidéo 2. dans un contexte de reconnaissance d’émotions (variations d’émotion) 3. en environnement multimodal 95 séquences audio-vidéo d’une durée de 2 à 10 minutes affichant une conversation entre un sujet et un agent émotionnel 4 agents émotionnels : • Poppy est joyeux • Spike est agressif • Odadiah est sombre, triste • Prudence est pragmatique Les labels de vérité terrain sont fournis pour les dimensions : • Arousal actif vs. passif • Expectation surpris vs. non surpris • Valence positif vs. passif • Power en contrôle vs. pas en contrôle Les performances sont calculées par la corrélation entre prédiction et vérité terrain Challenge AVEC 2012 Audio-Vidéo Emotion Challenge Pourquoi ? Triple opportunité Données réelles issues de séquences audio-vidéo 4 dimensions permettant de qualifier l’émotion Variations d’émotion Acte I Acte II Images Séquences Posées Naturelles Émotions Signaux physiologiques Visèmes Interaction sociales Émotions Visuel Audio, visuel, contexte EXPRESSION EMOTION 42
  39. Une vérité terrain contestable… Valeur de power (vérité terrain) au

    début des séquences audio-vidéo IDENTIQUE POUR TOUTES LES SEQUENCES Moyenne et écart type de power (vérité terrain) sur les séquences 45 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  40. Valence Dimensions Annotateurs Arousal 0.44 Valence 0.53 Power 0.51 Expectancy

    0.33 Moyenne 0.45 Valence pas (ou peu) d’impact en début de séquence + des annotateurs plutôt d’accord 46 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  41. Valence : Le rire donne une forte indication de variation

    de la valence 47 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  42. 49

  43. 50

  44. Valence : Le rire = une expression de sourire intense

    pendant une durée assez longue 51 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU Signature de l’expression à l’instant t Filtrage zone-intensité Intégration (rire) Expression de sourire T = 40 secondes
  45. Valence : L’émotion de l’agent donne une indication de l’offset

    de la valence du sujet (contagion d’émotion) Sujet 2 en conversation avec les 4 agents émotionnels 52 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  46. Emotion des différents sujets selon l’agent émotionnel Valence : L’émotion

    de l’agent donne une indication de l’offset de la valence du sujet (contagion d’émotion) 53 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  47. Valence : Système de fusion multimodal Comparaison de deux systèmes

    : FIS et RBF 54 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  48. Valence : FIS : Fuzzy Inference System Si début :

    OffSetDeb (0) Si Prudence : MoyFort (0.12) Si Spike : MoyFaible (-0.0679) Si Poppy : Fort (0.2827) Si Obadiah : Faible (-0.1259) Si inconnu : Moyen (0.0703) Si rire : Très fort (0.5) Règles issues des analyses statistiques et observations humaines 55 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
  49. Valence : RBF : Radial Basis Function Exemples représentatifs calculés

    par k-moyenne 56 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU xj yj Si début : OffSetDeb (0) Si Obadiah : Faible (-0.1259) Si Prudence : MoyFort (0.12) Si Poppy : Fort (0.2827) Si Spike : MoyFaible (-0.0679) Si inconnu : Moyen (0.0703) Si rire : Très fort (0.5)
  50. Equipe Supelec-Dynamixyz-TelecomParisTech : 2nd place 58 INTRO ACTE I P

    R E F S PAUSE ACTE II D V CONCLU Les + Les – et les ? système de représentation des expressions test sur des données réelles et spontanées analyse uniquement qualitative entièrement automatisé prise en compte la parole expression de haut niveau (zone-intensité) système complexe pour une détection du rire système global intégration de données de contexte (notion d’empathie) peu de comparaison possible entre les résultats différentes équipes interprétation (variations d’émotions) « vérité » terrain mode de représentation ?
  51. Contributions et originalités Catherine Soladié, Nicolas Stoiber, Renaud Séguier A

    new invariant representation of facial expressions: definition and application to blended expression recognition, IEEE International Conference on Image Processing (ICIP), Orlando, Florida, U.S.A., Sept.-Oct. 2012, pp.2617-2620 EXPRESSIONS FACIALES Invariant : Organisation des expressions Représentation par signature direction- intensité : Une expression est définie par sa position relative par rapport aux autres expressions Robustesse de la représentation : par rapport aux types de données par rapport à la dimensionnalité de l’espace Système flexible : Sur des personnes inconnues, création d’un espace plausible EMOTIONS Détection du rire par méthode de zone- intensité Mise en œuvre d’un système multimodal incluant des informations de contexte (empathie) Comparaison de méthodes de fusion des données multimodales (système d’inférence floue vs. fonctions de bases radiales) TRAVAUX EN COURS Modèles bilinéaires Catherine Soladié, Nicolas Stoiber, Renaud Séguier Invariant Representation for Facial Expressions for Blended Expression Recognition on Unknown Subjects, International Journal Computer Vision and Image Understanding (CVIU), Elsevier, Vol 117, Issue 11, Nov 2013, pp. 1598–1609 Catherine Soladié, Hanan Salam, Catherine Pelachaud, Nicolas Stoiber, Renaud Séguier A Multimodal Fuzzy Inference System Using a Continuous Facial Expression Representation for Emotion Detection ACM International Conference on Multimodal Interaction (ICMI), 2nd International Audio/Visual Emotion Challenge and Workshop -AVEC 2012 , Santa Monica, California, U.S.A., Oct. 2012, pp. 493-500 Catherine Soladié, Hanan Salam, Nicolas Stoiber, Renaud Séguier Continuous Facial Expression Representation for Multimodal Emotion Detection, International Journal of Advanced Computer Science (IJACSci), Vol 3, No5, mai 2013, pp. 202-216 Catherine Soladié, Nicolas Stoiber, Renaud Séguier Création de l’espace des expressions faciales à partir de modèles bilinéaires asymétriques XXIVème Colloque GRETSI, 3-6 Septembre 2013, Brest, France Catherine Soladié, Nicolas Stoiber, Renaud Séguier Bilinear Decomposition for Blended Expression Representation, IEEE Visual Communication and Image Processing (VCIP), Malaysia, Nov 2013 Publications 59
  52. 60