Soutenance HDR : Structuration par analyse du contenu des collections d'images fixes et animées valerie . gouet
From: valerie.gouet AT cnam.fr
To: rilk-conf AT rilk.com
Cc:
Subject: Soutenance HDR : Structuration par analyse du contenu des collections d'images fixes et animées
Date: Fri, 14 Nov 2008 14:41:08 +0100
Gouet-Brunet Valérie
sountient sa these
HDR : Structuration par analyse du contenu des collections d'images fixes et
animées.
le 02/12/2008
a CNAM Paris, Amphi Abbé Grégoire (Amphi C).
Directeur: Michel Scholl
Directeur: valerie.gouet@cnam.fr
Jury: Eric Pauwels (CWI, Amsterdam) - rapporteur
Sylvie Philipp-Foliguet (ENSEA, Cergy-Pontoise) - rapporteur
Shin'ichi Satoh (NII, Tokyo) - rapporteur
Patrick Gallinari (Université Pierre et Marie Curie, Paris)
Geneviève Jomier (Université Paris-Dauphine, Paris)
Henri Maître (TELECOM ParisTech, Paris)
Nozha Boujemaa (INRIA, Rocquencourt)
Michel Scholl (CNAM, Paris)
Labo: CEDRIC/CNAM
Mot-clef: Image, Vidéo, CBIR, Descripteurs locaux, Points d'intérêt,
Reconnaissance d'objets, Détection de copies, Structures d'index
multidimensionnelles, Malédiction de la dimension, Requêtes multiples,
Passage à l'échelle
Resume: Ce document présente une synthèse de mon activité de recherche depuis
2001, date qui correspond à la fin de ma thèse. Mon domaine de recherche est
l'indexation par analyse du contenu visuel des grandes collections
d'images fixes et animées. J'ai exploré cette problématique sous l'angle de
l'analyse d'images en vue de proposer de nouveaux descripteurs des contenus
visuels, mais aussi sous l'angle des bases de données par l'étude de
nouvelles méthodes d'accès multidimensionnelles dédiées aux bases d'images.
La plus grande partie de mon travail repose sur la
notion de description locale par extraction de points d'intérêt. Populaire
par sa robustesse aux transformations de l'image, cette catégorie d'approches
souffre l'inconvénients que je me suis attachée à étudier et à minimiser pour
plusieurs applications manipulant des
contenus image et vidéo. Son premier défaut réside dans la relative pauvreté
de la description mise en jeu, puisque extraite localement et donc
représentant assez mal les entités décrites. Nous avons traité ce problème
selon trois directions : (1) la proposition de mesures de similarité fines
entre deux images décrites par des descripteurs locaux
(2) la combinaison de descripteurs visuels hétérogènes, incluant plusieurs
types de descripteurs locaux et globaux, avec comme objectif de mettre en
avant les avantages de chaque type pour la reconnaissance d'objets et (3) la
caractérisation du comportement spatio-temporel des
descripteurs locaux pour améliorer la détection de copies dans les vidéos. Le
second défaut majeur des approches locales porte sur l'énorme volume de
caractéristiques multidimensionnelles généré, rendant la recherche dans les
grandes collections d'images difficilement réalisable
sans l'aide de méthodes d'accès dédiées. Après avoir revisité les phénomènes
de la malédiction de la dimension pour les structures d'index classiques en
bases de données appliquées aux bases de descripteurs d'images, nous avons
proposé (1) des stratégies permettant d'optimiser la recherche à partir de
requêtes multiples, i.e. les requêtes composées de plusieurs vecteurs (comme
c'est le cas avec les descripteurs locaux) et (2) un modèle hiérarchique
permettant d'accélérer la recherche exacte, approximative et progressive des
plus proches voisins dans les grands volumes de données multidimensionnelles.
Cette synthèse se
termine par une présentation de mon travail actuel, dans la continuité des
activités sus-citées ainsi que vers de nouvelles directions de recherche
telles que l'intégration de l'information spatiale dans la représentation des
contenus visuels.
Keyword: Image, Video, CBIR, Local descriptors, Interest points, Object
recognition, Copy detection, Multidimensional index structures, Curse of
dimensionality, Multiple queries, Scalability
Abstract: This document presents a synthesis of my research activity since
2001, which corresponds to the end of my PhD thesis. The research domain I
investigate is content-based indexing of still and animated images. I have
explored this area under the viewpoint of image analysis for the proposal of
new descriptors of visual contents, as well as under the
viewpoint of databases by studying new multidimensional access methods
dedicated to visual contents collections. Most of my activity rests on the
approaches of local description based on interest points extraction. Popular
because of their robustness to image transformations, these
approaches suffer from drawbacks that motivated my research for several kinds
of applications manipulating image and video contents. Their first weakness
concerns the relative poorness of the involved description, since locally
extracted and then representing the whole object contents
not sufficiently. We have addressed this problem according to three
directions: (1) the proposal of fine similarity measures between two images
described locally (2) the combination of heterogeneous visual descriptors,
including several categories of local and global features, with the aim of
exhibiting the richness of each category for object
recognition applied to video surveillance and (3) the description of the
spatio-temporal behavior of local descriptors for improving copy detection in
video sequences. The second drawback of local approaches rests on the high
volume of multidimensional features generated, making unachievable search in
large collections of contents without dedicated access methods. After having
revisited the curse of dimensionality phenomena for the state-of-the-art
index structures on image databases,
we proposed (1) strategies for improving retrieval when considering multiple
queries, i.e. queries composed of several vectors (such as with local
descriptors) and (2) a hierarchical model enabling to accelerate nearest
neighbors search in high-dimensional feature spaces, under exact, approximate
and progressive retrieval scenarios. This synthesis ends with the
presentation of my actual work, in the continuity of the aforementioned
activities as well as towards new research directions such as the description
of the spatial layout of the visual contents.