[cat] Multi-view imaging és el procés d’utilitzar múltiples càmeres per capturar diverses
imatges de l’escena. En aquesta tesi, hem estudiat els problemes d’estimació de la
profunditat i l’increment de la resolució espacial i angular donades diverses captures
de la mateixa escena.
En el primer capítol, ens centrem en el cas de dues imatges i desenvolupem un
mètode per a l’estimació de la profunditat que combina estratègies locals i globals.
En primer lloc, presentem un nou algoritme local d’estèreo per establir
correspondències entre les dues imatges. Adoptem un mètode de pesos de suport
adaptatiu, en el qual la distribució de pesos afavoreix als píxels de l’entorn que
comparteixen el mateix desplaçament amb el píxel de referència. Donat que la
funció de disparitat és desconeguda, li assignem més pes als píxels dins l’entorn que
tenen un cost menor, ja que suposadament aquests tenen el desplaçament provat.
A més, utilitzem un esquema piramidal i diversos criteris de validació per a
descartar possibles errors en l’estimació i proporcionar un resultat robust. En segon
lloc, proposem l’aplicació d’un mètode global per a interpolar i filtrar l’estimació
local. Per a aquest propòsit presentem dos mètodes variacionals: un mètode basat
en formulacions de flux òptic i un model que combina la variació total i la
regularització no local. Aquests dos mètodes augmenten la precisió de l’estimació
local, que té una precisió finita.
En el següent capítol tractem el cas de múltiples vistes i desenvolupem un algoritme
d’estèreo per a imatges light field. Aquestes imatges es poden considerar com una
col·lecció d’imatges 2D, adquirides des de diferents punts de vista organitzats en
una quadrícula regular. Aprofitem aquesta configuració i calculem mapes de
disparitat a partir de parells de vistes específics, utilitzant el mètode desenvolupat
en el primer capítol. Finalment, combinem els mapes de disparitat estimats a partir
dels diferents parells de vistes per obtenir una estimació única i robusta.
En el tercer i quart capítol, estudiem el problema de l’increment de la resolució
donades múltiples vistes de l’escena, per a ambdues dimensions espacial i angular,
respectivament. El mètode d’increment de la resolució espacial l’apliquem a vídeos,
light fields i vídeos de profunditat. En el darrer cas, assumim la disponibilitat de la
corresponent seqüència d’imatges a color de la resolució desitjada. El mètode
consisteix en tres passes: registre de les imatges, increment de la resolució i
deconvolució. El registre de vídeos s’obté a partir del mètode clàssic de flux òptic
TV-L1, mentre que els desplaçaments entre les vistes de les imatges light field
s’estimen utilitzant el mètode presentat en el segon capítol. L’estratègia per a
l’increment de la resolució combina entorns de píxels de les diferents imatges que
no pertanyen necessàriament a la mateixa trajectòria. Per a la deconvolució,
utilitzem un model variacional que combina la variació total i la regularització no
local.
Finalment, en el quart capítol ens centrem en augmentar la resolució angular
d’imatges light field. En particular, proposem un mètode basat en tècniques
d’aprenentatge que, a partir de les quatre vistes dels cantons, genera la imatge del
centre. Utilitzem tres xarxes neuronals convolucionals de manera seqüencial per a
l’extracció de característiques, estimació de la geometria de l’escena i selecció de
vistes. Al contrari de l’estat de l’art, tractem de manera particular les oclusions,
permetent que la xarxa neuronal estimi un mapa de disparitat diferent per cada
vista. Aquesta estratègia mostra tenir molta importància per obtenir
reconstruccions adequades al voltant dels contorns dels objectes i oclusions. El
mètode presentat s’aplica inicialment a light fields capturats amb càmeres
plenòptiques. Això no obstant, adaptem i apliquem el mètode a light fields amb
majors baselines capturats amb arrays de càmeres.
[spa] Multi-view imaging es el proceso de utilizar múltiples cámaras para capturar
diversas imágenes de la escena. En esta tesis, hemos estudiado los problemas de
estimación de la profundidad y el incremento de la resolución espacial y angular
dadas diversas capturas de la misma escena.
En el primer capítulo, nos centramos en el caso de dos imágenes y desarrollamos un
método para la estimación de la profundidad que combina estrategias locales y
globales. En primer lugar, presentamos un nuevo algoritmo local de estéreo para
establecer correspondencias entre las dos imágenes. Adoptamos un método de
pesos de soporte adaptativo, tal que la distribución de pesos favorece a los píxeles
del entorno que comparten el mismo desplazamiento con el píxel de referencia.
Dado que la función de disparidad es desconocida, le asignamos más peso a los
píxeles del entorno que tienen un coste menor, ya que supuestamente estos tienen
el desplazamiento probado. Además, utilizamos un esquema piramidal y criterios de
validación para descartar posibles errores y proporcionar una estimación robusta.
En segundo lugar, proponemos la aplicación de un método global para interpolar y
filtrar la estimación local. Para este propósito presentamos dos métodos
variacionales: uno basado en formulaciones de flujo óptico y un modelo que
combina la variación total y la regularización no local. Estos dos métodos aumentan
la precisión de la estimación local, que tiene una precisión finita.
En el siguiente capítulo tratamos el caso de múltiples vistas y desarrollamos un
algoritmo de estéreo para imágenes light field. Estas imágenes pueden considerarse
como una colección de imágenes 2D, adquiridas desde diferentes puntos de vista
organizados en una cuadrícula regular. Aprovechamos esta configuración y
calculamos mapas de disparidad a partir de pares de vistas específicos utilizando el
método desarrollado en el primer capítulo. Finalmente, combinamos los mapas de
disparidad a partir de los diferentes pares de vistas para obtener una solución única
y robusta.
En el tercer y cuarto capítulo, estudiamos el problema del incremento de la
resolución de múltiples vistas para ambas dimensiones, espacial y angular. El
método de incremento de la resolución espacial lo aplicamos a videos, light fields y
videos de profundidad. En el último caso asumimos la disponibilidad de la
correspondiente secuencia de imágenes a color de la resolución deseada. El método
consiste en tres pasos: registro de las imágenes, incremento de la resolución y
deconvolución. El registro de vídeos se obtiene a partir del método clásico de flujo
óptico TV-L1, mientras que los desplazamientos entre las vistas de las imágenes
light field se estiman utilizando el método presentado en el segundo capítulo. La
estrategia de incremento de resolución combina entornos de varias imágenes, que
no pertenecen necesariamente a la misma trayectoria. Para la deconvolución,
utilizamos un modelo que combina la variación total y la regularización no local.
Finalmente, en el cuarto capítulo nos centramos en aumentar la resolución angular
de imágenes light field. En particular, proponemos un método basado en técnicas de
aprendizaje que, a partir de las cuatro vistas de las esquinas, genera la imagen del
centro. Utilizamos tres redes neuronales convolucionales de manera secuencial para
la extracción de características, estimación de la geometría de la escena y selección
de vistas. Al contrario del estado del arte, tratamos de manera particular las
oclusiones, permitiendo que la red neuronal estime un mapa de disparidad diferente
por vista. Esta estrategia muestra tener mucha importancia para obtener
reconstrucciones adecuadas alrededor de los contornos de los objetos y oclusiones.
El método presentado se aplica inicialmente a light fields capturados con cámaras
plenópticas. Sin embargo, adaptamos y aplicamos el método a light fields con
mayores baselines, capturados con arrays de cámaras.
[eng] Multi-view imaging is the process of using multiple cameras to capture several
pictures from the scene. In this thesis, we have studied the problems of depth
estimation, spatial and angular super-resolution given multiple images of the scene.
In the first chapter, we focus on the two-view case and develop a novel approach for
depth estimation. We propose the combination of local and global strategies. First,
a novel local stereo matching algorithm is presented. We adopt an adaptive support
weights approach in which the weight distribution favours pixels in the block
sharing the same displacement with the reference one. Compared to state-of-the-art
algorithms, which make these weights only depend on the image configuration
around the reference pixel, we propose a weight function that additionally depends
on the tested disparity. Since the disparity function is unknown, we give more
weight to those pixels in the block matching with smaller cost, as these are
supposed to have the tested displacement. A multi-scale strategy and validation
criteria are used to only keep reliable matches and provide a robust estimation.
Then, we propose the use of a global filtering and interpolation stage. We present
two different variational methods for this purpose. First, an approach based on
optical flow formulations that, compared to existing techniques, it is robust to
illumination changes and makes use of the local stereo result from different
resolutions. Second, a model that combines total variation and non-local
regularization. These two variational methods increase the precision of the local
estimation, which has a finite precision.
In the next chapter we deal with the multi-view case. In particular, we develop a
stereo algorithm for light field images. Light field images can be considered as a
collection of 2D images acquired from different viewpoints that are arranged on a
regular grid. We exploit this configuration and compute two-view disparity maps
between specific pairs of views using the strategy developed in the first chapter.
Disparities obtained from several pairs of views are fused to obtain a unique and
robust estimation.
In the third and fourth chapters we study the super-resolution problem for the
multi-view setting in spatial and angular dimensions, respectively. The spatial superresolution approach is applied to videos, light fields and depth videos. Where in the
last case we assume the availability of the corresponding high-resolution optical
frames. The proposed approach comprises inter-frame registration, upsampling and
deconvolution. The registration of videos is achieved through the TV-L1 optical flow
method, while the displacements between sub-aperture light field images are
estimated using the method introduced in the second chapter. The upsampling
strategy combines patches from several frames not necessarily belonging to the
same pixel trajectory. The selection of these patches is robust to flow inaccuracies,
noise and aliasing. For deconvolution, we propose a variational model which
combines total variation with non-local regularization.
Finally, in the fourth chapter we focus on angular super-resolution for light field
images. Specifically, we propose a learning-based approach that, from the four
corner sub-aperture images, synthesizes the center one. We use three sequential
convolutional neural networks for feature extraction, scene geometry and view
selection. Compared to state-of-the-art approaches, we particularly treat occlusions
by letting the network to estimate a different disparity map per view. Jointly with the
view selection network, this strategy shows to be the most important to have proper
reconstructions near object boundaries. The method, which is initially tailored and
tested on plenoptic light fields, is also adapted and tested on wide-baseline light
fields.