Multi-view imaging: depth estimation and enhancement

Navarro Oliver, Julia

Home
→
Producció científica
→
Tesis doctorals
→
View Item

Multi-view imaging: depth estimation and enhancement

Navarro Oliver, Julia

URI: http://hdl.handle.net/11201/150580

Date: 2019

Submission date: 2020-01-13

Abstract:

[cat] Multi-view imaging és el procés d’utilitzar múltiples càmeres per capturar diverses imatges de l’escena. En aquesta tesi, hem estudiat els problemes d’estimació de la profunditat i l’increment de la resolució espacial i angular donades diverses captures de la mateixa escena. En el primer capítol, ens centrem en el cas de dues imatges i desenvolupem un mètode per a l’estimació de la profunditat que combina estratègies locals i globals. En primer lloc, presentem un nou algoritme local d’estèreo per establir correspondències entre les dues imatges. Adoptem un mètode de pesos de suport adaptatiu, en el qual la distribució de pesos afavoreix als píxels de l’entorn que comparteixen el mateix desplaçament amb el píxel de referència. Donat que la funció de disparitat és desconeguda, li assignem més pes als píxels dins l’entorn que tenen un cost menor, ja que suposadament aquests tenen el desplaçament provat. A més, utilitzem un esquema piramidal i diversos criteris de validació per a descartar possibles errors en l’estimació i proporcionar un resultat robust. En segon lloc, proposem l’aplicació d’un mètode global per a interpolar i filtrar l’estimació local. Per a aquest propòsit presentem dos mètodes variacionals: un mètode basat en formulacions de flux òptic i un model que combina la variació total i la regularització no local. Aquests dos mètodes augmenten la precisió de l’estimació local, que té una precisió finita. En el següent capítol tractem el cas de múltiples vistes i desenvolupem un algoritme d’estèreo per a imatges light field. Aquestes imatges es poden considerar com una col·lecció d’imatges 2D, adquirides des de diferents punts de vista organitzats en una quadrícula regular. Aprofitem aquesta configuració i calculem mapes de disparitat a partir de parells de vistes específics, utilitzant el mètode desenvolupat en el primer capítol. Finalment, combinem els mapes de disparitat estimats a partir dels diferents parells de vistes per obtenir una estimació única i robusta. En el tercer i quart capítol, estudiem el problema de l’increment de la resolució donades múltiples vistes de l’escena, per a ambdues dimensions espacial i angular, respectivament. El mètode d’increment de la resolució espacial l’apliquem a vídeos, light fields i vídeos de profunditat. En el darrer cas, assumim la disponibilitat de la corresponent seqüència d’imatges a color de la resolució desitjada. El mètode consisteix en tres passes: registre de les imatges, increment de la resolució i deconvolució. El registre de vídeos s’obté a partir del mètode clàssic de flux òptic TV-L1, mentre que els desplaçaments entre les vistes de les imatges light field s’estimen utilitzant el mètode presentat en el segon capítol. L’estratègia per a l’increment de la resolució combina entorns de píxels de les diferents imatges que no pertanyen necessàriament a la mateixa trajectòria. Per a la deconvolució, utilitzem un model variacional que combina la variació total i la regularització no local. Finalment, en el quart capítol ens centrem en augmentar la resolució angular d’imatges light field. En particular, proposem un mètode basat en tècniques d’aprenentatge que, a partir de les quatre vistes dels cantons, genera la imatge del centre. Utilitzem tres xarxes neuronals convolucionals de manera seqüencial per a l’extracció de característiques, estimació de la geometria de l’escena i selecció de vistes. Al contrari de l’estat de l’art, tractem de manera particular les oclusions, permetent que la xarxa neuronal estimi un mapa de disparitat diferent per cada vista. Aquesta estratègia mostra tenir molta importància per obtenir reconstruccions adequades al voltant dels contorns dels objectes i oclusions. El mètode presentat s’aplica inicialment a light fields capturats amb càmeres plenòptiques. Això no obstant, adaptem i apliquem el mètode a light fields amb majors baselines capturats amb arrays de càmeres.

[spa] Multi-view imaging es el proceso de utilizar múltiples cámaras para capturar diversas imágenes de la escena. En esta tesis, hemos estudiado los problemas de estimación de la profundidad y el incremento de la resolución espacial y angular dadas diversas capturas de la misma escena. En el primer capítulo, nos centramos en el caso de dos imágenes y desarrollamos un método para la estimación de la profundidad que combina estrategias locales y globales. En primer lugar, presentamos un nuevo algoritmo local de estéreo para establecer correspondencias entre las dos imágenes. Adoptamos un método de pesos de soporte adaptativo, tal que la distribución de pesos favorece a los píxeles del entorno que comparten el mismo desplazamiento con el píxel de referencia. Dado que la función de disparidad es desconocida, le asignamos más peso a los píxeles del entorno que tienen un coste menor, ya que supuestamente estos tienen el desplazamiento probado. Además, utilizamos un esquema piramidal y criterios de validación para descartar posibles errores y proporcionar una estimación robusta. En segundo lugar, proponemos la aplicación de un método global para interpolar y filtrar la estimación local. Para este propósito presentamos dos métodos variacionales: uno basado en formulaciones de flujo óptico y un modelo que combina la variación total y la regularización no local. Estos dos métodos aumentan la precisión de la estimación local, que tiene una precisión finita. En el siguiente capítulo tratamos el caso de múltiples vistas y desarrollamos un algoritmo de estéreo para imágenes light field. Estas imágenes pueden considerarse como una colección de imágenes 2D, adquiridas desde diferentes puntos de vista organizados en una cuadrícula regular. Aprovechamos esta configuración y calculamos mapas de disparidad a partir de pares de vistas específicos utilizando el método desarrollado en el primer capítulo. Finalmente, combinamos los mapas de disparidad a partir de los diferentes pares de vistas para obtener una solución única y robusta. En el tercer y cuarto capítulo, estudiamos el problema del incremento de la resolución de múltiples vistas para ambas dimensiones, espacial y angular. El método de incremento de la resolución espacial lo aplicamos a videos, light fields y videos de profundidad. En el último caso asumimos la disponibilidad de la correspondiente secuencia de imágenes a color de la resolución deseada. El método consiste en tres pasos: registro de las imágenes, incremento de la resolución y deconvolución. El registro de vídeos se obtiene a partir del método clásico de flujo óptico TV-L1, mientras que los desplazamientos entre las vistas de las imágenes light field se estiman utilizando el método presentado en el segundo capítulo. La estrategia de incremento de resolución combina entornos de varias imágenes, que no pertenecen necesariamente a la misma trayectoria. Para la deconvolución, utilizamos un modelo que combina la variación total y la regularización no local. Finalmente, en el cuarto capítulo nos centramos en aumentar la resolución angular de imágenes light field. En particular, proponemos un método basado en técnicas de aprendizaje que, a partir de las cuatro vistas de las esquinas, genera la imagen del centro. Utilizamos tres redes neuronales convolucionales de manera secuencial para la extracción de características, estimación de la geometría de la escena y selección de vistas. Al contrario del estado del arte, tratamos de manera particular las oclusiones, permitiendo que la red neuronal estime un mapa de disparidad diferente por vista. Esta estrategia muestra tener mucha importancia para obtener reconstrucciones adecuadas alrededor de los contornos de los objetos y oclusiones. El método presentado se aplica inicialmente a light fields capturados con cámaras plenópticas. Sin embargo, adaptamos y aplicamos el método a light fields con mayores baselines, capturados con arrays de cámaras.

[eng] Multi-view imaging is the process of using multiple cameras to capture several pictures from the scene. In this thesis, we have studied the problems of depth estimation, spatial and angular super-resolution given multiple images of the scene. In the first chapter, we focus on the two-view case and develop a novel approach for depth estimation. We propose the combination of local and global strategies. First, a novel local stereo matching algorithm is presented. We adopt an adaptive support weights approach in which the weight distribution favours pixels in the block sharing the same displacement with the reference one. Compared to state-of-the-art algorithms, which make these weights only depend on the image configuration around the reference pixel, we propose a weight function that additionally depends on the tested disparity. Since the disparity function is unknown, we give more weight to those pixels in the block matching with smaller cost, as these are supposed to have the tested displacement. A multi-scale strategy and validation criteria are used to only keep reliable matches and provide a robust estimation. Then, we propose the use of a global filtering and interpolation stage. We present two different variational methods for this purpose. First, an approach based on optical flow formulations that, compared to existing techniques, it is robust to illumination changes and makes use of the local stereo result from different resolutions. Second, a model that combines total variation and non-local regularization. These two variational methods increase the precision of the local estimation, which has a finite precision. In the next chapter we deal with the multi-view case. In particular, we develop a stereo algorithm for light field images. Light field images can be considered as a collection of 2D images acquired from different viewpoints that are arranged on a regular grid. We exploit this configuration and compute two-view disparity maps between specific pairs of views using the strategy developed in the first chapter. Disparities obtained from several pairs of views are fused to obtain a unique and robust estimation. In the third and fourth chapters we study the super-resolution problem for the multi-view setting in spatial and angular dimensions, respectively. The spatial superresolution approach is applied to videos, light fields and depth videos. Where in the last case we assume the availability of the corresponding high-resolution optical frames. The proposed approach comprises inter-frame registration, upsampling and deconvolution. The registration of videos is achieved through the TV-L1 optical flow method, while the displacements between sub-aperture light field images are estimated using the method introduced in the second chapter. The upsampling strategy combines patches from several frames not necessarily belonging to the same pixel trajectory. The selection of these patches is robust to flow inaccuracies, noise and aliasing. For deconvolution, we propose a variational model which combines total variation with non-local regularization. Finally, in the fourth chapter we focus on angular super-resolution for light field images. Specifically, we propose a learning-based approach that, from the four corner sub-aperture images, synthesizes the center one. We use three sequential convolutional neural networks for feature extraction, scene geometry and view selection. Compared to state-of-the-art approaches, we particularly treat occlusions by letting the network to estimate a different disparity map per view. Jointly with the view selection network, this strategy shows to be the most important to have proper reconstructions near object boundaries. The method, which is initially tailored and tested on plenoptic light fields, is also adapted and tested on wide-baseline light fields.

Show full item record