[spa] El reconocimiento de escenas previamente visitadas es una tarea compleja y ampliamente abordada, con múltiples aplicaciones en labores diversas, muy especialmente
en robótica. Aunque resulta algo cotidiano y sencillo en la mayoría de ocasiones para
un ser humano, supone un reto computacional que requiere de la captura de un conjunto de datos del entorno, la extracción de las características más relevantes de esa
información y su descripción, de manera que podamos comparar esa definición de la
escena con la información previamente capturada y así poder detectar si hemos vuelto
al mismo emplazamiento. Por si fuera poco, debemos considerar que puede haber
modificaciones en la percepción del entorno, ya sea por cambios en la perspectiva del
observador o en los propios elementos que componen la escena. Cuando estos datos
del entorno se toman en forma de imágenes, hablamos de reconocimiento visual de
escenas, tema sobre el que trata este proyecto. Tal y como se ha comentado, existen muchas aproximaciones a esta problemática en lo referente a como abordar la descripción
de la imagen y la extracción de sus características. Algunas de ellas se basan en descriptores holísticos que aglutinan la información de la imagen en un solo vector, mientras
que otras identifican los puntos más relevantes de la escena (bordes, esquinas, etc.), los
definen y componen una descripción de la escena basada en esos puntos. Esta última
estrategia tiene una alta precisión, a costa de una mayor exigencia computacional. Este
trabajo afronta la problemática mediante una solución intermedia, conocida como
superpíxeles, que dividen la escena en regiones mediante algoritmos de segmentación,
tratando de mejorar así el rendimiento de los enfoques tradicionales. Para ello, se evalúan diferentes algoritmos de superpíxeles públicos según unas métricas específicas
con vistas a seleccionar aquellos que se ajusten mejor a la aplicación que nos ocupa.
Posteriormente, con las técnicas escogidas, se consideran diversas herramientas de
descripción basadas en características locales, así como recursos más avanzados como
puedan ser descriptores producidos por redes neuronales convolucionales. Por último,
los elementos escogidos conforman una serie de estrategias que procederán a evaluarse
frente a secuencias de imágenes que comprenden cierres de bucle, para determinar la
capacidad de reconocimiento de escenas previamente visitadas. De cada uno de los
procesos se exponen un conjunto de conclusiones basadas en los resultados obtenidos,
así como del recorrido experimental completo que recoge este trabajo.