[spa] En este trabajo de fin de máster se han estudiado y analizado las dificultades de los sistemas de reconocimiento automático de emociones en condiciones reales y se han comparado con el reconocimiento de emociones en condiciones controladas. Se ha usado como dataset de imágenes y audio en condiciones reales el dataset AFEW y se han implementado y evaluado modelos unimodales basados en redes convolucionales, estudiando cada tipo de entrada de manera independiente. Además, se han explorado las posibilidades del transfer learning para este tipo de sistemas. Finalmente, con el objetivo de estudiar si la incorporación del audio a un sistema basado en imágenes o vídeo comportaba una mejora de los resultados, se han analizado e implementado distintos modelos de combinación. El sistema combinado propuesto ha obtenido una accuracy del 45 %, mejorando los resultados de los modelos unimodales y demostrando que la incorporación de la señal de audio al modelo resulta positiva.
[eng] In this Master’s Thesis, the challenges of automatic emotion
recognition systems in the wild have been studied and analyzed
and they have been compared to automatic emotion recognition in controlled conditions. The AFEW dataset has been
used as an image and audio in the wild dataset. Unimodal
models based on convolutional neural networks have been
implemented and evaluated studying each kind of input independently. Furthermore, the possibilities of transfer learning
for this kind of system have been explored. Finally, with the
aim of studying whether the incorporation of audio signal into
an image or video based system entailed an improvement in
the results, different combination models have been analyzed
and implemented. The proposed combined model obtained an
accuracy of 45 % proving that the incorporation of the audio
signal to the model is positive.