[cat] Amb els avenços habilitats per la recent aparició de models de transformers multimodals basats en l’atenció, hi ha hagut un creixement significatiu en el domini científic de la comprensió visual de documents (VDU). Tot i que els rendiments són molt alts en aquests estudis, les precisions sovint no es generalitzen quan s’empren dades adquirides en condicions no controlades (conegudes com a dades in the wild o dades crues). Aquest repte és especialment pronunciat quan es tracta de rebuts de compres en format paper, ja que presenten dissenys diversos, diferents tipus de lletra, gran varietat d’idiomes i són capturats en diversos entorns. En aquest treball, presentem un procés format per un conjunt de passes òptim que té la capacitat d’adaptar-se a les dades crues. El procés que es presenta consta d’una sèrie de passos: en primer lloc, es realitza l’eliminació de qualsevol soroll de l’entrada, en segon lloc, s’identifica la regió d’interès per al model de VDU. En concret, s’ha utilitzat la xarxa U2-Net per a la segmentació, YOLOv7 per a la detecció de regions i el model DONUT extensible d’extrem a extrem per extreure informació textual i estructurar-la. Empíricament, el procés dissenyat millora significativament les prediccions de l’estat de l’art, assolint una precisió d’edició d’arbres (TED) del 62,16% i la puntuació f1 del 74,88%. A més, la transparència i la generalitat de la solució contribueixen a la seva importància en el domini de recerca limitat de l’anàlisi de documents adquirits en condicions no controlades.