[cat] La obesidad es un problema de salud grave que ha aumentado considerablemente en las ´ultimas
d´ecadas y que afecta a un n´umero significativo de ni˜nos en todo el mundo. Existen estudios que
indican que la obesidad est´a relacionada con la microbiota intestinal. En este trabajo utilizamos
diferentes algoritmos de aprendizaje autom´atico para tratar de predecir la obesidad infantil a partir
de los datos de microbiota de m´as de 1000 ni˜nos con edades entre los 3 y 7 a˜nos. Los datos se
preprocesan y normalizan con dos m´etodos diferentes, abundancia relativa y log centered rate antes
de utilizarlos en los algoritmos de aprendizaje autom´atico. En una primera fase se aplican dos
t´ecnicas de aprendizaje no supervisado (UMAP y t-SNE) para estudiar los datos en un espacio
de dimensiones m´as reducidas. En esta parte no se encuentra ninguna relaci´on significativa entre
la representaci´on en dos dimensiones de esos datos y variables como la edad, el sexo o el peso.
A continuaci´on se usan cuatro algoritmos diferentes de aprendizaje supervisado (Support Vector
Machines, Random Forest, Gradient Boosting y Logistic Regression) para clasificar a los ni˜nos en
dos categorias (normopeso y obesidad o sobrepeso). Los mejores resultados son los obtenidos para los
datos normalizados mediante log centered rate y se obtienen con los modelos de Gradient Boosting y
Logistic Regression. Para intentar mejorar los resultados obtenidos se utilizan tres nuevos algoritmos
que nos permiten seleccionar las caracter´ısticas m´as relevantes (Information Gain, Select K Best y
Boruta), sin embargo, no se consiguen grandes mejoras. Finalmente, se realiza una comparaci´on de
los resultados obtenidos con la literatura cient´ıfica.
[spa] L’obesitat ´es un problema de salut greu que ha augmentat considerablement en les darreres
d`ecades i que afecta un nombre significatiu de nins a tot el m´on. Hi ha estudis que indiquen que
l’obesitat est`a relacionada amb la microbiota intestinal. En aquest treball farem servir diferents
algorismes d’aprenentatge autom`atic per intentar predir l’obesitat infantil a partir de les dades de
microbiota de m´es de 1000 nins amb edats entre 3 i 7 anys. Les dades es preprocessen i normalitzen
amb dos m`etodes diferents, abund`ancia relativa i log centered rate abans d’utilitzar-los en els al gorismes d’aprenentatge autom`atic. En una primera fase, s’apliquen dues t`ecniques d’aprenentatge
no supervisat (UMAP i t-SNE) per estudiar les dades en un espai de dimensions m´es redu¨ıdes. En
aquesta part no hi ha cap relaci´o significativa entre la representaci´o en dues dimensions d’aquestes
dades i variables com l’edat, el sexe o el pes. A continuaci´o es fan servir quatre algorismes dife rents d’aprenentatge supervisat (Support Vector Machines, Random Forest, Gradient Boosting i
Logistic Regression) per classificar els nins en dues categories (normop`es i obesitat o exc´es de pes).
Els millors resultats s´on els obtinguts per a les dades normalitzades mitjan¸cant log centered rate
i s’obtenen amb els models de Gradient Boosting i Logistic Regression. Per intentar millorar els
resultats assolits s’utilitzen tres nous algorismes que ens permeten seleccionar les caracter´ıstiques
m´es rellevants (Information Gain, Select K Best i Boruta), per`o no s’aconsegueixen grans millores.
Finalment, es fa una comparaci´o dels resultats obtinguts amb la literatura cient´ıfica.
[eng] Obesity is a serious health problem that has increased considerably in recent decades and
affects a significant number of children worldwide. There are studies that indicate that obesity
is related to gut microbiota. In this work we use different machine learning algorithms to try to
predict childhood obesity from the microbiota data of more than 1000 children aged between 3 and
7 years. The data are preprocessed and normalized with two different methods, relative abundance
and log centered rate before using them in the machine learning algorithms. In a first phase, two
unsupervised learning techniques (UMAP and t-SNE) are applied to study the data in a space of
smaller dimensions. In this part, no significant relationship is found between the two-dimensional
representation of these data and variables such as age, sex or weight. Four different supervised
learning algorithms (Support Vector Machines, Random Forest, Gradient Boosting and Logistic
Regression) are then used to classify children into two categories (normal weight and obesity or
overweight). The best results are obtained for data normalized by log centered rate with the Gradient
Boosting and Logistic Regression models. In order to try to improve the results obtained, three new
algorithms are used to select the most relevant characteristics (Information Gain, Select K Best
and Boruta), but no great improvements are achieved. Finally, a comparison of the results obtained
with the scientific literature is made.