[spa] El ritmo al que crecen los datos en la sociedad actual y la llegada de la tecnolog´ıa
de transistor a sus l´ımites de tama˜no exige la puesta en marcha de soluciones
para el procesado de estos datos de manera eficiente en campos espec´ıficos
de aplicaci´on.
Esta Tesis doctoral de car´acter transdisciplinar y a medio camino entre la ingenier´ıa
electr´onica y la qu´ımica computacional presenta soluciones optimizadas
en hardware (HW) y en software (SW) para el procesado de bases de datos moleculares.
En la v´ıa HW se propone y estudia el funcionamiento de bloques digitales
que implementan funciones en l´ogica pulsante estoc´astica enfocadas a tareas de
reconocimiento de objetos. Especialmente se proponen y analizan dise˜nos digitales
para la construcci´on de generadores de n´umeros aleatorios (RNG) como base
de estos sistemas implementados en dispositivos Field Programable Gate Array
(FPGA).
Entre las dos v´ıas de desarrollo (HW y SW), se propone y eval´ua un conjunto
reducido de descriptores moleculares orientados a la caracterizaci´on de compuestos
org´anicos. Estos descriptores recogen informaci´on sobre la distribuci´on de
carga y se utilizan tambi´en en los sistemas de computaci´on estoc´astica en HW.
Finalmente se proponen optimizaciones para el c´alculo del potencial electrost´atico
molecular (MEP) calculado con la teor´ıa del funcional de la densidad (DFT)
y de los puntos de interacci´on molecular derivados (SSIP). Tambi´en se propone
un m´etodo muy r´apido para el c´alculo del MEP.
Por una parte, los resultados obtenidos ponen de manifiesto la importancia
de la uniformidad del RNG en el per´ıodo de evaluaci´on para poder implementar
sistemas de computaci´on estoc´astica de alta fiabilidad. Adem´as, los RNG
propuestos tienen una aleatoriedad aperi´odica que elimina la necesidad de preocupaci´on
por la semilla inicial. Por tanto se recomienda su aplicaci´on a sistemas
de computaci´on estoc´astica Por otra parte, el conjunto de descriptores moleculares propuestos, PED, han
mostrado obtener muy buenos resultados en comparaci´on con otros m´etodos presentes
en la literatura. Este hecho se ha discutido mediante los par´ametros Area
Under the Curve (AUC) i Enrichment Factor (EF) obtenidos de las curvas promedio
Receiving Operating Characteristic (ROC). Adem´as, se ha mostrado como la
eficacia de los descriptores aumenta cuando se implementan en sistemas de clasificaci´on
con aprendizaje supervisado, haci´endolos adecuados para la construcci´on
de un sistema de predicci´on de dianas terap´euticas altamente eficiente.
En esta Tesis adem´as, se ha determinado que los MEP calculados utilizando
DFT y el conjunto de bases B3LYP/6-31*G en la superficie de densidad electr´onica
0,01 au correlacionan mejor con datos experimentales que los MEP calculados
en la superficie con densidad electr´onica 0,002 au. Esto puede ser debido presumiblemente
a la mayor contribuci´on de las propiedades electrost´aticas locales en el
c´alculo del MEP. Las parametrizaciones propuestas en funci´on del tipo de hibridaci´on
at´omica y la eliminaci´on de zonas inaccesibles pueden haber contribuido
tambi´en en la mejora de los resultados obtenidos. Los c´alculos realizados en dichas
superficies suponen mejoras en un factor cinco en la velocidad de procesamiento.
Dado el aceptable ajuste a datos experimentales del m´etodo propuesto para el
c´alculo del MEP aproximado y de los SSIP derivados, ´este se puede utilizar con el
fin de obtener estas magnitudes para bases de datos moleculares extensas o para
macromol´eculas como prote´ınas de manera muy r´apida (ya que la velocidad de
procesamiento obtenida es del orden de cinco mil ´atomos procesados por segundo
utilizando una sola CPU).
Estas t´ecnicas resultan de especial inter´es de cara a la b´usqueda de SSIP y
sus aplicaciones en el cribado virtual de cocristales o en la predicci´on de energ´ıas
libres en estado l´ıquido, as´ı como para su posible aplicaci´on al docking.
[cat] El creixement accelerat de les dades en la societat actual i l’arribada de la
tecnologia del transistor als l´ımits f´ısics exigeix la proposta d’alternatives eficients
orientades al processament molt r`apid de dades.
Aquesta Tesi doctoral, de car`acter transdisciplinar i a mig cam´ı entre els
camps de l’enginyeria electr`onica i la qu´ımica computacional presenta solucions
optimitzades en maquinari (HW) i en programari (SW) per tal d’optimitzar el
processament de bases de dades moleculars. Quant al HW es proposa i s’estudia
el funcionament de blocs digitals que implementen funcions de l`ogica polsant estoc`astica
aplicades a tasques de reconeixement d’objectes. Especialment es proposen,
analitzen dissenys espec´ıfics per a la construcci´o de generadors de nombres
aleatoris (RNG) com a sistemes b`asics per al funcionament dels sistemes de
computaci´o estoc`astics en implementats en dispositius Field Programable Gate
Array (FPGA).
Entre ambdues vies de desenvolupament (HW i SW) es proposen i avaluen
un conjunt redu¨ıt de descriptors moleculars especialment orientats a la caracteritzaci´o
de compostos org`anics. Aquests descriptors reuneixen la informaci´o sobre
la distribuci´o de c`arrega molecular i s’utilitzen tamb´e en sistemes de computaci´o
estoc`astica implementats en HW. Finalment es proposen optimitzacions per al
c`alcul del potencial electrost`atic molecular (MEP) calculat mitjan¸cant la teoria
del funcional de la densitat (DFT) i dels punts d’interacci´o que se’n deriven
(SSIP). Tamb´e es proposa un m`etode molt r`apid per al c`alcul del MEP i dels
SSIP.
Per una banda, els resultats obtinguts posen de manifest la import`ancia de la
uniformitat del RNG en el per´ıode d’avaluaci´o per a poder implementar sistemes
de computaci´o estoc`astics d’alta fiabilitat. A m´es, els RNG proposats disposen
d’una Font d’aleatorietat aperi`odica que elimina la necessitat de preocupaci´o per
la llavor inicial. Per tant, es recomana la seva aplicaci´o a sistemes de computaci´estoc`astica.
Per una altra banda, el conjunt de descriptors moleculars proposats, PED, han
demostrat obtenir molts bons resultats en comparaci´o amb els m`etodes presents a
la literatura. Aquest fet ha estat discutit mitjan¸cant l’an`alisi dels par`ametres Area
Under The Curve (AUC) i Enrichment Factor (EF) de les curves Receiving Operating
Characteristic (ROC). A m´es, s’ha mostrat com l’efic`acia dels descriptors
augmenta de manera significativa quan s’implementen en sistemes de classificaci´o
amb aprenentatge supervisat com les finestres de Parzen, fent-los adequats per a
la construcci´o d’un sistema de predicci´o de dianes terap`eutiques eficient.
En aquesta Tesi doctoral a m´es, s’ha trobat que els MEP calculats mitjan¸cant
la teoria DFT i el conjunt de bases B3LYP/6-31*G en la superf´ıcie amb densitat
electr`onica 0,01 au correlacionen millor amb dades experimentals que els MEP
calculats en la superf´ıcie amb densitat electr`onica 0,002 au. Aquest fet pot ser
degut presumiblement a la major contribuci´o de les propietats electrost`atiques
locals en el c`alcul del MEP. Les parametritzacions proposades en funci´o del tipus
d’hibridaci´o at`omica i l’eliminaci´o de regions inaccessibles poden haver contribu¨ıt
tamb´e a la millora dels resultats obtinguts. Els c`alculs realitzats en aquestes
superf´ıcies, a m´es, suposen una millora en un factor cinc en velocitat de processament.
Finalment, donat l’acceptable ajust a les dades experimentals del m`etode
proposat per al c`alcul del MEP aproximat i dels SSIP derivats, aquest es pot
utilitzar per obtenir aquestes magnituds per bases de dades moleculars extenses
o per a macromol`ecules com prote¨ınes de manera molt r`apida (ja que la velocitat
de processament obtinguda arriba fins als cinc mil `atoms per segon amb una sola
CPU).
Aquestes t`ecniques resulten d’especial inter`es de cara a la cerca de SSIP i
donades les seves aplicacions en el cribratge virtual de cocristalls o en la predicci´o
d’energies lliures en l’estat l´ıquid, aix´ı com per la seva potencial aplicaci´o al
docking
[eng] The big amount of data generated by our actual society and technology arriving
at his limits requires technical solutions for efficient data processing.
In this transdisciplinary Thesis in the middle between the areas of electronic
engineering and computational chemistry, it’s shown different Hardware (HW)
and Software (SW) solutions for efficient data processing oriented to specific applications
in the field of molecular database processing. In relation with HW
solutions, there’s proposed and studied pulse stochastic computing logic systems
in order to implement ultrafast pattern recognition applications. Specially, it’s
proposed and analyzed specific digital designs to create a digital Random Number
Generators (RNG) as a base for stochastic computing functions using Field
Programmable Gate Arrays (FPGA).
Between the HW and SW solution there’s proposed and evaluated a set of
molecular descriptors designed for organic compounds characterization. The proposed
descriptors gather charge and molecular geometry information and can be
used in application to HW fast stochastic computing systems. Finally, there’s a
proposed a set of optimizations for Molecular Electrostatic Potential (MEP) calculated
with Density Functional Theory (DFT) and derived Surface Site Interaction
Points (SSIP). Also, a very fast method for approximate MEP calculation
and derived SSIP is proposed.
Firstly, a set of results show the relevance of uniform RNG within the evaluation
period in order to implement high precision stochastic computing Systems.
In addition, the proposed RNG have an aperiodic randomness which allows ignoring
the initial seed. Then it is recommended for the implementation of stochastic
computing systems.
Secondly, the proposed molecular descriptors, PED, have demonstrated to
provide good results in comparison with other methods present in the literature.
This has been discussed by the use of Area Under the Curve (AUC) and Enrich ment Factor (EF) of averaged Receiving Operating Characteristic (ROC) curves.
Furthermore, the performance of the proposed descriptors gets increased when
implemented in supervised machine learning algorithms making them appropriate
for therapeutic target predictions.
Moreover, in this Thesis, it has been found that the MEP calculated with DFT
and B3LYP/6-31*G basis at 0,01 au density surface has better correlation with
experimental data than the calculation over most used 0,002 au surface. This
fact could be due to bigger contribution of local electrostatics, the refinement
performed by the parameterization as a function of the orbital atom type and
due to the deletion of inaccessible regions. Additionally, the proposed calculation
over 0,01 au implies a factor five in terms of gain of speed of computation.
Finally, due to acceptable agreement between experimental data and theoretical
results obtained by using the proposed method to fast MEP approximation
and derived SSIP, the proposed method is suitable to being used in order to obtain
those properties in big molecular databases and macromolecules in an efficient
way (being able to process five thousand molecules per second with using only
one CPU).
The proposed techniques have special interest with the purpose of finding SSIP
and their applications in virtual cocrystal screening, free energies in solution and
by potential new usages as for instance in molecular docking