Aprendizaje automático y tecnologías de la computación: Nuevas estrategias para la predicción de las condiciones de cristalización de macromolécula
Autor(es) y otros:
Director(es):
Centro/Departamento/Otros:
Palabra(s) clave:
Proteínas
Procesos de cristalización
Bases de datos
Inteligencia artificial
Fecha de publicación:
Descripción física:
Resumen:
Se diseñaron e implementaron dos bases de datos locales (MyBMCD y MyPDB) que recopilan datos de cristalización de macromoléculas procedentes de sendas bases de datos de acceso público (BMCD "Biological Macromolecule Crystallization Database" y PDB "Protein Data Bank"). MyBMCD es una base de datos deductiva desarrollada en PROLOG con la que se pueden construir, a través de una interfaz gráfica, conjuntos de datos con el formato adecuado para ser utilizados en entornos de aprendizaje automático. Por otra parte, MyPDB es una base de datos relacional que incluye entre sus registros la entropía de Shannon de las secuencias de aminoácidos y de las secuencias de nucleótidos de las macromoléculas que alberga. La entropía de Shannon permite medir la información producida por una fuente de información discreta. En esta investigación, las secuencias de aminoácidos y las secuencias de nucleótidos se han equiparado a mensajes emitidos por una fuente de información discreta, donde cada aminoácido o nucleótido tiene una probabilidad independiente de ser elegido. Para poblar MyPDB fue necesario implementar, en lenguaje C y con listas enlazadas, un parser (PDBMLParser) que extrajera y modelara de forma adecuada la información procedente de la base de datos de acceso público, calculando a su vez la entropía de Shannon antes mencionada. El análisis de la información registrada tanto en MyBMCD como en MyPDB, utilizando diversas técnicas de análisis estadístico y de aprendizaje automático, y también del campo de la bioinformática (alineamiento de secuencias), permitió obtener conclusiones interesantes. Entre ellas las siguientes: 1. Existe una fuerte correlación entre los valores mínimo y máximo del pH de cristalización, tanto para la familia de las enzimas como para la familia de las metaloproteínas registradas en MyBMCD. 2. Existe una fuerte correlación entre los valores mínimo y máximo de la concentración de macromolécula utilizada en el experimento de cristalización, tanto para la familia de la enzimas como para la familia de las metaloproteínas registradas en MyBMCD. 3. Existe una fuerte correlación entre las temperaturas de cristalización mínima y máxima en el caso de las enzimas registradas en MyBMCD. 4. El diagrama de dispersión de la entropía de Shannon frente al peso molecular de las secuencias poliméricas registradas en MyPDB muestra dos zonas claramente diferenciadas. La primera representa a las secuencias de aminoácidos y denota la existencia de una relación entre la entropía y el peso molecular. La segunda se corresponde con las secuencias de nucleótidos. 5. Los diagramas de cajas de las distribuciones de la entropía de Shannon frente al peso molecular de las secuencias de aminoácidos cuyos cristales fueron obtenidos con al menos uno de los precipitantes más utilizados, muestran rangos intercuartílicos que no se solapan. 6. El par (peso molecular, entropía de Shannon) se configura como un predictor con el que se consiguen altas tasas de acierto cuando se trata de escoger entre ciertos precipitantes o aditivos. Por ejemplo: a) 81.57% +/- 6.39% al escoger entre sulfato amónico y cloruro potásico, b) 79.80% +/- 4.79% al escoger entre sulfato amónico y MPD (2-metil-2,4-pentanodiol). 7. El alineamiento de secuencias puede ser utilizado para estimar un pH de cristalización, llegando a ser la diferencia en valor absoluto entre el pH estimado y el pH real menor o igual a una unidad para al menos el 50% de la distribución (pH estimado - pH real) en los conjuntos de test obtenidos de MyPDB. 8. El alineamiento de secuencias también puede ser utilizado para estimar una temperatura de cristalización. También durante el desarrollo de esta investigación, se detectaron y corrigieron diversos errores en uno de los entornos de aprendizaje automático utilizados. El contenido de la tesis doctoral se distribuye en dos tomos. En el primero se describen el acceso y modelado de la información y los resultados. En el segundo, se incluyen los códigos PROLOG (MyBMCD), C (PDBMLParser) y SQL (MyPDB).
Se diseñaron e implementaron dos bases de datos locales (MyBMCD y MyPDB) que recopilan datos de cristalización de macromoléculas procedentes de sendas bases de datos de acceso público (BMCD "Biological Macromolecule Crystallization Database" y PDB "Protein Data Bank"). MyBMCD es una base de datos deductiva desarrollada en PROLOG con la que se pueden construir, a través de una interfaz gráfica, conjuntos de datos con el formato adecuado para ser utilizados en entornos de aprendizaje automático. Por otra parte, MyPDB es una base de datos relacional que incluye entre sus registros la entropía de Shannon de las secuencias de aminoácidos y de las secuencias de nucleótidos de las macromoléculas que alberga. La entropía de Shannon permite medir la información producida por una fuente de información discreta. En esta investigación, las secuencias de aminoácidos y las secuencias de nucleótidos se han equiparado a mensajes emitidos por una fuente de información discreta, donde cada aminoácido o nucleótido tiene una probabilidad independiente de ser elegido. Para poblar MyPDB fue necesario implementar, en lenguaje C y con listas enlazadas, un parser (PDBMLParser) que extrajera y modelara de forma adecuada la información procedente de la base de datos de acceso público, calculando a su vez la entropía de Shannon antes mencionada. El análisis de la información registrada tanto en MyBMCD como en MyPDB, utilizando diversas técnicas de análisis estadístico y de aprendizaje automático, y también del campo de la bioinformática (alineamiento de secuencias), permitió obtener conclusiones interesantes. Entre ellas las siguientes: 1. Existe una fuerte correlación entre los valores mínimo y máximo del pH de cristalización, tanto para la familia de las enzimas como para la familia de las metaloproteínas registradas en MyBMCD. 2. Existe una fuerte correlación entre los valores mínimo y máximo de la concentración de macromolécula utilizada en el experimento de cristalización, tanto para la familia de la enzimas como para la familia de las metaloproteínas registradas en MyBMCD. 3. Existe una fuerte correlación entre las temperaturas de cristalización mínima y máxima en el caso de las enzimas registradas en MyBMCD. 4. El diagrama de dispersión de la entropía de Shannon frente al peso molecular de las secuencias poliméricas registradas en MyPDB muestra dos zonas claramente diferenciadas. La primera representa a las secuencias de aminoácidos y denota la existencia de una relación entre la entropía y el peso molecular. La segunda se corresponde con las secuencias de nucleótidos. 5. Los diagramas de cajas de las distribuciones de la entropía de Shannon frente al peso molecular de las secuencias de aminoácidos cuyos cristales fueron obtenidos con al menos uno de los precipitantes más utilizados, muestran rangos intercuartílicos que no se solapan. 6. El par (peso molecular, entropía de Shannon) se configura como un predictor con el que se consiguen altas tasas de acierto cuando se trata de escoger entre ciertos precipitantes o aditivos. Por ejemplo: a) 81.57% +/- 6.39% al escoger entre sulfato amónico y cloruro potásico, b) 79.80% +/- 4.79% al escoger entre sulfato amónico y MPD (2-metil-2,4-pentanodiol). 7. El alineamiento de secuencias puede ser utilizado para estimar un pH de cristalización, llegando a ser la diferencia en valor absoluto entre el pH estimado y el pH real menor o igual a una unidad para al menos el 50% de la distribución (pH estimado - pH real) en los conjuntos de test obtenidos de MyPDB. 8. El alineamiento de secuencias también puede ser utilizado para estimar una temperatura de cristalización. También durante el desarrollo de esta investigación, se detectaron y corrigieron diversos errores en uno de los entornos de aprendizaje automático utilizados. El contenido de la tesis doctoral se distribuye en dos tomos. En el primero se describen el acceso y modelado de la información y los resultados. En el segundo, se incluyen los códigos PROLOG (MyBMCD), C (PDBMLParser) y SQL (MyPDB).
Notas Locales:
DT(SE) 2016-243
Colecciones
- Tesis [7606]