es)

Máster Universitario en Ingeniería Computacional y Sistemas Inteligentes Konputazio Zientziak eta Adimen Artifiziala Saila – Departamento de Ciencias...
21 downloads 1 Views 1MB Size
Máster Universitario en

Ingeniería Computacional y Sistemas Inteligentes Konputazio Zientziak eta Adimen Artifiziala Saila – Departamento de Ciencias de la Computación e Inteligencia Artificial

K I S A I C S I

Tesis de Máster

DESARROLLO DE UN SISTEMA DE SIMULACIÓN DE DATOS DE METILACIÓN MAITENA ITURRIBARRIA ASTORKIA

Tutor(a/es) BORJA CALVO NAIARA G.BEDIAGA Departamento de Ciencia de la Computación e Inteligencia Artificial Facultad de Informática

KZAA /CCIA

Julio 2014

INDICE TABLA DE ILUSTRACIONES ............................................................................................................ 4 ABREVIATURAS .............................................................................................................................. 5 RESUMEN ...................................................................................................................................... 6 SUMMARY ..................................................................................................................................... 6 LABURPENA ................................................................................................................................... 7 1.INTRODUCCIÓN .......................................................................................................................... 8 1.1.BIOLOGÍA, GENÉTICA Y EPIGENÉTICA ................................................................................. 8 1.2.TECNOLOGÍAS PARA LA DETERMINACIÓN DE LOS NIVELES DE METILACIÓN................... 10 1.2.1.PREPARACIÓN DE LAS MUESTRAS ............................................................................. 10 1.2.2.CONCEPTOS GENERALES DE LA HIBRIDACIÓN Y LOS MICROARRAYS ........................ 11 1.3.ALGUNOS CONCEPTOS SOBRE PROBABILIDAD Y ESTADÍSTICA ........................................ 12 1.3.1.DISTRUBUCION BETA ................................................................................................. 12 1.3.2.DISTRIBUCION DIRICHLET........................................................................................... 13 1.3.3.DISTRIBUCION BINOMIAL........................................................................................... 14 1.3.4.DISTRIBUCIÓN NORMAL............................................................................................. 14 1.3.5.ESTIMACIÓN DE DENSIDAD BASADA EN KERNELS ..................................................... 15 1.4.MOTIVACIÓN OBJETIVOS DEL PROYECTO ......................................................................... 17 1.4.1.OBJETIVO GENERAL .................................................................................................... 17 1.4.2.OBJETIVOS ESPECIFICOS ............................................................................................. 17 1.5.ESQUEMA DEL DOCUMENTO ............................................................................................ 18 2.DESARROLLO ............................................................................................................................ 19 2.1.ANÁLISIS DE LOS DATOS REALES ....................................................................................... 19 2.2.DESCRIPCIÓN GLOBAL DEL PROCESO BIOLÓGICO DESDE LA MUESTRA HASTA LOS DATOS ................................................................................................................................................. 24 2.3.DESARROLLO DEL SISTEMA ............................................................................................... 26 2.4.ANÁLISIS DE LOS PARÁMETROS DEL SISTEMA Y COMPARACIÓN CON DATOS REALES. ... 29 2.5.IMPLEMENTACIÓN Y SU USO ............................................................................................ 35 3.CONCLUSIONES Y TRABAJO FUTURO ....................................................................................... 41 BIBLIOGRAFIA .............................................................................................................................. 42 AGRADECIMIENTOS..................................................................................................................... 43 ANEXOS ....................................................................................................................................... 44

DESARROLLO DE UN SISTEMA DE SIMULACIÓN DE DATOS DE METILACIÓN

TABLA DE ILUSTRACIONES Ilustración 1-Pipeline de procesamiento de un estudio de metilación............................ 10 Ilustración 2- Horno de Hibridación ............................................................................... 11 Ilustración 3- Representación gráfica de varias Distribuciones Beta ............................. 13 Ilustración 4- Distribución Dirichlet Representación gráfica 3D ................................... 13 Ilustración 5- Distribución normal ................................................................................. 14 Ilustración 6-KDE Kernel Density Estimations ............................................................. 16 Ilustración 7- Distribución de los niveles de metilación ................................................ 20 Ilustración 8-Relación entre media y varianza de la base de datos GSE49904 (SANGRE) ..................................................................................................................... 20 Ilustración 9- Relación entre media y varianza de la base de datos GSE49905 (CEREBRO) ................................................................................................................... 20 Ilustración 10- Relación entre media y varianza de la base de datos GSE49908 (MÚSCULO) .................................................................................................................. 21 Ilustración 11- Relación entre media y varianza de la base de datos GSE49907 (RIÑÓN) ......................................................................................................................... 21 Ilustración 12- Valores de la desviación estándar en las cuatro bases de datos ............. 21 Ilustración 13- Desviación estándar de media mayor que 0.8 y menor que 0.2 de la base de datos CORTEX .......................................................................................................... 22 Ilustración 14- Site número 8 de la base de datos GSE49904 (SANGRE) .................... 22 Ilustración 15- Site número 1534 de la base de datos GSE49905 (CEREBRO)............ 22 Ilustración 16- Site número 85 de la base de datos GSE49907 (RIÑÓN) ..................... 23 Ilustración 17- Site número 45de la base de datos GSE49908 (MÚSCULO) ............... 23 Ilustración 18- Efecto de la mezcla de tipos celulares.................................................... 24 Ilustración 19-Esquema del sistema ............................................................................... 28 Ilustración 20-Primera representación gráfica ................................................................ 30 Ilustración 21-Resultados próximos a los datos reales ................................................... 30 Ilustración 22- Probabilidad de Metilación Baja (0.001) ............................................... 31 Ilustración 23- Probabilidad de Metilación Alta (0.9).................................................... 31 Ilustración 24- Rango Bajo ([0.3,2]) .............................................................................. 31 Ilustración 25- Rango Alto ([3,1000]) ............................................................................ 31 Ilustración 26- Rango Bajo ([0.3,2]) .............................................................................. 31 Ilustración 27- Rango Alto ([3,1000]) ............................................................................ 31 Ilustración 28-Probabilidad de cambio Baja (0.00001) .................................................. 32 Ilustración 29-Probabilidad de cambio Alta (0.95) ........................................................ 32 Ilustración 30- Ruido Escáner Bajo (10000) .................................................................. 32 Ilustración 31- - Ruido Escáner Alto (10) ...................................................................... 32 Ilustración 32- Ruido Background Bajo (0.0001) .......................................................... 32 Ilustración 33- Ruido Background Alto (0.5)................................................................. 32 Ilustración 34- Distribución de los niveles de metilación de datos creados junto con los datos reales ..................................................................................................................... 33 Ilustración 35- Relación entre la metilación media y la varianza................................... 34 Ilustración 36- Ejemplo de uso de la aplicación ............................................................. 40

4

DESARROLLO DE UN SISTEMA DE SIMULACIÓN DE DATOS DE METILACIÓN

ABREVIATURAS ADN : Ácido Desoxirribonucleico ARN: Ácido Ribonucleico ARNm: ARN mensajero ADNc: ADN complementario CpG : Dinucleótidos de Citosina-Fosfato-Guanina A: Adenina G: Guanina T: Timina C: Citosina U: Uracilo PCR: Polymerase Chain Reaction GEO : Gene Expression Omnibus MSP: Methylation Specific-Polymerase Chain Reaction KDE: Kernel Density Estimation

5

DESARROLLO DE UN SISTEMA DE SIMULACIÓN DE DATOS DE METILACIÓN

RESUMEN Hasta hace poco, enfermedades como el cáncer o el Alzheimer eran interpretadas solo como mutaciones genéticas, es decir, cambios en la secuencia genética. Sin embargo, son muchos los que últimamente se interesan por la epigenética y por la relación con las enfermedades. La epigenética va más allá que la genética, se basa en los cambios reversibles del ADN y de las proteínas que se unen en él. Esto hace que, sin necesidad de alterar su secuencia, un gen pueda ser expresado o por el contrario quede silenciado. Uno de estos cambios epigenéticos es la metilación del ADN que consiste en una modificación química en el dinucleotido CpG (citosina-fosfato-guanina, es decir, donde una citosina es seguida de una guanina). Existen métodos experimentales para poder detectar la metilación, como por ejemplo, los métodos basados en la modificación del ADN con bisulfito y posterior análisis con arrays de ADN. El objetivo de este proyecto es imitar, mediante la simulación computacional y el estudio de distintas bases de datos, el comportamiento del sistema biológico, a fin de generar datos similares a los reales. Esta simulación de los datos reales permitirá, entre otras cosas, generar escenarios controlados en los que evaluar los métodos de análisis. Adicionalmente, el proceso de diseño permitirá explorar el proceso biológico que da lugar a los datos.

SUMMARY Until a few years ago, diseases such as cancer or Alzheimer's were interpreted only as genetic mutations, in other words, changes in the genetic sequence. However, lately interest has grown in epigenetics and its relationship with diseases. Epigenetics goes beyond genetics, as it is based on reversible changes in the DNA and the proteins joined to the DNA. This makes a gene to be expressed or, otherwise, silenced without altering the sequence. One of these changes is called DNA methylation, which consists of a chemical modification in the CpG sites, (cytosine-phosphate-guanine sites, that is, where a cytosine is directly followed by a guanine). There are experimental methods to detect the methylation, for example, techniques based on bisulfite conversion and subsequent analysis using microarray technologies. The goal of this project is to imitate the behaviour of a biological system using computer simulation and the study of various databases, in order to generate similar data to the real ones. This simulation of real data will allow, among other things, to generate controlled scenarios in which to evaluate the analysis methods. Additionally, the process of design will allow to explore the biological process that gives way to the data.

6

DESARROLLO DE UN SISTEMA DE SIMULACIÓN DE DATOS DE METILACIÓN

LABURPENA Duela gutxi arte, minbizia eta Alzheimerra bezalako gaixotasunak mutazio genetiko gisa ezagutzen ziren, hau da, sekuentzia genetikoan aldaketak izatea bezala. Hala ere, asko dira azkenaldian epigenetika arloan eta harremana duen gaixotasunetan interesa dutenak. Epigenetika genetika baino haratago dago, DNAren eta bertan lotzen diren proteinen aldaketa itzulgarri oinarritzen baita. Honek gene bat egoera adierazgarri batetan edo bestalde egoera isil batetan egotea eragiten du, sekuentzia aldatu gabe. Aldaketa epigenetiko bat DNAren metilazioa da, CpG (zitosina-fosfato-guanina, hau da, zitosina baten atzetik guanina bat datorrenean) posizioetan gertatzen den aldaketa genetiko batetan oinarritzen dena. Badaude metilazioari antzemateko zenbait metodo esperimental, esaterako, bisulfitoaren bidez eragindako DNAren aldaketatan eta microarrayetan oinarritutako metodoa. Proiektu honen helburua sistema biologikoaren portaera imitatzea da, simulazio konputazionalaren eta datu base ezberdinen ikerketaren bidez. Helburua datu errealen antzeko datuak sortzea da. Datu errealen simulazio honek, analisi metodoak ebaluatzeko eszenatoki kontrolatuak sortzea ahalbidetuko du. Horrez gain, diseinu prozesuak datuak sortzen dituen prozesu biologikoa arakatzea ere ahalbidetuko du.

7

DESARROLLO DE UN SISTEMA DE SIMULACIÓN DE DATOS DE METILACIÓN

1.INTRODUCCIÓN 1.1.BIOLOGÍA, GENÉTICA Y EPIGENÉTICA La Bioinformática trabaja en la investigación biológica y computacional para el desarrollo de herramientas que permitan analizar de una manera más eficiente la información biológica para, por ejemplo, percibir la influencia de las enfermedades con la ayuda de la información genética y las funciones y estructuras biológicas.[1] En 1869, cuatro años después de que el monje austriaco Gregor J. Mendel definiera sus experimentos genéticos, Frederich Miescher, un famoso médico y biólogo suizo, descubrió por primera vez la nucleína. Miescher identificó en el núcleo de las células del pus un nuevo grupo de substancias celulares, ricas en fosforo, que mas tarde serían reconocidas como ADN o acido desoxirribonucleico. La relación entre la nucleína y la genética fue establecida pasado casi un siglo. En 1952 James Watson y Francis Crick realizaron una serie de experimentos que condujeron a la determinación de la estructura del ADN. La estructura de la doble hélice está formada por dos hebras. Tiene forma de escalera enlazada y está compuesta por nucleótidos. Los nucleótido se componen de una molécula de azúcar, la desoxirribosa, un grupo fosfato y una base nitrogenada. En el ADN se distinguen cuatro nucleótidos dependiendo de la base nitrogenada que contiene: Adenina (A), Guanina (G), Timina (T) y Citosina (C).

Adenina (A)

Guanina (G)

Citosina (C)

Timina (T)

Tabla 1-Bases nitrogenadas que forman los diferentes nucleótidos del ADN

El monosacárido se encuentra arropado por un grupo fosfato y una base en el centro del nucleótido. Las bases se complementan entre ellas, uniéndose por enlaces de tipo puente de hidrogeno; por un lado la Adenina se asocia con la Timina y por otro, la Guanina se enlaza con la Citosina. Una de las funciones primordiales del ADN es codificar las proteínas, las cuales son moléculas poliméricas formadas por aminoácidos. En seres humanos existen 21 tipos de aminoácidos. Los aminoácidos se unen entre ellos formando cadenas para generar distintas proteínas. De este modo, cada proteína se diferencia según la secuencia de aminoácidos que contiene. Se conocen entre 250.000 y 1.000.000 de proteínas diferentes. Gracias a la heterogeneidad de la estructura que estas pueden adoptar, las proteínas pueden desempeñar un número considerable de tareas de nuestro organismo. 8

DESARROLLO DE UN SISTEMA DE SIMULACIÓN DE DATOS DE METILACIÓN

Para poder sintetizar la cadena de aminoácidos, en primer lugar, la información contenida en la secuencia de ADN se transfiere a una molécula de ARN mensajero. A este proceso se le llama “transcripción”. Durante el proceso de transcripción, las secuencias de ADN son copiadas a ARN mediante una enzima llamada ARN polimerasa que sintetiza un ARN mensajero que mantiene la información de la secuencia del ADN. Luego, tras sufrir unos cambios, el ARNm es utilizado por los ribosomas para generar nuevas proteínas en un proceso llamado “traducción” [2]. Una tarea importante es el control de la expresión genética. Los factores de transcripción son, entre otros mecanismos, los encargados de este proceso. Son proteínas que se unen al gen y ayudan a iniciar los procesos de transcripción. Su función es reconocer las regiones promotoras, y unirse a ellas modulando la actividad de la ARN polimerasa. Otro tipo de mecanismo de regulación genética que se está investigando en los últimos años son los agrupados dentro de la epigenética. Una de las modificaciones epigenéticas más comunes es la metilación del ADN. La metilación consiste en la transferencia de grupos metilos a algunas de las bases citosinas (C) del ADN situadas previa y contiguamente a una guanina (G). La metilación es fundamental en la regulación del silenciamiento de los genes, y en consecuencia está asociado a una amplia gama de los procesos biológicos y enfermedades. Así, por ejemplo, cumple un importante papel a la hora de mantener el silenciamiento génico en el desarrollo normal, la impronta genómica y la inactivación del cromosoma X. [3][4][5] Un aspecto importante de la metilación del ADN es que estos cambios, pese a no alterar la secuencia, pueden ser transmitidos de generación en generación. Igualmente, pueden ser adquiridos con el paso de los años por efecto del entorno. Es como una pequeña memoria de los genes que, en cierta manera, puede llegar a guardar desde lo que comieron nuestros abuelos en la guerra hasta el estrés que sufrimos en el trabajo. Se ha observado que diversas enfermedades humanas como el cáncer, enfermedades inflamatorias o las neuropsiquiátricas entre otras, muestran una alteración en sus patrones de metilación con respecto a los de otros individuos sanos. Además, la metilación de ADN se ha asociado a la evolución de algunas enfermedades o respuesta al tratamiento. Por este motivo, se ha propuesto como un marcador diagnóstico, pronostico o predictivo con un enorme potencial para su aplicación e la práctica clínica. La metilación varía según el tipo de tejido en el que se mide, el tipo de enfermedad, la fase de la enfermedad, etc. Por ejemplo, diferentes estudios han demostrado que cada una de las células de cáncer de colon, mamario, próstata y pulmón tienen su propio sello epigenético.

9

DESARROLLO DE UN SISTEMA DE SIMULACIÓN DE DATOS DE METILACIÓN

1.2.TECNOLOGÍAS PARA LA DETERMINACIÓN DE LOS NIVELES DE METILACIÓN Existen múltiples técnicas basadas en métodos enzimáticos y/o químicos para determinar y cuantificar el porcentaje de metilación del ADN y poder guardarlos computacionalmente. Una vez que los datos estén informáticamente guardados es más fácil poder analizar y obtener una estimación absoluta del nivel de metilación. La elección de la tecnología a emplear viene condicionada por la región del genoma que se quiera abarcar, el numero de sitios CpG que se quiera testar, la sensibilidad y/o especificad requerida o el tipo de muestra a analizar( si está o no degradado, cantidad de ADN….). Existen diversas metodologías para la determinación de los niveles de metilación. Estas se pueden clasificar de diferentes maneras. Se pueden clasificar en función del pretratamiento recibido (digestión enzimática, enriquecimiento por afinidad o tratamiento bisulfito), o también por las regiones del genoma que interrogan. De esta manera tenemos las técnicas locus específicas (HpaII-PCR, MethyLight, pirosecuenciación o EpiTYPER entre otros), las técnicas basadas en microarrays (DMH, MCAM, MethylScope, etc.) o aquellas basadas en secuenciación masiva (Methyl-seq, MSCC, etc.). En el presente trabajo nos centraremos en aquellas técnicas cuyo tratamiento se basa en la modificación bisulfito y su posterior análisis se realiza mediante microarrays. A continuación veremos los pasos fundamentales para procesar una muestra, los cuales se resumen en la siguiente figura.

Ilustración 1-Pipeline de procesamiento de un estudio de metilación

1.2.1.PREPARACIÓN DE LAS MUESTRAS El primer paso es la modificación bioquímica del ADN tratándolo con bisulfito de sodio. El bisulfito sódico actúa sobre el ADN, convirtiendo los residuos citosina no metilados en uracilos mediante deaminación. 10

DESARROLLO DE UN SISTEMA DE SIMULACIÓN DE DATOS DE METILACIÓN

Uracilo (U)

Citosina (C)

xplicado anteriormente, esto ocurre con las citosinas no metiladas, ya Como bien se ha explicado que las metiladas quedan protegidas de dicha transformación. transformación Por lo tanto, el método del bisulfito de sodio produce cambios en la secuencia de ADN que dependen del estado de metilación de las citosinas. [6] Tras la modificación, el ADN resultante se amplifica mediante el proceso PCR. En algunos casos se puede realizar una PCR específica que distingue las citosinas no metiladas de las metiladas; se consiguen resultados en un tiempo corto, pero esta técnica es más propensa a errores.

CONCEPTOS GENERALES 1.2.2.CONCEPTOS MICROARRAYS

DE

LA

HIBRIDACIÓN

Y

LOS

se analizadas computacionalmente, para ara ello se utilizan utiliza Las muestras pueden que ser habitualmente arrays de ADN. Los arrays son cristales en los cuales cuales hay una serie de pocillos. En el interior de estos pocillos se “pegan” secuencias de ADN conocidas. Tras marcar con fluorocromos el producto de la PCR, este se pone en contacto con el array en un proceso llamado hibridación. Durante este proceso los fragmentos fragmentos de ADN se unen a las secuencias específicas del array, quedando inmovilizadas. Finalizado la hibridación los restos de PCR que no se han unido se lavan y el array se escaneaa para medir la luz emitida por los fluorocromos de las secuencias retenidas en cada pocillo. La intensidad de luz leída es proporcional a la cantidad de ADN unida.

Ilustración 2- Horno de Hibridación

11

DESARROLLO DE UN SISTEMA DE SIMULACIÓN DE DATOS DE METILACIÓN

1.3.ALGUNOS CONCEPTOS SOBRE PROBABILIDAD Y ESTADÍSTICA Dentro del desarrollo experimental de este trabajo se han utilizado extensivamente las distribuciones de probabilidad. Estas distribuciones son funciones que asignan una probabilidad a cada suceso de la variable aleatoria. Esto es, definen para cada suceso la probabilidad de ser observado. Una tarea particularmente importante en el contexto de este proyecto es el muestreo de las distribuciones de probabilidad. Es decir, conocida la distribución de una variable, generar datos que sigan dicha distribución. Las distribuciones que se han utilizado en este trabajo son la distribución binomial, la distribución beta, la distribución de Dirichlet y la distribución normal.

1.3.1.DISTRUBUCION BETA La distribución Beta es una distribución de probabilidad continua que hace uso de dos parámetros, α y β. La función de densidad, que se muestra a continuación, está definida en el intervalo xЄ[0,1]. ; ,

=

Γ Γ

+ Γ



1−

La ecuación está definida en términos de la función gamma , que es la generalización del factorial y cuya definición es: =

A continuación se muestran varios ejemplos de distribución betas (Figura 3).

12

DESARROLLO DE UN SISTEMA DE SIMULACIÓN DE DATOS DE METILACIÓN

α, β >1: Forma de campana. α=β=1: Uniforme. α=1,β >1 ó α >1,β=1: Exponencial, valor finito en 0 y 1. α1 ó α >1,β