EL GENOMA HUMANO VISTO POR ENSEMBL

EL GENOMA HUMANO VISTO POR ENSEMBL El objetivo de estas prácticas consistirá en analizar una región del genoma humano de aproximadamente 1 Mb de exten...
13 downloads 0 Views 2MB Size
EL GENOMA HUMANO VISTO POR ENSEMBL El objetivo de estas prácticas consistirá en analizar una región del genoma humano de aproximadamente 1 Mb de extensión. Se indicará, entre otras cosas, las características generales del cromosoma en el que esa región está incluida, las características generales de la región propiamente dicha, los tipos de secuencias que incluye, así como los datos más relevantes de algunas de estas secuencias. Para ello utilizaremos el visualizador de genomas de Ensembl, proyecto conjunto de EBI-EMBL y Wellcome Trust Sanger Institute, cuyo objetivo es el desarrollo de un software gracias al cual se produce y mantiene un sistema automático de anotación de genomas de organismos eucariotas, principalmente. La página principal de Ensembl se encuentra en la dirección de internet http://www.ensembl.org Además, haremos uso de otras páginas de internet que contienen información actualizada sobre nomenclatura oficial de genes en el hombre (www.genenames.org), características de genes (www.genecards.org), elementos reguladores en CIS (http://www.cisred.org/), microRNAs (http://www.mirbase.org/), entre otras. En la página web del profesor José Martín, http://www.uam.es/gpepe, se incluirá un archivo con los enlaces a las páginas web de internet de utilidad para el desarrollo de esta parte de las prácticas. Pasaremos ahora a describir los detalles más importantes que el visualizador de genomas de Ensembl puede ofrecernos. Ensembl.-

2

1

Página principal de Ensembl. Especies para las que mantiene información.

Febrero de 2015 -1-

(1)

Lista de especies con información genómica

Febrero de 2015 -2-

(2)

Página de entrada al genoma humano. Se señalan el cuadro de búsquedas y un enlace que nos lleva a las estadísticas y a las características del ensamblaje del genoma humano con el que trabaja Ensembl. En el enlace http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/info/definitions.shtml encontraremos información sobre la terminología empleada en el ensamblaje del genoma humano.

Febrero de 2015 -3-

Para acceder en Ensembl a las características del genoma humano, pueden utilizarse 3 estrategias de búsqueda: por nombre de gen/secuencia, por región genómica (rango de pares de bases de un cromosoma concreto), o por nombre de una enfermedad de influencia genética. Veamos un ejemplo: Se trata de analizar la región del cromosoma 13 comprendida entre los pares de bases 47,900,000 y 48,899,999. Lo primero que habría que decir es que el origen por el que se empiezan a contar los pares de bases es el telómero del brazo corto del cromosoma. Es decir, el par de bases inicial del cromosoma 13 se situará en el telómero del brazo corto (p), y el par de bases final, en el telómero del brazo largo (q). En el cuadro de búsquedas de la página inicial de Ensembl, pondremos: 13:47900000-48899999 y a continuación haremos click en el botón Go

Y obtenemos:

Febrero de 2015 -4-

La leyenda de colores nos permite conocer los distintos tipos de secuencias que Ensembl reconoce. En este sentido, la región en detalle (Region in detail) nos permite identificar la existencia de secuencias génicas (color ocre) que incluyen todas aquellas en las que existe coincidencia entre la anotación producida de forma automatizada por el equipo de Ensembl y la anotación manual realizada por el equipo de Havana (Human And Vertebrate ANalysis and Annotation). Las secuencias de color granate son secuencias codificadoras de proteínas reconocidas sólo por Ensembl o sólo por Havana. Asimismo podemos observar secuencias tales como pseudogenes (color gris, anotadas por Ensembl o por Havana), genes RNA, ya sean microRNAs como intergénicos largos (color morado, anotados por Ensembl o por Havana), transcritos procesados (color azul, anotados por Havana). Un detalle a destacar es que varias de estas secuencias están solapadas, e incluso algunas de ellas se encuentran inmersas dentro de otras (secuencias/genes solapantes, genes dentro de genes, …) Las características más generales respecto al cromosoma en el que se encuentra la región a analizar (cromosoma 13), la podemos obtener a partir del enlace de la izquierda (Chromosome summary), señalado con una flecha.

Aquí pueden verse las características más reseñables sobre el cromosoma 13. La flecha señala la banda citogenética donde se sitúa la región a estudiar. A continuación haremos un repaso de las características más generales de alguno de los distintos tipos de secuencias que hemos visto en la imagen de la región en detalle. Comenzaremos con algún gen codificador de proteínas, por ejemplo el que aparece señalado como RB1. Si pinchamos en la etiqueta RB1, se nos despliega la ventana que aparece en fondo azul. Ahí podemos ver el código que Ensembl asigna a este gen; si pinchamos ahora en el enlace señalado con la flecha roja (ENSG00000139687), podremos ver ya ciertas características de este gen.

Febrero de 2015 -5-

De acuerdo con la anotación que Ensembl hace de este gen, se trata del gen del retinoblastoma (cuyo símbolo oficial es RB1, de acuerdo con HGNC). Dicho gen es capaz de producir 6 transcritos, de los cuales solo uno de ellos codifica una proteína aceptada por “The Consensus CDS project” (CCDS). Utilizando el enlace señalado con una flecha roja (splice variants) podremos obtener información sobre el mecanismo de aparición de esos 6 transcritos. Si pinchamos en el enlace correspondiente al identificador del transcrito productor de la proteína consensuada por CCDS (ENST00000267163), entraremos en la ficha correspondiente a las características de dicho transcrito, como por ejemplo: estructura exón/intrón, datos estadísticos del transcrito, etc.

Febrero de 2015 -6-

Además, utilizando los distintos ítems del menú de la izquierda (recuadrado en rojo), tendremos posibilidad de profundizar en distintos aspectos relativos a las características de dicho transcrito. En el aula de informática, se indicarán los aspectos más importantes a tener en cuenta. En relación a la proteína que dicho transcrito codifica, podemos pinchar en el enlace señalado con una flecha, y se nos mostrarán de forma gráfica distintos datos relativos a la misma: Aminoácidos codificados por cada exón, dominios que se pueden reconocer en la proteína según distintas bases de datos de dominios, así como estadísticas de esta proteína.

En relación a los dominios que se pueden reconocer en la proteína, atenderemos a lo que nos indica la base de datos de Pfam (http://pfam.sanger.ac.uk). Pinchando en el dominio RB_A, por ejemplo, se nos despliega un menú que nos permite analizar la anotación que Pfam ha realizado respecto de este dominio de proteína, cuyo código es PF01858. Pinchando ahora en dicho código, iremos a la página de Pfam correspondiente a este dominio. En el aula de informática aprenderemos a sacar partido a esta información. Finalmente, en la página web de Gene Cards (www.genecards.org) correspondiente al gen RB1 tendremos a nuestra disposición una información mucho mayor sobre distintos aspectos de este gen.

Febrero de 2015 -7-

Como podemos ver, tenemos información resumida sobre la función del gen que estamos analizando. Además, utilizando el menú desplegable que aparece en amarillo, podremos acceder a otro tipo de información que Ensembl no nos proporcionaba, como por ejemplo, lo que se refiere a las rutas en las que este gen está implicado, o las interacciones con otros genes/proteínas, tejidos de expresión del gen, etc.

Febrero de 2015 -8-

Otros aspectos interesantes a considerar respecto del gen que estamos analizando, es lo que concierne a la regulación de su expresión, el grado de conservación de la secuencia a lo largo de la evolución, y a los elementos móviles que se han insertado durante la evolución a lo largo de su secuencia y regiones flanqueantes próximas en 5’ y 3’. Dichos aspectos los podemos obtener a través de la pantalla de Ensembl donde se muestra la región en detalle. Además, dicha pantalla debe configurarse convenientemente. Dicha configuración se indicará durante el desarrollo de la práctica en el aula de informática.

Pantalla de configuración de la región en detalle.

Febrero de 2015 -9-

Visión en detalle de la región del gen RB1

Elementos conservados Transcritos de RBL

Islas CpG (Promotor)

Transcritos/secuencias en antisentido a RB1

Variantes Estructurales Detalles de las regiones reguladoras Nivel de conservación de secuencia del gen RB1 en diferentes especies (primates) Posición de elementos móviles (Retrovirus endógenos, Sines, Lines, Trasposones DNA Código de colores Genes/Elementos reguladores.

Febrero de 2015 -10-

Descripción de un pseudogen.En esta parte se trata básicamente de determinar la procedencia de uno de los pseudogenes que encontramos en la región del genoma que estamos analizando.

En dicha región observamos la presencia del pseudogen PCNPP5. ¿Cómo podríamos averiguar de qué gen proviene? La idea básica es que su secuencia se parecería en mayor o menor medida a la secuencia del gen de procedencia. Por tanto, lo primero es averiguar la secuencia del pseudogen. Si pinchamos en la etiqueta identificativa, se nos despliega la ventana que se muestra en la imagen anterior. Pinchando ahora en el identificador que Ensembl le ha dado, obtendremos la ficha correspondiente a sus características, entre ellas la secuencia correspondiente.

Febrero de 2015 -11-

Seleccionando con el cursor la secuencia, podremos utilizarla para buscar secuencias similares en las bases de datos de secuencias, mediante una herramienta de alineamiento básico (BLAST). Para ello, acudimos a la página de BLAST del NCBI (http://blast.ncbi.nlm.nih.gov/Blast.cgi), y seleccionamos BLAST de nucleótidos

Febrero de 2015 -12-

Secuencia del pseudogen (En FASTA)

Base de datos contra la que buscar Restringir la búsqueda a humanos

El resultado es el siguiente:

Obsérvese que la secuencia señalada presenta una probabilidad de alineamiento por azar bajísima (Evalue = 0, de hecho) y una identidad del 96%. Cuánto más bajo sea el valor del parámetro E-value, más significativo es el alineamiento.

Febrero de 2015 -13-

Pinchando en el enlace correspondiente al GEN (flecha roja), podremos saber más detalles del gen que ha dado origen al pseudogen:

Febrero de 2015 -14-