Genómica Comparativa Bacteriana
De WikiJaveriana
Tabla de contenidos |
Tree of Life
Construido a partir de la clase magistral del Dr. J. Setubal, Florianópolis, SC, Brasil, 8 de Julio de 2008 Curso EMBO: Advanced Course in Genomic Analysis in Bioinformatics.
Eukaria
Bacteria
Bacteria es mucho mas amplio que los otros dos, baásicamente porque hay mas genomas secuenciados de bacterias. Las bacterias se dividen en Protobacterias como E.Coli que se dividen en alfa, beta, delta, gamma.
alfa proteobacteria
A su vez se dividen en:
Rhizobiales Rhodobacteriaceas Caulobacteriales Hypomonadaceae
Mitocondria.
Archaea
Nociones Básicas de Genómica
Motivación para la genómica comparativa
- Hay mas de 300 genomas completos microbianos terminados y públicamente disponibles.
- Muchos de especias fuertemente relacionadas.
Hay que recordar que en los 70´s se secuenciaba con el método de sanger, hasta los 80´s que se automatizó el proceso y aparece el boom de secuenciaciones, que se puede llamar la fase 2 en secuenciación, ahora la fase 3 la tecnología de pirosecuenciación [1], [2],permite disminuir costos, de tal forma que s eespera un crecimiento exponencial en comparación a los 80's y 90's.
1'000,000 de pb un millon de dolares hoy dia 1'000,000 pb vale como 5000 dolares
- Para que?
Para entender las bases genómicas del presente.
Se tienen diferencias en tipos de vida, como por ejemplo patógenos y no patógenos, o , Vida libre y "sedentarios". Que hace que estos sea posible es una motivación. Otra es la especificidad de hospedero, animales, planta, planta X vs. planta Y, etc. Obviamente en caso de las patógenas tiene interés en el conocimiento y tratamiento de enfermedades.
- Para entender el pasado
Cómo han evolucionado los organismos al punto en que los encontramos ahora.
Ver Xantomonas axonopodis pathovar citri Xantomonas campestris pathovar campestris
Que es genómica comparatviva
Asume que la unidad de entrada es el genoma y su anotación Hay muchas formas de comparar, dependiendo de la resolución.
- Completo
Alineamientos Sintenia (orden y conservacion de genes) Regiones anomalas
- Centrado en genes
Nucleótidos mutaciones puntuales
Resolución
- Baja
Genomas enteros ejemplo: de evento que se ve: rearreglos
- Alta
Secuencias de nucleótidos ejemplo se ven mutaciones puntuales.
Ante la pregunta de en que resolución se debe trabajar, hay que tener en cuenta la relevancia del trabajo experimental mojado, el trabajo conjunto de las dos metodologías es indispensable para obtener conocimiento.
Una ataca citricos y la otra repollos, familias diferentes de plantas atacados por el mismo género de bacterias, con síntomas diferentes.
Alineamiento del replicón completo: pareado y múltiple
Alineación completa de replicones, pareados.
Replicón, en el caso de procariotas es el cromosoma principal o algún plásmido, "genomas multipartitos".
Hay que tener el replicón linearizado, generalmente por el OriC
- Puede ser que al comparar A y B sean idénticos
- Puede ocurrir que haya una inversión. Se han encontrado cerca del origen de la replicación en forma general.
http://genomebiology.com/2000/1/6/research/0011.1
En esta imagen se ve la comparación de diferentes replicones de forma pareada y como se inicia un proceso de especiación.
Las diagonales significan que los dos replicones tiene un ancestro común, y esta "diagona" sería el esqueleto, (backbone).
(los Esquemas se realizan con MumMer)
Lo Básico de MUMmer
- Es pareado.
Los alineamientos dinámicos como blast no pueden lidiar con cosas como un replicón. Para esto MUMmer permite comparar rápidamente secuencias muy largas.
- Ancuentra Maximal Unit Matches*Las unidades se clusterizan y luego son extendidas (usando programación dinámica)
- Los resultados son matches aproximados
- La estructura para encontrar exact matching finding: usa árboles de sufijos.
- Nucmer y promer
- Los dos muy rápidos
- Corren linealmente en función de la longitud de la comparación, programas como Blast en el mejor de los casos se comportan de forma cuadrática con relación al largo de la secuencia.
- El precio es que da una aproximación no es exacto, puede perder algunas regiones
MAUVE
Para realizar alineamiento múltiples, con Clustal se pueden hacer alineamientos de secuencias medianas no en gran cantidad. MAUVE es una herramienta que permite analizar multiples replicomas al mismo tiempo.
Muestra regiones que son compartidas por todas las secuencias.
- Funciona con el método de encontrar semillas y extenderlas.
- Busca un Local Colinear Block LCBs(los cuadros de colores).
Las comparaciones en MAUVE, se toman horas de cálculo.
Comparaciones centradas en genes
- Homologos: genes que tienen el mismo ancestro, en general la misma función
- Ortólogos: El ancestro ya tenía una duplicación y despues de la especiación esas duplicaciones tiene diferentes funciones.
- Parálogos:
o que se quiere saber es como se comparten los genes en un grupo.
En un diagrama de Venn de 3 conjuntos la intersección de los 3 grupos son los genes ortólogos se comparten por los 3.
Se puede revisar el artículo Rickettsia Phylogenomics: Unwinding the Intricacies of Obligate Intracellular Life, publicado en 2008 como motivación sobre como un estudio conciensudo de ortólogos y parálogos da muy buena información.
Como econtarrlos ortologos
- La habilidad de distinguir entre parálogos in y out.
- Los in deben agruparse con sus ortólogos
- Arquitectura de dominios, en lugar de compartir un solo dominio.
Métodos
- Arbóles Filogenéticos, pero requiere de mcha experiencia y esfuerzo, muchas veces no es unmétodo práctico (por ejemplo con Mr.Bayes)
- BLAST, usar similaridad
- Agrupamientos: MCL
- orthoMCL, es una buena aproximación entre filogenias y BLAST, por la accuracy de la filogenia y la velocidad de bLAST. No se debe olvidar que no s tan accuracy como la filogenia, es el precio que se paga por la velocidad.
OrthoMCL
- BLAST todos contra todos
- Esquema de pesos,
- Algoritmo MCL
Ortho MCL no es perfecto! Dos o mas familias pueden quedar unidas equivocadamente O puede una familia ser separada de forma errada
Uniendo homología y sinténia
NO hay herramientas computacionales.
Hmologia comprende parálogos ortólogos etc... Sinténia es orden de genes; la sisntenia puede ser global o local
OAK: ortholog alignments for procariotes
Se basa en que OrthoCLM encuentra las familias de genes en un genoma y luego los genomas restantes se alinean con este genoma "ancla" localizando los bloques sinténicos en los genomas estudiados.


