Genómica Comparativa Bacteriana

De WikiJaveriana

Tabla de contenidos

Tree of Life

Construido a partir de la clase magistral del Dr. J. Setubal, Florianópolis, SC, Brasil, 8 de Julio de 2008 Curso EMBO: Advanced Course in Genomic Analysis in Bioinformatics.


Imagen:Tree of life int.png

Eukaria

Bacteria

Bacteria es mucho mas amplio que los otros dos, baásicamente porque hay mas genomas secuenciados de bacterias. Las bacterias se dividen en Protobacterias como E.Coli que se dividen en alfa, beta, delta, gamma.

alfa proteobacteria

A su vez se dividen en:

Rhizobiales Rhodobacteriaceas Caulobacteriales Hypomonadaceae

Mitocondria.

Archaea

Nociones Básicas de Genómica

Motivación para la genómica comparativa

  • Hay mas de 300 genomas completos microbianos terminados y públicamente disponibles.
  • Muchos de especias fuertemente relacionadas.

Hay que recordar que en los 70´s se secuenciaba con el método de sanger, hasta los 80´s que se automatizó el proceso y aparece el boom de secuenciaciones, que se puede llamar la fase 2 en secuenciación, ahora la fase 3 la tecnología de pirosecuenciación [1], [2],permite disminuir costos, de tal forma que s eespera un crecimiento exponencial en comparación a los 80's y 90's.

1'000,000 de pb un millon de dolares hoy dia 1'000,000 pb vale como 5000 dolares


  • Para que?

Para entender las bases genómicas del presente.

Se tienen diferencias en tipos de vida, como por ejemplo patógenos y no patógenos, o , Vida libre y "sedentarios". Que hace que estos sea posible es una motivación. Otra es la especificidad de hospedero, animales, planta, planta X vs. planta Y, etc. Obviamente en caso de las patógenas tiene interés en el conocimiento y tratamiento de enfermedades.

  • Para entender el pasado

Cómo han evolucionado los organismos al punto en que los encontramos ahora.

Ver Xantomonas axonopodis pathovar citri Xantomonas campestris pathovar campestris

Que es genómica comparatviva

Asume que la unidad de entrada es el genoma y su anotación Hay muchas formas de comparar, dependiendo de la resolución.

  • Completo

Alineamientos Sintenia (orden y conservacion de genes) Regiones anomalas

  • Centrado en genes

Nucleótidos mutaciones puntuales

Resolución

  • Baja

Genomas enteros ejemplo: de evento que se ve: rearreglos

  • Alta

Secuencias de nucleótidos ejemplo se ven mutaciones puntuales.

Ante la pregunta de en que resolución se debe trabajar, hay que tener en cuenta la relevancia del trabajo experimental mojado, el trabajo conjunto de las dos metodologías es indispensable para obtener conocimiento.

Una ataca citricos y la otra repollos, familias diferentes de plantas atacados por el mismo género de bacterias, con síntomas diferentes.

Alineamiento del replicón completo: pareado y múltiple

Alineación completa de replicones, pareados.

Replicón, en el caso de procariotas es el cromosoma principal o algún plásmido, "genomas multipartitos".

Hay que tener el replicón linearizado, generalmente por el OriC

  • Puede ser que al comparar A y B sean idénticos
  • Puede ocurrir que haya una inversión. Se han encontrado cerca del origen de la replicación en forma general.

Imagen:Schematic model of genome inversions.png http://genomebiology.com/2000/1/6/research/0011.1

En esta imagen se ve la comparación de diferentes replicones de forma pareada y como se inicia un proceso de especiación.


Las diagonales significan que los dos replicones tiene un ancestro común, y esta "diagona" sería el esqueleto, (backbone). (los Esquemas se realizan con MumMer)

Lo Básico de MUMmer

  • Es pareado.

Los alineamientos dinámicos como blast no pueden lidiar con cosas como un replicón. Para esto MUMmer permite comparar rápidamente secuencias muy largas.

  • Ancuentra Maximal Unit Matches*Las unidades se clusterizan y luego son extendidas (usando programación dinámica)
    • Los resultados son matches aproximados
  • La estructura para encontrar exact matching finding: usa árboles de sufijos.
  • Nucmer y promer
    • Los dos muy rápidos
    • Corren linealmente en función de la longitud de la comparación, programas como Blast en el mejor de los casos se comportan de forma cuadrática con relación al largo de la secuencia.
  • El precio es que da una aproximación no es exacto, puede perder algunas regiones

MAUVE

Para realizar alineamiento múltiples, con Clustal se pueden hacer alineamientos de secuencias medianas no en gran cantidad. MAUVE es una herramienta que permite analizar multiples replicomas al mismo tiempo.

Muestra regiones que son compartidas por todas las secuencias. Imagen:Rearrangements.jpg


  • Funciona con el método de encontrar semillas y extenderlas.
  • Busca un Local Colinear Block LCBs(los cuadros de colores).

Las comparaciones en MAUVE, se toman horas de cálculo.

Comparaciones centradas en genes

  • Homologos: genes que tienen el mismo ancestro, en general la misma función
  • Ortólogos: El ancestro ya tenía una duplicación y despues de la especiación esas duplicaciones tiene diferentes funciones.
  • Parálogos:

o que se quiere saber es como se comparten los genes en un grupo.

En un diagrama de Venn de 3 conjuntos la intersección de los 3 grupos son los genes ortólogos se comparten por los 3.

Se puede revisar el artículo Rickettsia Phylogenomics: Unwinding the Intricacies of Obligate Intracellular Life, publicado en 2008 como motivación sobre como un estudio conciensudo de ortólogos y parálogos da muy buena información.

Como econtarrlos ortologos

  • La habilidad de distinguir entre parálogos in y out.
    • Los in deben agruparse con sus ortólogos
  • Arquitectura de dominios, en lugar de compartir un solo dominio.

Métodos

  • Arbóles Filogenéticos, pero requiere de mcha experiencia y esfuerzo, muchas veces no es unmétodo práctico (por ejemplo con Mr.Bayes)
  • BLAST, usar similaridad
  • Agrupamientos: MCL
  • orthoMCL, es una buena aproximación entre filogenias y BLAST, por la accuracy de la filogenia y la velocidad de bLAST. No se debe olvidar que no s tan accuracy como la filogenia, es el precio que se paga por la velocidad.
OrthoMCL
  1. BLAST todos contra todos
  2. Esquema de pesos,
  3. Algoritmo MCL
Ortho MCL no es perfecto! 
Dos o mas familias pueden quedar unidas equivocadamente
O puede una familia ser separada de forma errada

OrthoMCL

Uniendo homología y sinténia

NO hay herramientas computacionales.

Hmologia comprende parálogos ortólogos etc... Sinténia es orden de genes; la sisntenia puede ser global o local

OAK: ortholog alignments for procariotes

Se basa en que OrthoCLM encuentra las familias de genes en un genoma y luego los genomas restantes se alinean con este genoma "ancla" localizando los bloques sinténicos en los genomas estudiados.

Herramientas personales