Binning de metagenomas

El binning de metagenomas es el proceso mediante el cual se agrupan los contigs obtenidos del ensamblaje metagenómico en unidades biológicas más completas, conocidas como bins o MAGs (Metagenome-Assembled Genomes). Este proceso es crucial para la reconstrucción de genomas individuales a partir de datos metagenómicos, lo que permite realizar análisis taxonómicos, funcionales y comparativos a nivel de genoma completo. El binning se basa en la información de cobertura, composición y co-abundancia de los contigs para agruparlos en bins que representen genomas individuales o fragmentos genómicos de organismos presentes en la comunidad microbiana.

NotaObjetivos

Comprender las estrategias de binning en metagenómica y generar bins (MAGs), para posteriormente anotarlos, clasificarlos y visualizarlos utilizando herramientas especializadas de análisis genómico.

En este taller se usaran nuevamente las muestras de metagenomas de pacientes con VIH y sin VIH, que fueron ensambladas a nivel de contigs mediante megahit. Los contigs se encuentran disponibles en el directorio ~/Datasets/Taller8. Los archivos son:

Archivo Descripción
control.contigs.renamed.fa Contigs de un muestreo al 10% del control (Q_C3)
case.contigs.renamed.fa Contigs de un muestreo al 10% del caso (Q_H1)

Note que estos fueron generados usando megahit:

megahit -1 SRR13452514_1.f10.fastq.gz -2 SRR13452514_2.f10.fastq.gz -o <outdir>
megahit -1 SRR13452521_1.f10.fastq.gz -2 SRR13452521_2.f10.fastq.gz -o <outdir>
Advertencia

Si desean pueden usar los archivos de los contigs generados en la práctica anterior por ustedes mismos, bajo su responsabilidad y riesgo 😬

Importante

Tome pantallazo de cada punto del taller y agréguelos en el informe

I. Binning de MAGs

  1. Realice el binning de los metagenomas de las dos muestras usando Vamb. El proceso consta de varias etapas:

    1. Concatenar el catálogo de contigs de las muestras de control y caso.
    2. Mapear las lecturas de cada muestra al catálogo de contigs con minimap2
    3. Generar los archivos BAM correspondientes.
    4. Realizar propiamente el binning con vamb

Use el ambiente de conda vamb-4.1.3 para correr vamb. Si está enviando un trabajo a un cluster, recuerde que debe activar el ambiente de conda antes de correr el comando, para eso utilice source activate vamb-4.1.3. Las funciones concatenate.py y el paquete minimap2 están disponibles en el mismo ambiente.

  1. Concatenar el catálogo de genes de las muestras de control y caso.
concatenate.py catalogue.fna.gz <contigs-case>.fa <contigs-control>.fa
minimap2 -d catalogue.mmi catalogue.fna.gz;
  1. Mapear las lecturas de cada muestra al catálogo de contigs con minimap2 y,
  2. Generar los archivos BAM correspondientes.
minimap2 -t 8\
         -N 5\
         -ax sr catalogue.mmi\
         --split-prefix mmsplit\
         <reads-fraction-forward>.fastq.gz <reads-fraction-forward>.fastq.gz\
         | samtools view -F 3584 -b --threads 8 > <{case|control}>.bam
PrecauciónBono

¿Qué hace la linea de comando samtools view -F 3584 -b --threads 8 > <{case|control}>.bam

  1. Correr binning con Vamb
vamb --outdir <outdir> --fasta catalogue.fna.gz --bamfiles <maped-reads-{case|control}>.bam --minfasta 500000 -o C

Explique la función del parámetro --minfasta en vamb y qué valor elegiría en este contexto. Justifique su elección. Además, indique si existe otra forma de obtener los archivos fasta de los bins generados por vamb sin utilizar el parámetro --minfasta, y explique brevemente cómo se podría hacer.

  1. Revise los bins generados utilizando CheckM. Muestre y describa las estadísticas de calidad de los bins obtenidos y concluya sobre su calidad.

  2. Discuta el número de bins generados en relación con cada una de las muestras. ¿Qué puede concluir sobre el número y las características de los bins obtenidos en cada muestra?

II. Clasificación, Anotación y Visualización de los bins

  1. Para clasificar los bins generados, use la herramienta GTDB-Tk y el comando classify_wf. Revise la clasificación taxonómica de los bins y describa el lineaje taxonómico de los bins de cada muestra.

Para la clasificación de los bins generados, use el ambiente de conda gtdbtk-2.3.2. Si está enviando un trabajo a un cluster, recuerde que debe activar el ambiente de conda antes de correr el comando, para eso utilice conda activate gtdbtk-2.3.2.

gtdbtk classify_wf --genome_dir <bins-dir> --out_dir <classified-bins> --skip_ani_screen
  1. Anote el bin más completo de cada muestra de forma general mediante bakta del mismo modo que anotó los contigs en la práctica anterior. Muestre el resumen de la anotación del bin más completo en cada una de las muestras.

  2. Como se ha discutido a lo largo del curso, existen múltiples herramientas y enfoques para el análisis de datos genómicos y metagenómicos. Proksee es una plataforma que permite visualizar genomas procarióticos y explorar de manera interactiva sus anotaciones, facilitando la interpretación de la organización genómica y de las características funcionales de los bins o MAGs obtenidos. Ingrese a Proksee y describa las principales características de esta herramienta, así como su posible utilidad para analizar y visualizar los bins generados en esta práctica.

PrecauciónBono

Ingrese a Proksee y visualice el bin más completo de cada muestra. Describa las características y muestre la visualización que obtiene luego de utilizar los parámetros de la interfaz.1


  1. Notarás que la anotación de los genomas o bins puede hacerse directamente en Proksee, esto es posible pero recuerde dar la información de las estadísticas de anotación.↩︎