Bases de datos y la terminal

En el campo de la Ecología Microbiana y la biología computacional, el acceso a bases de datos y el uso de la línea de comandos son habilidades fundamentales para realizar análisis e investigaciones. En este capítulo, exploraremos cómo realizar búsquedas en bases de datos como las del NCBI y EBI, así como el uso de comandos en la terminal del sistema operativo Unix.

NotaObjetivos

Repasar comandos para realizar búsqueda en bases de datos como las del NCBI y EBI en búsquedas de utilidad en el contexto de análisis en Ecología Microbiana, así como también el uso de la línea de comandos en el sistema operativo Unix, combinando conceptos tanto informáticos como biológicos vistos en clase hasta ahora.

I. Búsqueda en bases de datos

En primer lugar, vamos a realizar una búsqueda de literatura en la base de datos del NCBI a través de PubMed. Esta búsqueda nos permitirá obtener artículos relevantes relacionados con nuestro tema de interés en Ecología Microbiana.

Especifique como realizó la búsqueda para cada punto. Solo si es necesario, adjunte pantallazos que acompañen la búsqueda.

  1. Busque artículos con Guankui Du como autor. ¿Cuántos encuentra?

  2. Ahora busque artículos por Guankui Du y Li Ying , cuantos obtiene?

  3. Seleccione el artículo Effects of cat ownership on the gut microbiota of owners

  4. ¿Cuantos individuos se analizaron en ese estudio?

  5. En Información relacionada, buscar Data Availability. ¿Cuál es el número de acceso de este proyecto? ¿A qué proyecto pertenecen los datos?

  6. ¿Cuántas entradas hay en SRA?

  7. ¿A que corresponden los datos que están en SRA?

  8. Busque el sample id ERR1072659. A que tipo de estrategia de secuenciación corresponde? ¿Qué instrumento se usó para generar estos datos? ¿Cuantas corridas hacen parte de este experimento? ¿Y cuantas secuencias en total se generaron?

  9. Si entra a la corrida ERR1072659 en la sección de análisis que información le da? Cuál es el phylum bacteriano más abundante?

  10. Que información le da la sección reads y la sección Data Access? En el EBI

  11. Realice la misma búsqueda de artículos escritos por Guankui Du y Li Ying entre 2017 y 2023. De esta búsqueda: ¿Cuantos resultados da? ¿Son los mismos?

  12. Seleccione nuevamente el mismo artículo. ¿Cuántas citas obtiene? De un pantallazo de las citas en función del tiempo. ¿Si es diferente a los resultados del NCBI a que cree que se debe la diferencia?

  13. En la sección de datos hay vínculos nuevamente a Bio-estudios, secuencias de nucleótidos y Magnify. ¿A que corresponde y a donde los lleva cada uno de estos links?

  14. Al entrar a Magnify ¿qué información pueden encontrar en esta base de datos? Con el número de accesión PRJEB11419 ¿a qué información puede acceder en los links correspondientes? (de ser necesario espere un poco a que cargue la información)

  15. En el link de nucleótidos que lleva al ENA, hay referencia a un estudio. El Accession number de este estudio es el mismo encontrado en el NCBI? ¿A dónde lleva ese vínculo?

  16. ¿Es posible encontrar las mismas corridas? ¿El mismo experimento? ¿Como se reconocen los códigos de acceso de las corridas o los experimentos? ¿Permite ver los análisis o descargar los datos?

  17. En el link a Magnify ¿cuantos análisis están disponibles para este estudio? ¿Corresponden a los datos de secuenciación del gen 16S? o a shotgun metagenomics?

  18. Entrando al primer análisis, correspondiente al ERS1265399 (MGYA00608637). ¿Qué información le da cada una de las diferentes pestañas siguientes pestañas: Quality Control, Taxonomic analysis, Functional analysis, Download?.

  19. ¿Considera más útiles los resultados obtenidos con el NCBI o con el EBI? Explique.

II. Comandos básicos en Unix

Inicie una sesión en el cluster vía ssh como se muestra en la introducción a los talleres.

  1. Para guardar tanto los comandos que ejecuta como los resultados use el comando script (e.j. script Resultados_Taller1_grupo01.txt).

  2. Identifique en qué directorio y cuál es el path completo de donde se encuentra al iniciar la conexión.

  3. Liste los contenidos en el directorio actual.

  4. Cree su directorio de grupo con el nombre ejemplo: Grupo_01

  5. Cambie de posición y entre al directorio de su grupo que acaba de crear. 6. ¿A dónde lo lleva el comando cd ~ y el comando cd ..? Vuelva al directorio del grupo que creó.

  6. Cree un subdirectorio (en su directorio de grupo), llámelo Taller_1 y muévase a ese subdirectorio.

  7. Liste los contenidos en el directorio Datasets usando la ruta relativa.

  8. Del directorio Datasets/Taller_2 copie el archivo comprimido llamado unix_class_file_samples.zip al directorio en el que se encuentra en este momento.

  9. Liste los archivos en el directorio actual de modo que pueda observar los permisos de lectura, escritura y ejecución del mismo, la fecha, y el tamaño. ¿Qué tamaño tiene este archivo comprimido?

  10. Cámbiele el nombre al archivo que copió, de modo que el nuevo nombre sea files-[GrupoX].zip.

  11. Descomprima los archivos y revise nuevamente qué tamaño ocupan. ¿Hay algún archivo ejecutable?

  12. Visualice cada uno de los archivos descomprimidos, ¿reconoce los formatos en los que se encuentran? ¿qué le indican las extensiones? Describa a qué corresponde cada formato.

  13. Busque la expresión product=16S ribosomal RNA en el archivo GCF_000005845.2_ASM584v2_genomic.gff con el comando grep. ¿Cuántas copias encuentra? ¿A qué se debe?

III. Ejecutando un script en el cluster

Consulte la documentación de Hypatia en la ruta: /hpcfs/shared/README/. Lea, en su orden, los siguientes archivos: a. readme.txt

  1. srun.txt
  2. partitions.txt
  3. testjob.sh
  1. De acuerdo a su lectura, responda a las siguientes preguntas:
  • ¿Qué es SLURM, para que se usa y por qué es importante? Explore en línea cuáles son los comandos básicos para utilizar bajo este sistema. ¿Para qué se utilizan sbatch, srun, scancel, y squeue? También puede usar el comando man para determinar qué hacen y qué argumentos toman estos y otros comandos.

  • Después de consultar los contenidos del archivo srun.txt en /hpcfs/shared/README/, explique cómo se especifican los recursos requeridos en una sesión interactiva. ¿Para qué sirve modificar estos valores de los argumentos?

  • ¿Qué particiones existen y qué límites de tiempo y capacidad de memoria RAM tiene cada una? ¿Para una corrida de prueba, qué partición usaría?

  • Use el archivo testjob.sh que ya se encuentra en su directorio de grupo. ¿Qué parámetros de solicitud de recursos puede modificar?

  1. Inicie un nodo interactivo (srun --pty bash) y asegúrese de estar en el subdirectorio Taller01 del grupo que creó.

  2. Liste los módulos existentes en Hypatia y los que tiene cargados en este momento.

  3. Va a correr un script utilizando bash. Pero primero, identifique si bash está dentro de su PATH de ejecución. ¿Cómo lo hace?

  4. Verifique la dirección donde se encuentra bash con el commando which.

  5. Cambie los permisos del archivo (testjob.sh) para que sean ejecutables por el dueño del archivo pero no por el grupo.

  6. Ahora sí ejecute el script, ¿qué aparece impreso en la terminal? Consulte qué es standard output y el standard error en el contexto de ejecución de un programa.