Una de las principales tareas en el tratamiento de datos en #bioinformática 🧬💾 es la encadenación de procesos para construir lo que se denomina #WorkFlow ⚙️ . A menudo estos procesos suelen dar error, lo que en muchas ocasiones nos obliga a reiniciar todo el trabajo. (1/9)
Con el fin de automatizar estas tareas y desarrollarlas de la forma más eficiente existen los gestores de trabajo, que nos permiten agilizar y personalizar los análisis. Aquí os dejo los más representativos (2/9) 🧶👇:
#Bpipe una plataforma para ejecutar grandes trabajos de #bioinformática. Actualizado en septiembre del 2021. Además, posee algunos ejemplos de procesos de análisis estandarizados en bioinformática que nos serán muy útiles (3/9) 👇: docs.bpipe.org
#Netflow, es uno de los más recomendados. Existen muchas herramientas bioinformáticas gestionadas por Netflow. Puedes reutilizar tus propios scripts y herramientas, no necesitas aprender un nuevo lenguaje o API para comenzar a usarlo (4/9)👇: nextflow.io
#Ruffus, se trata de una librería para Python, de código abierto. Permite la automatización de análisis con el mínimo esfuerzo (6/9) 👇 : ruffus.org.uk
#Seqware, conjunto de herramientas que permiten el análisis de datos de NGS (Next Generation Sequencing). Sin mantenimiento del 2014 (7/9) 👇 : seqware.github.io
#Snakemake, es otro de los gestores de flujos de trabajo más populares. Crea flujos reproducibles y escalables. El lenguaje de uso es Python. Adaptado a distintos entornos: servidor, cluster o nube. Última versión V5.6, amplia comunidad (8/9) 👇 : snakemake.readthedocs.io/en/stable/
La oferta es variada pero como muchas veces ocurre puedes encontrarte a programadores que nos les convenza ninguno de ellos y acaben desarrollando su propio gestor. Ese es nuestro caso en el @scbi_uma de la @InfoUMA ✍️😉⚙️💾🧬 (9/9) #bioinformatic#SCBI#UMA#DataScience
• • •
Missing some Tweet in this thread? You can try to
force a refresh
En #bioinformática se utilizan ficheros 💾 en formato estándar para unificar los resultados. Muchos de estos ficheros derivan de la aplicación de las técnicas de secuenciación nucleotídica 🧬.Abrimos 🧶👇 para describir algunos ejemplos, que no son todos (1/9) @scbi_uma@InfoUMA
El resultado de los procesos de secuenciación se muestran en ficheros tipo 'file.fastq'. Éstos tienen una estructura muy establecida, incorporando tanto la secuencia como la calidad de los nucleótidos secuenciados (fuente: en.wikipedia.org/wiki/FASTQ_for…) (2/9).
Los ficheros file.fastq son la entrada para otros muchos algoritmos, como los algoritmos de ensamblaje, de genomas o transcriptomas. El resultado de aplicar estos algoritmos devuelve un fichero 'file.contig.fa' que contiene, en formato fasta, los contigs reconstruidos (3/9)
En muchas ocasiones me preguntan en clase dónde encontrar #cursos y/o #tutoriales ✍️ de introducción a la #bioinformática 🧬💾 de acceso libre. Os dejo una entrada abierta que iré completando con aquellos más representativos. Se admiten sugerencias. ¡Abrimos hilo 🧶 👇!@scbi_uma
Curso introductorio a la bioinformática aplicada, enfocado a Python y Biopython. Utilizado como aproximación a la #bioinformática por la UC San Diego. Desarrollado, originariamente, por Sabeel Mansuri y Mark Chernyshev. Actualizado en enero 2022 (/1). bioinformaticscrashcourse.com
Cursos y turoriales desarrollados por el Centro de Regulación Genómica de Barcelona, @CRGenomica. Centrados principalmente en el análisis de datos ómicos (/2). biocorecrg.github.io/courses