En #bioinformática se utilizan ficheros 💾 en formato estándar para unificar los resultados. Muchos de estos ficheros derivan de la aplicación de las técnicas de secuenciación nucleotídica 🧬.Abrimos 🧶👇 para describir algunos ejemplos, que no son todos (1/9) @scbi_uma@InfoUMA
El resultado de los procesos de secuenciación se muestran en ficheros tipo 'file.fastq'. Éstos tienen una estructura muy establecida, incorporando tanto la secuencia como la calidad de los nucleótidos secuenciados (fuente: en.wikipedia.org/wiki/FASTQ_for…) (2/9).
Los ficheros file.fastq son la entrada para otros muchos algoritmos, como los algoritmos de ensamblaje, de genomas o transcriptomas. El resultado de aplicar estos algoritmos devuelve un fichero 'file.contig.fa' que contiene, en formato fasta, los contigs reconstruidos (3/9)
También podemos posicionar las lecturas de los file.fastq sobre los file.contig.fa reconstruidos (referencia). Este posicionamiento genera un fichero denominado 'file.sam' (Sequence Aligment Mapping) que en su forma binaria es 'file.bam' (fuente: samformat.info/sam-format-flag) (4/9).
A partir de los file.sam/file.bam podemos identificar las variaciones nucleótidicas que pudieran existir entre los datos contenidos en el 'file.fastq' y la referencia file.contig.fa utilizada +
Esas variaciones se recogen en un fichero 'file.vcf' (Variant Call Format), las cuales pueden ser de distintas longitudes: SNP, Indels (inserciones o delecciones) o SV (variaciones estructurales). Su forma binaria genera un 'file.bcf' (fuente: en.wikipedia.org/wiki/Variant_C…). (5/9)
Cuando se le añade información funcional a los ficheros file.vcf se genera un fichero denominado 'file.maf' (Mutation Annotation Format). Se trata de un fichero en formato texto y tabulado (fuente: docs.gdc.cancer.gov/Encyclopedia/p…)(6/9).
La descripción funcional de regiones nucleotídicas se suelen presentar en ficheros tipo 'file.gtf' o 'file.gff3'. Se trata de ficheros de texto tabulados y estandarizados. Un formato un poco más complejo serían los denominados 'file.gbk' (fuente: ensembl.org/info/website/u…) (7/9).
En algunas ocasiones solo necesitamos delimitar la posición de ciertas características de los genomas o los transcriptomas, sin incorporar más información. En ese caso se suele utilizar un fichero denominado 'file.bed' (fuente: ensembl.org/info/website/u…) (8/9)
Un fichero específico de procesos de análisis de #metataxonómica con genes marcadores es el 'file.biom' (Biological Observation Matrix). Un fichero estándar tipo JSON que contiene información de la abundancia de los genes marcadores en la muestra y su taxonomía asociada (9/9).
Habéis visto una pequeña parte de la gran variedad de ficheros diferentes con los que trabajos en #bioinformática. En esta ocasión, el nexo común es el tratamiento de texto, todo es texto. Otro día hablaremos de cómo se transforma esa información en texto en un valor numérico 😉
• • •
Missing some Tweet in this thread? You can try to
force a refresh
En muchas ocasiones me preguntan en clase dónde encontrar #cursos y/o #tutoriales ✍️ de introducción a la #bioinformática 🧬💾 de acceso libre. Os dejo una entrada abierta que iré completando con aquellos más representativos. Se admiten sugerencias. ¡Abrimos hilo 🧶 👇!@scbi_uma
Curso introductorio a la bioinformática aplicada, enfocado a Python y Biopython. Utilizado como aproximación a la #bioinformática por la UC San Diego. Desarrollado, originariamente, por Sabeel Mansuri y Mark Chernyshev. Actualizado en enero 2022 (/1). bioinformaticscrashcourse.com
Cursos y turoriales desarrollados por el Centro de Regulación Genómica de Barcelona, @CRGenomica. Centrados principalmente en el análisis de datos ómicos (/2). biocorecrg.github.io/courses