Rocio Bautista 🧬🧫🧪 Profile picture
Doctora en Biología 🧬. Responsable de la Unidad de #Bioinformatica del #SCBI en #UMA. #Feminista. Enamorada de la #divulgación y la #educación, #madre #Mijas

Jun 5, 2022, 11 tweets

En #bioinformática se utilizan ficheros 💾 en formato estándar para unificar los resultados. Muchos de estos ficheros derivan de la aplicación de las técnicas de secuenciación nucleotídica 🧬.Abrimos 🧶👇 para describir algunos ejemplos, que no son todos (1/9) @scbi_uma @InfoUMA

El resultado de los procesos de secuenciación se muestran en ficheros tipo 'file.fastq'. Éstos tienen una estructura muy establecida, incorporando tanto la secuencia como la calidad de los nucleótidos secuenciados (fuente: en.wikipedia.org/wiki/FASTQ_for…) (2/9).

Los ficheros file.fastq son la entrada para otros muchos algoritmos, como los algoritmos de ensamblaje, de genomas o transcriptomas. El resultado de aplicar estos algoritmos devuelve un fichero 'file.contig.fa' que contiene, en formato fasta, los contigs reconstruidos (3/9)

También podemos posicionar las lecturas de los file.fastq sobre los file.contig.fa reconstruidos (referencia). Este posicionamiento genera un fichero denominado 'file.sam' (Sequence Aligment Mapping) que en su forma binaria es 'file.bam' (fuente: samformat.info/sam-format-flag) (4/9).

A partir de los file.sam/file.bam podemos identificar las variaciones nucleótidicas que pudieran existir entre los datos contenidos en el 'file.fastq' y la referencia file.contig.fa utilizada +

Esas variaciones se recogen en un fichero 'file.vcf' (Variant Call Format), las cuales pueden ser de distintas longitudes: SNP, Indels (inserciones o delecciones) o SV (variaciones estructurales). Su forma binaria genera un 'file.bcf' (fuente: en.wikipedia.org/wiki/Variant_C…). (5/9)

Cuando se le añade información funcional a los ficheros file.vcf se genera un fichero denominado 'file.maf' (Mutation Annotation Format). Se trata de un fichero en formato texto y tabulado (fuente: docs.gdc.cancer.gov/Encyclopedia/p…)(6/9).

La descripción funcional de regiones nucleotídicas se suelen presentar en ficheros tipo 'file.gtf' o 'file.gff3'. Se trata de ficheros de texto tabulados y estandarizados. Un formato un poco más complejo serían los denominados 'file.gbk' (fuente: ensembl.org/info/website/u…) (7/9).

En algunas ocasiones solo necesitamos delimitar la posición de ciertas características de los genomas o los transcriptomas, sin incorporar más información. En ese caso se suele utilizar un fichero denominado 'file.bed' (fuente: ensembl.org/info/website/u…) (8/9)

Un fichero específico de procesos de análisis de #metataxonómica con genes marcadores es el 'file.biom' (Biological Observation Matrix). Un fichero estándar tipo JSON que contiene información de la abundancia de los genes marcadores en la muestra y su taxonomía asociada (9/9).

Habéis visto una pequeña parte de la gran variedad de ficheros diferentes con los que trabajos en #bioinformática. En esta ocasión, el nexo común es el tratamiento de texto, todo es texto. Otro día hablaremos de cómo se transforma esa información en texto en un valor numérico 😉

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling