En #bioinformática se utilizan ficheros 💾 en formato estándar para unificar los resultados. Muchos de estos ficheros derivan de la aplicación de las técnicas de secuenciación nucleotídica 🧬.Abrimos 🧶👇 para describir algunos ejemplos, que no son todos (1/9) @scbi_uma @InfoUMA
El resultado de los procesos de secuenciación se muestran en ficheros tipo 'file.fastq'. Éstos tienen una estructura muy establecida, incorporando tanto la secuencia como la calidad de los nucleótidos secuenciados (fuente: en.wikipedia.org/wiki/FASTQ_for…) (2/9).
Los ficheros file.fastq son la entrada para otros muchos algoritmos, como los algoritmos de ensamblaje, de genomas o transcriptomas. El resultado de aplicar estos algoritmos devuelve un fichero 'file.contig.fa' que contiene, en formato fasta, los contigs reconstruidos (3/9)
También podemos posicionar las lecturas de los file.fastq sobre los file.contig.fa reconstruidos (referencia). Este posicionamiento genera un fichero denominado 'file.sam' (Sequence Aligment Mapping) que en su forma binaria es 'file.bam' (fuente: samformat.info/sam-format-flag) (4/9).
A partir de los file.sam/file.bam podemos identificar las variaciones nucleótidicas que pudieran existir entre los datos contenidos en el 'file.fastq' y la referencia file.contig.fa utilizada +
Esas variaciones se recogen en un fichero 'file.vcf' (Variant Call Format), las cuales pueden ser de distintas longitudes: SNP, Indels (inserciones o delecciones) o SV (variaciones estructurales). Su forma binaria genera un 'file.bcf' (fuente: en.wikipedia.org/wiki/Variant_C…). (5/9)
Cuando se le añade información funcional a los ficheros file.vcf se genera un fichero denominado 'file.maf' (Mutation Annotation Format). Se trata de un fichero en formato texto y tabulado (fuente: docs.gdc.cancer.gov/Encyclopedia/p…)(6/9).
La descripción funcional de regiones nucleotídicas se suelen presentar en ficheros tipo 'file.gtf' o 'file.gff3'. Se trata de ficheros de texto tabulados y estandarizados. Un formato un poco más complejo serían los denominados 'file.gbk' (fuente: ensembl.org/info/website/u…) (7/9).
En algunas ocasiones solo necesitamos delimitar la posición de ciertas características de los genomas o los transcriptomas, sin incorporar más información. En ese caso se suele utilizar un fichero denominado 'file.bed' (fuente: ensembl.org/info/website/u…) (8/9)
Un fichero específico de procesos de análisis de #metataxonómica con genes marcadores es el 'file.biom' (Biological Observation Matrix). Un fichero estándar tipo JSON que contiene información de la abundancia de los genes marcadores en la muestra y su taxonomía asociada (9/9).
Habéis visto una pequeña parte de la gran variedad de ficheros diferentes con los que trabajos en #bioinformática. En esta ocasión, el nexo común es el tratamiento de texto, todo es texto. Otro día hablaremos de cómo se transforma esa información en texto en un valor numérico 😉

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Rocio Bautista 🧬🧫🧪

Rocio Bautista 🧬🧫🧪 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @Rociobm1

Apr 11
En muchas ocasiones me preguntan en clase dónde encontrar #cursos y/o #tutoriales ✍️ de introducción a la #bioinformática 🧬💾 de acceso libre. Os dejo una entrada abierta que iré completando con aquellos más representativos. Se admiten sugerencias. ¡Abrimos hilo 🧶 👇!@scbi_uma
Curso introductorio a la bioinformática aplicada, enfocado a Python y Biopython. Utilizado como aproximación a la #bioinformática por la UC San Diego. Desarrollado, originariamente, por Sabeel Mansuri y Mark Chernyshev. Actualizado en enero 2022 (/1).
bioinformaticscrashcourse.com
Cursos y turoriales desarrollados por el Centro de Regulación Genómica de Barcelona, @CRGenomica. Centrados principalmente en el análisis de datos ómicos (/2).
biocorecrg.github.io/courses
Read 14 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(