Profile picture
Thèse Dys* et co @TheseDysco
, 23 tweets, 8 min read Read on Twitter
Bon aller je ne me suis pas encore présenté sur #thésolie et je crois bien être une des dernières a ne pas l'avoir fait donc c'est partie. Je suis une thèse en bioinformatique, non la bioinformatique c'est pas faire de l'informatique avec de la biologie c'est l'inverse !
On peut résumer sa: a l'ensemble des outils mathématiques, statistiques et informatiques pour la biologie. Vous pouvez lire cette page bioinfo-fr.net/aux-origines-d… ou celle-ci fr.wikipedia.org/wiki/Bio-infor… pour plus d'information !
C'est un domaine très large mais je vais parler que du miens l'assemblage des génomes. Et non désoler c'est pas mélanger des bouts de génome comme dans jurasic park . #gifAvecLiensTénu
Rapidement vous être biologique stocké les informations utiles a votre maintient, et reproduction sous forme d'une molécule que vous appelez ADN. Une longue molécule composé d'une répétition de 4 base l'Adénine (A) , la Guanine (G), la Cytosine (C) et laThymine (T) #ploymère
Pour savoir comment vous fonctionnez biologiquement parlant il est intéressant de connaitre la succession exacte de ces bases ACCTTGGG est différent de TAGGATTCAGA je rentre pas trop dans les détailles parce qu'en vrais sa ne me concerne pas du tout.
L'ADN est souvent une molécule très très longues par exemple pour les bactéries sa tourne généralement autour de 5*10⁶ bases, 3.4*10⁹ base pour l'homme et pour le blés 17*10⁹ bases c'est très long.
Et pour lire ces successions de base vous disposez de machine qui vont pouvoir lire de petit fragment comparé a la taille totale du génome vous appelez sa des séquenceurs.
Une vidéo qui présente la technologie des séquenceurs illumina :
Une autre qui présente la technologie des séquenceurs Nanopore:


Elles ont des avantages et des inconvénients différent #OnEnReparlera
Mais c'est pas mon sujet !! Les biologistes il donne à manger de l'ADN au séquenceur et le séquenceur il leur rend des fichiers informatiques avec toutes les successions de base qu'il a lue pour tous les fragments qu'on lui a donné.
Mais ces fragments ils sont petits par rapport a la molécule d'ADN de départ. Du coup les biologistes ils ont du mal ça trouver des informations intéressante dedans et c'est là que le bioinformaticien·ne viens sauver tout le monde. #MonAuteurCeHéro
En gros le biologiste il n'a pas donner une seul molécule d'ADN au séquenceur et le séquenceur il a commencé a lire un peut partout au hasard par exemple pour le morceau d'ADN :
TAATGCCATGGGATGT
Le séquenceur il rend :
ATG
GGG
AAT
GGA
CAT
TGC
GGG
ATG
CCA
TGG
GGA
TGC
ATG
GAT
AAT
GAT
ATG
TGG
GCC
GCC
ATG
TAA
ATG
TAA
CAT
CCA
Ces morceaux il partage des fragments en commun et du coup on peut les coller pour faire un morceau plus grand CTT et TTG donne CTTG et on peut rajouté d'autre morceau a la fin c'est cool non.
Pour faire sa les bioinformaticien·ne·s travaille pas a la main, les bioinformaticien·ne·s ont crée des programmes qu'on appel des assembleurs, ces assembleurs il construise des graphes d'assemblages.
Alors un graphes c'est une notion informatiques mais globalement c'est juste une manière de représenté des trucs avec des nœuds et des arcs. fr.wikipedia.org/wiki/Th%C3%A9o…
Dans le graphe d'assemblage les nœuds représentes les morceaux d'ADN et on fais des liens entre eux quand il partage suffisamment d'ADN sur l'image c'est le graphe d'assemblage de l'exemple ou on crée des arcs entre les nœuds quand il partage 2 bases. rouge = début vert = fin
Et si on suit le chemin qui nous est indiqué par les flèches on peut reconstruire la séquence d'origine mais le problème que vous observez c'est qu'on peut reconstruire deux séquences en suivant les flèches :

TAATGCCATGGGATGT
TAATGGGATGCCATGT
C'est parce que notre séquence contient une répétition cette répétition est ATG on voit trois fois ATG dans notre séquence de base.

La nôtre séquence est petite on a qu'une seule répétition du coup il n'y a que deux séquences qu'on possible mais je vous laisse imaginé quand
le génome est grand 5*10⁶ par exemple et avec beaucoup plus de répétition. Les graphes sont très compliqués. Du coup plus tôt que de risqué de se trompé les assembleurs il font des contigs, un contigs c'est un bout du graphe ou il n'y a plusieurs chemins possibles.
Un chemins dont on est sur !!
Dans notre exemple on a 4 contigs :
TAATG
ATGCCATG
ATGGGATG
ATGT

Et la on arrive enfin pas trop loin de mon sujet !!

Mais on continuera demain !!

#thèseFatigueThèseUsée #Thèsolie #sujetComplique #Vulgarisation
merci a @dridk pour l'exemple vous pouvez aller lire son article de blog qui parle d'assemblage dridk.me/assemblage.html
Si vous avez des questions héssité pas je tenterais de trouvez des réponses en moi !
@threadreaderapp unroll this !
Missing some Tweet in this thread?
You can try to force a refresh.

Like this thread? Get email updates or save it to PDF!

Subscribe to Thèse Dys* et co
Profile picture

Get real-time email alerts when new unrolls are available from this author!

This content may be removed anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just three indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member and get exclusive features!

Premium member ($3.00/month or $30.00/year)

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!