Tweet

Molo

Jan 31 • 30 tweets • 7 min read

Mein Nerd-Herz schlägt: Mein Coronavirus wurde zufällig sequenziert.

Schau ich mal, was da so drinsteckt.
[Thread]

Am 4. Januar hab ich mich abstreichen lassen und wurde positiv getestet (Hatte am 28. Dezember ein Date, der Kerl hatte am Tag danach einen positiven Schnelltest).

Das Testergebnis wandert über die Schnittstelle DEMIS als XML-Datei direkt in unsere Datenbank SORMAS.

9 Tage später kam dann... das Ergebnis der Sequenzierung.
Derzeit wird nur ein kleiner Teil der Proben sequenziert, es war ein Glückstreffer, das meine Probe dabei war.

So sieht die Meldung aus:
Uns als Gesundheitsamt interessieren eigentlich nur die Informationen zur Person, die Kontaktdaten (Mailadresse, Telefonnummer), die Virusvariante falls getestet und der ct-Wert, der die Virenlast angibt.

Die Variante: BA.1
BA steht für B.1.1.529, also Omikron.

Das Kürzel ist die Pango-Lineage, ein sehr gutes System um die Verwandschaftsbeziehung zwischen Varianten und Sub-Varianten exakt und verständlich anzugeben.
Schade, dass sich die griechischen Lettern durchgesetzt haben.

Es steht noch mehr in der Meldung – für mich wichtig ist hier die IMS-ID.
(Integrierte Molekulare Surveillance)
Die IMS-ID wird später ohne Angabe der Personendaten über unsere Meldedaten über unsere Meldesoftware Survnet anonym ans RKI übermittelt.

Mitübermittelt wird nur Geburtsjahr/Monat, Geschlecht, und Angaben zum Krankheitsverlauf (Probenentnahme, Symptome, Symptombeginn, Impfungen, Reinfektion, Vorerkrankungen)

Das dezentrale System der Gesundheitsämter hierzulande ist komplett ungeeignet, eine Pandemie effektiv zu bekämpfen, aber es legt dafür sehr viel Wert auf Datenschutz. Die Prioritäten sind so gesetzt.

Mit der IMS-ID kann ich mir über die Datenbank gisaid die Sequenz direkt runterladen.
(Den Account dafür nutze ich nicht beruflich, den hab ich mir aus purer Neugier angelegt. Im Gesundheitsamt machen wir nur Bürokratie, keine Bioinformatik.)

Raus kommt eine FASTA-Datei. Das ist das Unkomplizierteste was die Bioinformatik zu bieten hat:
Eine Kopfzeile pro Sequenz, die mit einem ">" beginnt, und danach einfach nur die Sequenz, 60 Zeichen pro Zeile.
Mein Coronavirus ist 374 Zeilen lang.

Jetzt brauch ich natürlich eine Frage, um sie beantworten zu können, aber ich hab auch schon eine.

Mein Date kommt aus Zypern und ist noch nicht lange in Berlin. Er hatte Weihnachten Besuch aus Griechenland, wo die Omikron-Welle schon früher als bei uns angekommen ist.
Hat er sich bei denen angesteckt oder hier in Berlin?

Dafür nutze ich noch ein Tool, um mir den Virus etwas genauer anzuschauen.
Nextclade, den Genom-Explorer von nextstrain.org

Dafür schaue ich 50 BA.1-Sequenzen aus Berlin an, die zum gleichen Zeitpunkt entnommen worden sind, und 50 aus Griechenland von Ende Dezember.

Rechts die Protein-Sequenz fürs S-Gen, das das Spike-Protein codiert.
Hier die für Omikron typischen Mutationen.

Da muss ich mehr in die Tiefe gehen:
Hier die Mutationen im gesamten Genom, auf DNA-Ebene.
Meins ist ganz unten.
Es gibt schon relativ weit am Anfang zwei Muationen, die nur in einer anderen der 50 Sequenzen auftauchen (der ganz oben)

In den 50 Sequenzen aus Griechenland tauchen diese beiden Mutationen gar nicht auf.

Soweit, so anekdotisch.

Ich bin ja ein kleiner Fan von "Daten immer erst visualisieren, dann analysieren", weil wir als Menschen eigentlich ganz gut darin sind in hübsch angerichteten Graphiken Zusammenhänge zu sehen.

Also mach ich mal weiter, und zwar heute mit Webtools, weil die zugänglicher sind als nerdy Kommandozeilentools.

Zuerst mache ich ein Alignment.
Dabei werden die Sequenzen so angeordnet, dass die ähnlichen Sequenzen untereinanderstehen.
Das geht z.B. mit ClustalOmega
ebi.ac.uk/Tools/msa/clus…

Dabei raus kommt sowas hier (Ausschnitt).
Ein "-" ist eine Gap, also eine Stelle, wo es bei manchen Sequenzen Deletionen oder Insertionen gab, also ein Stück DNA fehlt oder eingebaut wurde.

Das geht auch online, z.B. hier:
ebi.ac.uk/Tools/services…

Es steckt ein aufwändiger Algorithmus dahinter, auch wenn das Problem mit den sehr ähnlichen Sequenzen, die nur einer einzigen Covid-Variante angehören, eigentlich relativ einfach wäre.

Fun Fact:
Für meine Bachelorarbeit hab ich einen Algorithmus programmiert, der aus tausenden phylogenetischen Bäumen für einzelne Gene einen einzelnen Baum konstruiert.
Das war 2011, am Institut für Mikrobiologie und Tierseuchen.
Beim EHEC-Ausbruch.
Betreuer war Lothar Wieler.

Während der Online-Baum-Algorithmus arbeitet,
mache ich das was eine Bioinformatikerin mit neuen Sequenzen halt so macht:
Einfach mal BLASTen.

BLAST ist ein Algorithmus, der deine Sequenz mit quasi allen Sequenzen, die es bis jetzt gibt, vergleicht und ähnliche findet:
blast.ncbi.nlm.nih.gov/Blast.cgi

Hier mal ein Lob an das Internet und die Kultur für offene Daten, die es in der Bioinformatik gibt.
Mit dem Tool hat jede*r Zugriff auf Genome quasi aller Organismen, die bisher sequenziert wurden.
Es ist Magie.

Auch das wird etwas dauern.

Die 100 besten Treffer haben alle 100% Identität zu meiner.
98 davon kommen aus den USA, jeweils 1 aus Japan und Marokko.

Damit kann ich die Berlin- oder Griechenlandthese nicht beantworten, aber ich weiß auch nicht ob von DE und GR viel auf NCBI hochgeladen wird und wenn ja, wann.

Der Baum ist jetzt auch fertig.
Die nähest-verwandten Sequenzen sind aus Berlin, aber es ist nicht komplett eindeutig.

ach ja falls das nicht klar ist
die Sequenzanalysesachen werden im Gesundheitsamt natürlich nicht gemacht das mach ich hier so privat aus Spaß an der Freude

• • •

Missing some Tweet in this thread? You can try to force a refresh

Share this page!

Molo

Try unrolling a thread yourself!

More from @stadtwildnis

Molo

Did Thread Reader help you today?

Don't want to be a Premium member but still want to support us?

Like this author's thread?