On ne le dira jamais assez : ARRÊTEZ DE PUBLIER DES CERTIFICATS DE VACCINATION SUR INTERNET !

Je vous propose un thread d'exemple avec cet article @France3tv, on va essayer de reconstituer le 2D-DOC "flouté" (et ce sera une excuse pour en apprendre beaucoup sur Datamatrix 😉) ⤵️ ImageImage
Saluons avant de commencer le courage de @Jefffrey68 qui a décidé de sacrifier son propre pass sanitaire pour la photo ;) Image
Le 2D-DOC (première version des certificats de vaccination) est encodé au format Datamatrix ECC-200, qui est comme la plupart des code-barres 2D résistant à des dégâts partiels des données, ici à l'aide de codes correcteurs Reed-Solomon.
Avec suffisamment de persévérance et un peu de lecture de documentation, il est complètement possible de décoder manuellement un Datamatrix.

Ici, on va essayer d'extraire le plus de données possibles (comme je n'ai trouvé aucun lecteur qui arrive à le lire, même partiellement)
On commence par l'emballage : un Datamatrix est forcément entouré d'une barre de pixels noirs sur deux côtés, et de pointillés sur les deux autres côtés. Si les dimensions sont trop grandes, on fait des subdivisions comme c'est le cas dans le 2D-DOC (2x2 régions). Image
Pour décoder, on va se baser sur ce pavage régulier de motifs en forme de L qui contiennent chacun 8 bits.

Ici, je mets un point rouge sur le bit de poids faible pour mettre en évidence la régularité du pavage. Image
Une fois ce découpage effectué, on peut commencer à décoder les octets bruts contenus dans le 2D-DOC. C'est tout simple, chaque motif en L se lit dans le sens de lecture en partant d'en haut à gauche. Dans cet exemple, on trouve 00101001 soit 41. Image
Tous les octets sont décodés dans un ordre de zigzag bien déterminé : Image
Une fois que tous les octets lisibles sont transcrits, il faut procéder à une dernière étape de décodage avant de pouvoir lire les données (tout du moins ce qu'on parvient à transcrire !) Image
Dans le screenshot du tweet précédent, on voit bien que les données brutes (avant décodage donc) ne correspondent pas du tout à ce qu'on trouve en scannant un certificat de vaccination avec un lecteur classique, cf.
Il y a plusieurs éléments à prendre en compte. Déjà, les caractères sont décalés de 1 dans la table ASCII. Ainsi, les lettres "ED" que l'on voit se décodent en "DC". Ce qui correspond déjà bien au "DC04FR03" que l'on retrouve dans les 2D-DOC de vaccination ! Image
Ensuite, les choses se compliquent un peu. Quand on essaie de regarder le caractère 0x85 dans la table ASCII, on se rend compte que c'est un caractère spécial (comme tous les caractères après 0x7F)...
En lisant la doc, on peut lire que les valeurs 130 à 229 encodent toutes les paires de chiffres entre 0 et 99. Il est donc possible d'encoder deux octets en un, pratique non ?
0x86 = 134, donc on décode les octets "04". Image
Le décodage se poursuit sans encombre, on arrive à récupérer le début du certificat "DC04FR03AV011E731E73L", mais ensuite tout s'effondre : le caractère 0xE6 (= 230) va venir nous poser quelques soucis. Il correspond au début d'un mode d'encodage nommé C40. ImageImage
Jusqu'ici, on était dans le plus simple encodage, l'encodage TEXT. Il est efficace pour stocker des nombres comme on peut encoder deux octets en un, mais le C40 offre une meilleure compression des lettres majuscules (qui constituent la majorité du reste du 2D-DOC).
Le C40 utilise une table de caractères réduite à 40 caractères, encodés en base 40.
Par exemple, la paire d'octets 22 EB se lit comme un nombre de 16 bits 0x22EB (= 8939). On soustrait 1, puis on décode en base 40 : 5 * 40² + 23 * 40 + 18 Image
Ces trois nombres en base 40 nous donnent les trois index des caractères dans le charset.

5 = "1"
23 = "J"
18 = "E"

On vient de trouver le début du champ L1 (prénom), ici "L1JEAN-FRANCOIS" 😉

Et une compression encore assez efficace car on encode 3 octets en seulement 16 bits. Image
Au bout d'une vingtaine d'octets décodés en C40, on rencontre la première des deux zones de floutage. 5 octets des données brutes sont fortement endommagés.

Comme les zones sont parcourues en diagonale, seuls 2 octets à la fois sont corrompus, ce qui facilite la reconstruction. Image
D'après la zone détruite, on se retrouve avec ce décodage partiel à la main :

FREY[DC]L1JEAN-FRANCOIS[DC]❓❓❓9031982

A noter que l'on a quitté le mode C40 pour repasser en texte afin d'encoder le byte [DC].
Les deux premiers octets sont faciles. Il s'agit de "L2", marqueur de début du champ date de naissance. Mais Jean-François est-il né le 9, le 19 ou le 29 mars 1982 ?

Comme on est repassés en mode texte, cette zone encode une paire de chiffres. Image
Le premier chiffre est le 2 du marqueur "L2", le second correspond au début de la date de naissance. 3 options donc : 20, 21 ou 22.

On rappelle que les paires de chiffres sont encodées par les valeurs 130 à 229, on devrait donc obtenir l'octet 150, 151 ou 152.
Dans la zone endommagée par le floutage, on peut lire 1001?11? avec les deux bits de droite manquants. Regardons nos options :

1001?11?
10010110 = 150 (paire "20")
10010111 = 151 (paire "21")
10011000 = 151 (paire "22")

Ce qui nous permet d'éliminer le 29 mars ! Image
Plus tard dans le décodage, le zigzag repasse par cette zone floutée. De nouveau, 2 octets corrompus mais ici ce sera beaucoup plus simple. En effet, on est en mode C40 et le décodage partiel est le suivant :
"1982L3COVID-19❓❓4J07BX03"
On est encore bien tombés, car les deux octets qui nous manquent sont pile sur le marqueur de champ L4 (on voit d'ailleurs le 4). Il manque "[DC]L" que l'on devra rajouter. En regardant ce qui suit, on peut comprendre que cette fois on reste en mode C40 pour encoder [DC] Image
Pour encoder le caractère spécial [DC] sans quitter le C40, on va utiliser les charsets Shift. La séquence "[DC]L" s'encode:

0 = Shift-1 pour passer au charset contenant [DC]
29 = index de [DC] dans Shift-1
25 = index de L en C40 standard (le shift ne dure que pour un caractère)
On peut donc continuer à décoder les bytes à la suite, et on se rend compte que les autres zones endommagées (le second flou, et là où se trouve le doigt) sont également faciles à reconstituer, sans même avoir à utiliser la redondance des codes correcteurs d'erreur !
Et une petite preuve que ma reconstitution fonctionne, parmi nos deux choix possibles c'était donc le 9 mars ;) Image
Tout ce thread était une grosse excuse pour apprendre comment fonctionne 2D-DOC et son support Datamatrix. J'espère quand même que vous retiendrez et partagerez que même flouté/gribouillé, il est dangereux de partager son pass sanitaire !
(Enfin bon, je pense que les gens qui lisent jusqu'au bout un thread sur les spécifications de Datamatrix et les gens qui postent leur QR sur internet sont deux populations strictement distinctes, bravo à vous qui lisez ceci)
Pour conclure, là je suis allé un peu loin à me croire comme McGee dans NCIS alors qu'un bon lecteur aurait sûrement marché. En réalité c'est HYPER facile de tomber sur des pass sanitaires valides et pas floutés, notamment dans la presse en ligne (en 10 minutes j'en ai trouvé 8)
Et pour celles et ceux qui se posent plein de questions pertinentes sur la sécurité des attestations vaccinales, j'ai essayé de vulgariser tout ça dans un autre thread, publié à l'instant :

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Mathis Hammel

Mathis Hammel Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @MathisHammel

16 Nov
THREAD : J'ai trouvé un bug qui affecte toutes les versions récentes de Python, et il est interdit de le réparer !

Je vous explique pourquoi ⤵🧵
Comme pour de très nombreux langages de programmation, le générateur de nombres aléatoires intégré à Python porte le nom de Mersenne Twister, ou MT19937.

C'est un RNG (Random Number Generator) très rapide et qui offre une entropie de très bonne qualité.
Mais le MT19937 n'est pas sécurisé contre les attaques cryptographiques : comme tous les générateurs de nombres aléatoires, il n'est en réalité que pseudo-aléatoire : après l'initialisation de ses variables internes, les bits en sortie sont produits de manière déterministe.
Read 32 tweets
6 Oct
Aujourd'hui, Twitch s'est fait pirater et une grande partie de ses fichiers sont dans la nature.

Ça veut sûrement dire que votre mot de passe est compromis et qu'il faut le changer. Mais ⚠️ attention ce changement peut poser un risque cyber.

Thread ⤵️
On va faire le focus sur un aspect tech intéressant pour comprendre. Aujourd'hui : comment on sécurise une base de données de mdp.

Le code source de Twitch et les mots de passe ne semblent pas concernés dans la partie 1 du leak, mais on peut quand même deviner pas mal de choses.
Pour stocker des mots de passe dans une appli web, on utilise une base de données, comme on le fait généralement pour tout ce qui se rapporte aux comptes utilisateur.

La méthode la plus simple est de stocker directement le mot de passe de l'utilisateur :
Read 24 tweets
5 Oct
Pour que vous puissiez les retrouver plus facilement, je vous propose un thread où vous pourrez retrouver tous mes threads de vulgarisation technique ! ⤵️ (oui, c'est méta)
Read 10 tweets
5 Oct
THREAD : Hier, une panne massive a affecté Facebook et plein de ses services (Instagram, WhatsApp, Messenger, ...)

Mais il s'est passé quoi au juste ? Je vous explique tout ça. ⤵️
#FacebookDown #InstagramDown
On va en profiter pour présenter les protocoles BGP et DNS, que vous connaissez peut-être déjà. Ces deux loustics sont un support indispensable du réseau internet mondial, mais ils ont causé pas mal de soucis chez Facebook hier.
Tout d'abord, parlons DNS, ou Domain Name Service.

Le DNS, c'est toute une organisation qui vous permet de retenir des adresses faciles comme facebook‍.com au lieu de devoir mémoriser l'adresse IP de chaque service que vous utilisez.
Read 24 tweets
25 Jul
THREAD : Pourquoi on ne peut pas fabriquer son propre QR code de vaccination #PassSanitaire

Aujourd'hui, je vous propose un thread de vulgarisation sur quelques principes cryptographiques, promis ce sera beaucoup moins technique que celui d'hier 😉

Comme je le disais dans des interviews récentes avec @libe et @Numerama, "Le pass sanitaire est signé numériquement, ce qui le rend théoriquement impossible à la falsification".

Mais qu'est-ce que c'est que cette signature, et pourquoi on ne peut pas juste l'imiter ?
Tout d'abord, on va prendre un exemple que j'utilise souvent pour illustrer la signature cryptographique : vous allez à la mairie pour faire certifier un document papier.

Ce scénario de la vie réelle a de nombreux parallèles avec les signatures numériques !
Read 24 tweets
24 Jul
En voyant le succès inattendu de mon thread hyper technique de ce matin, je pense qu'il serait utile que j'écrive un petit thread de vulgarisation cryptographique, sur le thème "Le QR code du pass sanitaire, pourquoi on ne peut pas le fabriquer soi-même"

Ça vous intéresse ?
Allez je commence la rédaction alors, ça devrait sortir demain :)

J'écris souvent mes threads pendant la nuit et je les publie au réveil, celui sur Datamatrix a été composé hier soir entre 23h et 3h30 😁
Update : ce soir j'ai fait que jouer à Pokémon Unite en fait, je m'y mets demain ahah
Read 4 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Thank you for your support!

Follow Us on Twitter!

:(