Bonjour à tous,

Ce thread est une tentative de vulgariser la notion d’inférence causale en évaluation thérapeutique. Il va parler d’essais contrôlés randomisés et d’études observationnelles.
Je ne sais pas si ce thread sera utile à certains. Tant de choses ont déjà été expliquées, et très bien expliquées, à ce sujet.
Il n’est pas fait en réaction à une déclaration particulière de ʇןnoɐᴚ ɹǝıpıᗡ, mais à l’ensemble de sa communication récente, qui a pour objectif de discréditer la démarche scientifique au profit de son opinion d’expert.
Je ne sais pas si ʇןnoɐᴚ ɹǝıpıᗡ comprend quelque chose à l’épidémiologie clinique. D’un côté, il est directeur d’un IHU et devrait à ce titre avoir développé, d’une manière ou d’un autre, et même à l’insu de son plein gré, une aculturation dans ce domaine.
D'un autre côté, il dit n'importe quoi, tout le temps. Réelle incompétence, réelle hypocrisie, ou réel aveuglement ? J'avoue ici que je ressens une vraie curiosité morbide à connaître la réponse à cette question.
Bon, euh, bon, je réserve la suite de ces réflexions à mon journal intime, et je vais maintenant aborder le vrai sujet de ce thread. Let’s go !
L’inférence causale en évaluation thérapeutique est une démarche scientifique qui a pour objectif de démontrer qu’une approche thérapeutique est meilleure qu’une autre dans une certaine population d’individus malades.
Prenez une population d’individus malades, donnez lui le premier traitement, regardez son efficacité.

Puis remontez le temps, donnez lui le second traitement, et regardez son efficacité. Cette expérience de pensée, c’est de l’inférence causale.
Si cette expérience de pensée était possible en réalité, alors on pourrait à coup sûr savoir lequel des deux traitements est le meilleur dans la population (on pourrait même le dire pour chaque individu de la population).
Évidemment, ce n’est qu’une expérience de pensée. Le problème ne vient pas seulement de la machine à remonter le temps nécessaire à l’expérience, mais aussi de l’impossibilité de rassembler l’ensemble d’une population pour la réaliser.
Car une population, en épidémiologie, c’est surtout un concept, un formalisme utile, mais inaccessible. En épidémiologie (dans toutes les sciences humaines je suppose, mais n’hésitez pas à me corriger sur ce point), on travaille sur des *échantillons* issus d’une population.
Un *échantillon*, c’est un petit nombre d’individus (“petit” par rapport à la taille de la population dont ils sont issus), sélectionné pour être *représentatif* de la population.
Pour se représenter ce qu’est un *échantillon représentatif*, imaginez un énorme sac de billes (disons, des milliards de billes), de toutes les tailles possibles, de toutes couleurs possibles, de toutes les matières possibles.
Si vous voulez connaître la répartition précise des tailles, des couleurs et des matières, vous pouvez les prendre une par une en notant à chaque fois la taille, la couleur et la matière.
Si vous avez mieux à faire de votre journée, vous pouvez aussi obtenir une *estimation* de cette répartition à partir d’un échantillon issu du sac. Par exemple, en secouant le sac pour le mélanger, puis en plongeant un saut pour ramener des billes *au hasard*.
La répartition des caractéristiques dans cet échantillon ne sera pas la répartition exacte dans la population, mais elle a peu de chance de s’en éloigner fortement si la taille de l’échantillon est raisonnablement grande. La démarche est pragmatique.
Imaginez maintenant que les billes soient toutes atteintes d’une maladie. Disons, un virus, qui pourrait rendre certaines d’entre elles cubiques, ce qui est un sort peu enviable quand on veut vivre une vie de bille épanouie (mais là encore, corrigez moi, si vous êtes une bille).
Pour savoir si un certain traitement pourrait être efficace, on prend alors un deuxième seau pour constituer un deuxième échantillon représentatif de billes, et on donne le traitement à l’un des deux échantillons (peu importe lequel, ils sont échangeables de ce point de vue).
Si, parmi les billes ayant reçu le traitement, moins de billes deviennent carrées que parmi les billes ne l’ayant pas reçu, deux explications sont possibles :
1) le traitement est bénéfique aux billes
2) le traitement ne fait rien, et ce qu'on observe est une fluctuation d'échantillonnage, c'est-à-dire que le *hasard* nous a fait sélectionner deux échantillons un peu trop différents initialement.
Je jette ici un voile pudique sur la notion de test statistique, qui ne nous servira pas pour la suite, et disons juste qu’on dispose d’outils pour aider à trancher entre ces deux hypothèses (avec un certain risque de se tromper, qu’on essaie de maîtriser).
Bon, une population d’individus malades, ce n’est pas un sac de billes, on ne peut pas le mélanger et plonger un saut dedans.
Pour constituer un *échantillon représentatif* d’une certaine population d’individus malades, on peut sélectionner au fur et à mesure qu’elles se présentent (dans des hôpitaux, cabinets médicaux, ce que vous voulez) les personnes qui présentent la maladie.
Et pour constituer deux *échantillons représentatifs*, on attribue à chacune de ces personnes (volontaires, consentement, tout ça), toujours au fur et à mesure, soit un nouveau traitement, soit les soins habituels, par *tirage au sort*.
Les fondements éthiques de cette approche (le tirage au sort, appelé également randomisation) ont déjà été expliqués, avec une pédagogie difficile à égaler, ici : medium.com/@ferry.danini/…
Mais d’un point de vue uniquement méthodologique (désolé du gros mot didou), le *tirage au sort* permet de constituer deux *échantillons représentatifs* de la population de personnes malades chez qui on souhaite évaluer un nouveau traitement.
De ce fait, puisque les deux échantillons sont *représentatifs* de la même population source, la répartition des caractéristiques initiales des individus ressemble à celle de la population source dans les deux échantillons.
Et du coup, la répartition des caractéristiques initiales se ressemble entre les deux échantillons.

On a ainsi créé des conditions expérimentales permettant de comparer facilement l’efficacité des deux stratégies thérapeutiques attribuées à ces deux échantillons d’individus.
Si, après avoir suivi les individus, l’état de santé d’un des deux groupes est significativement meilleur, alors cela ne peut être lié qu’à la différence de stratégie thérapeutique (ou au hasard).
Bien sûr, il faut que toute l’étude soit menée dans les règles de l’art de bout en bout. Mais un autre thread serait nécessaire pour expliquer les différentes sources de biais possibles le tirage au sort des individus.
L’inférence causale n’est-elle possible que dans ces conditions expérimentales strictes ? Non.

Passons aux études observationnelles.
L’inférence causale en situation observationnelle, c’est à dire, quand les stratégies thérapeutiques n’ont pas été pas attribuées de manière aléatoire, est un domaine de recherche incroyablement riche, intéressant, et utile.
Mais ce n’est pas la panacée. Je dirais même que l’absence de randomisation se paie cher : l’analyse de telles études se fait sur la base d’hypothèses souvent invérifiables, demande des connaissances approfondies de la maladie étudiée,
des compétences avancées en biostatistiques, et une bonne expérience pour identifier et éviter certains pièges.
Lagier et al. s’est pris les pieds dans à peu près tous ces pièges, même les plus grossiers. Cette étude illustrera certains de mes cours pendant un certain temps.

Je vais maintenant essayer d’illustrer simplement certaines des hypothèses et des limites inhérentes aux études observationnelles (mais pas toutes), en présentant une étude fictive qui servira de fil conducteur.
Mais revenons quelques tweets en arrière, pour éclairer d’une autre manière le fonctionnement d’un essai randomisé.

En effet, on peut remarquer que tous les individus inclus dans un essai randomisé ont la même probabilité de recevoir l’un ou l’autre des traitements comparés.
Quelles que soient leurs caractéristiques initiales, les individus finalement tirés au sort dans le groupe recevant un traitement “A” avaient initialement la même probabilité de recevoir ce traitement que les individus finalement tirés au sort dans le groupe du traitement “B”.
(Oui, cette dernière phrase est compliquée, relisez là plusieurs fois si besoin)
Ce n’est pas le cas dans une étude observationnelle : la probabilité initiale de recevoir un traitement ou l’autre traitement *dépend des caractéristiques initiales* des individus.
Un traitement sera, par exemple, donné préférentiellement aux malades plus âgés (ou plus jeunes), aux malades graves (ou moins graves), etc.
La répartition des caractéristiques initiales des deux échantillons présentera par conséquent des *différences systématiques*. Les deux échantillons ne sont plus représentatifs de la même population source : on parle de *biais de sélection*.
Et quand on compare l’efficacité des traitements, il faut user de techniques d’analyse permettant différencier ce qui relève des différences de traitement (ce qui nous intéresse) de ce qui provient de ces biais de sélection (ce qui ne nous intéresse pas).
Voici un exemple. Imaginez deux traitements ayant *la même efficacité*. La vraie différence de mortalité (pour prendre un exemple) est nulle.
Il s’agit d’une étude et de données fictives, et nous savons d’avance que la différence de mortalité doit être proche de zéro.
Je vais décrire à chaque fois 3 caractéristiques initiales (l’âge, le sexe, et le statut tabagique) et la mortalité observée.

Voici ce qu’on pourrait observer dans une étude *randomisée*.
Comme l’étude est randomisée, les caractéristiques initiales des individus (représentées en vert) sont proches dans les deux groupes.
Et le taux de mortalité observé (en noir) est aussi proche dans les deux groupes, comme c’est attendu dans cette étude.
Imaginez maintenant une étude *observationnelle*, chez qui le traitement B est donné préférentiellement aux individus les plus âgés, de sexe masculin, et fumeurs.

Voici ce qu’on pourrait observer, quand bien même le traitement n’aurait toujours aucun effet sur la mortalité.
Les individus les plus âgés, de sexe masculin ou fumeurs reçoivent préférentiellement le traitement B (j’ai maintenant représenté en rouge ces caractéristiques). Or, ces facteurs augmentent le risque de décès (en particulier pour l’âge et le tabac dans ces données fictives).
Cela conduit à observer une différence de mortalité entre les deux groupes, malgré l’absence de différence d’efficacité entre les deux traitements.

La différence de mortalité observée est *uniquement* liée au biais de sélection décrit plus haut.
Comment tenir compte du biais de sélection ? Plusieurs méthodes existent.

Une méthode assez élégante (je trouve) consiste à calculer la probabilité de recevoir le traitement B *en fonction des caractéristiques* des individus.
Par exemple, si on constate que parmi les sujets de 50 ans, de sexe masculin et fumeurs, il y a 60% d’individus traités par B, alors la probabilité estimée de recevoir le traitement B chez ce profil d’individu est de 60%.
Il faut faire ce calcul pour chaque profil d’individu existant dans l’étude. Cela peut paraître compliqué ou fastidieux à première vue, mais en fait, c’est assez simple à faire.
Le plus important est la liste des caractéristiques qui définissent les différents profils d’individus. Elle doit inclure *l’ensemble des caractéristiques* qui influencent le *pronostic*.

Peu importe qu'on soit blond ou brun. Mais vieux ou jeune, oui, c'est important.
Dans cette étude, j’ai décidé que les trois seules caractéristiques importantes étaient l’âge, le sexe et le statut tabagique : les données sont fictives, je fais ce que je veux.
Mais dans une vraie étude observationnelle, on ne peut jamais être sûr que la liste soit complète. C’est encore plus vrai quand on étudie une nouvelle maladie, encore mal connue.
Dans la vraie vie, il peut y avoir bien d’autres caractéristiques qui influencent le risque de décès. Si certaines sont inconnues ou non mesurées dans l’étude, alors le résultat de l’analyse sera biaisé.
C’est l’une des principales limites des études observationnelles par rapport aux études randomisés.
Bref. On a estimé la probabilité de recevoir le traitement B pour chaque profil d’individu dans l’étude (ici, pour chaque combinaison d’âge, de sexe et de statut tabagique).
Parmi ces individus, certains ont effectivement reçu le traitement B, et d’autres le traitement A. Alors, l’idée est de *mimer* ce qui se passe dans un essai randomisé.
On prend un individu traité par B, et on recherche un individu traité par A, mais qui avait *la même probabilité estimée* de recevoir le traitement B (ou une probabilité la plus proche possible).
On se retrouve avec une paire d’individus, avec la même probabilité estimée de recevoir le traitement B, sauf que l’un a effectivement reçu ce traitement, et l’autre a reçu le traitement A.
Du coup, pour ces deux individus, c’est “un peu comme” dans un essai randomisé. A ceci près qu’il faut que les probabilités qu’on a calculé doivent tenir compte de toutes les caractéristiques importantes, comme je l’ai dit plus haut.
On crée de la même façon pleins de paires d’individus (cela s’appelle faire un *appariement*). Et quand plus personne ne peut être apparié avec personne, on s’arrête, et on compare la mortalité au sein des paires d’individus appariés.
Voici ce que cela donne quand on applique cette technique (qu’on appelle “appariement sur le score de propension” dans les dîners mondains) dans l’étude fictive présentée plus haut.
Parmi les paires de sujets appariées, les caractéristiques initiales des individus (âge, sexe et statut tabagique, en vert) se ressemblent entre les deux groupes, “comme” dans un essai randomisé,
et la différence de mortalité entre les deux groupes de traitement devient quasi nulle. Je vous rappelle que c’est ce qui était attendu : aucun des deux traitements n’est meilleur que l’autre dans cette étude fictive.
Mais attention Garcimore, ce n’est pas un tour de magie. Imaginons qu’une caractéristique importante soit oubliée quand on estime les probabilités de recevoir le traitement B : par exemple, l’âge. Voici ce que cela donne.
Les deux groupes sont bien équilibrés en terme de sexe ou de statut tabagique, mais ne sont plus équilibrés sur l’âge, avec des sujets traités par B plus âgés en moyenne.

Puisque le biais de sélection est mal pris en compte, on retrouve à nouveau une différence de mortalité.
Bien sûr, il faudrait être sacrément con (ou Lagier et al.) pour ne pas tenir compte de l’âge dans l’analyse. Mais même en faisant attention, on ne peut jamais être totalement sûr qu’une caractéristique moins évidente mais importante n’ait pas été oubliée.
Avoir un œil critique sur les caractéristiques prises en compte dans l’analyse est super important quand on lit ce type d’étude. D'autres choses sont importantes bien sûr, mais on ne peut pas tout aborder dans un thread (enfin, moi, je ne sais pas).
L’exemple que j’ai présenté est volontairement très simple. En réalité, réaliser une bonne étude observationnelle pour évaluer l’effet d’un traitement ne demande pas moins de connaissances et de compétences qu’un essai randomisé. C’est même carrément l’inverse !
Dans la situation merdique actuelle, les essais randomisés sont les études les plus *rapides* pour obtenir une réponse *fiable* à la question de l’efficacité de tel ou tel traitement.
Les études observationnelles sont utiles, permettent d’explorer des pistes, d'apporter pleins informations complémentaires, beaucoup d’autres choses. Mais elles ne suffisent pas à obtenir une AMM ou recommander largement un médicament (a fortiori quand elles sont mal faites).
Au cas où vous vous poseriez une question concernant ma sincérité, sachez que dans mon tweet précédent, je crache un peu dans la soupe : l’analyse de données observationnelles est l’une de mes thématiques de recherche (bon, modestement, mais quand même).
Pour conclure, même si j’apprécie qu’on défende l’utilité des études observationnelles (cf mon tweet ci-dessus), je dois dire qu’on peut difficilement trouver pire avocat que l’équipe de ʇןnoɐᴚ ɹǝıpıᗡ en la matière.
Et malheureusement, un égo surdimensionné ne compense pas l’incompétence crasse et l’aveuglement complet dont ils ont fait preuve avec une admirable constance depuis le début de cette crise.
Pour le dernier taré qui est resté jusqu’au bout de ce thread beaucoup, beaucoup trop long : merci de m’avoir lu !

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with David Hajage

David Hajage Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @DavidHajage

2 Oct
Bonjour à tous

Ce thread revient sur l’étude de Lagier et al. (doi.org/10.1016/j.tmai…) menée à l’IHU Méditerranée Infection par l’équipe de DR.
Pour mémoire, j’avais déjà consacré un thread sur cette pépite. Je vous conseille de vous raffraichir la mémoire (ou de le lire pour la première fois) avant de continuer. C’est par ici :
Cette équipe s’est récemment à nouveau ridiculisée en publiant une lettre dans le journal CMI : doi.org/10.1016/j.cmi.…
Read 49 tweets
19 Sep
Bonjour à tous,

Ce thread sera consacré aux essais cliniques de non-infériorité. Je vais essayer d’expliquer clairement leur objectif et leur place dans le domaine de l’évaluation thérapeutique, ainsi que les questions éthiques qu’ils peuvent soulever.
Cela vous a peut-être échappé, mais récemment, une personnalité, que nous nommerons dans la suite Garcimore pour préserver son anonymat,
en défendant un certain manque rigueur scientifique (concept qu’il confond malheureusement assez souvent avec celui de méthode scientifique), a plusieurs fois justifié son approche de la science par le manque d’éthique supposé des essais contrôlés randomisés.
Read 67 tweets
17 Sep
Bonjour à tous,

Vous êtes sûrement relativement nombreux à suivre David Louapre, dont chaque vidéo, quel que soit le domaine, est un bonheur à visionner. Je veux juste inviter ceux qui ne l’ont pas fait, à visionner celle-ci :
A quel foutoir mondial peut conduire un article scientifique bâclé, excluant volontairement des observations qui ne vont pas « dans le bon sens », mettant en œuvre des méthodes d’analyse totalement inadaptées,
et publiée sans revue sérieuse par les pairs, uniquement sur la renommée de son principal auteur ? Non, je ne parle pas de Gautret et al., et pourtant…

doi.org/10.1016/j.ijan…

Comme quoi, le nombre de citations ne reflète pas toujours ce qu'on croit. Image
Read 6 tweets
14 Sep
DR et son équipe n’ont de cesse de déclarer : « les études arrivent, et alors là, les personnes qui se sont opposés à nous vont voir ce qu’ils vont voir ». Intimidation pure et simple. Et de quelles études s’agit-il exactement ?
Je vous laisse lire les quelques perles relevées par @SagittariusHH en quelques minutes (merci à lui). Aucun scientifique objectif ne s’appuierait sur ce type de preprint pour justifier son hypothèse.
Et aucun médecin ne devrait s’appuyer sur ce type de référence pour les transposer dans sa pratique.
Read 19 tweets
1 Sep
Bonjour à tous,
Je voudrais revenir sur le communiqué YouTube de DR du 1 septembre 2020 (que je vous invite à regarder avant de lire la suite : ).
Dans cette vidéo, DR présente la mortalité observée parmi les patients traités par au moins 3 jours d’HCQ+AZ dans son IHU, du 15 juin au 31 août. Cette présentation de résultats supposés « spectaculaires » de l’association HCQ+AZ est trompeuse.
Pour les personnes intéressées, je parle de la notion de biais de temps immortel. Je l’ai déjà évoquée, entre autres problèmes, en vulgarisant de mon mieux (c’est à dire mal), ici :
Read 49 tweets
31 Aug
Pour les deux du fond qui n’ont pas compris, ou pour ceux qui n’ont pas le temps de lire en intégralité mon thread de vulgarisation précédent, voici une synthèse athlétique. Dans Lagier et al., le biais de temps immortel en faveur de l’association HCQ+AZ, c’est ça :
Toujours dans Lagier et al., l’écart à l’hypothèse de positivité et l’absence de prise en compte des facteurs de confusion importants, c’est ça :
Le Pr Didier Raoult, expert-en-tout auto-proclamé, qui ne fait jamais de prédictions (mais souvent fausses), au départ de cette crise qui continue de tous nous affecter, c’est ça :
Read 8 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!