Biais du tiroir : les erreurs de publication et leur estimation

Par zeteditor
biais du tiroir

En science, il arrive bien souvent que les résultats soient contradictoires.

La plausibilité d’une hypothèse ne se fait qu’en analysant l’entièreté des connaissances acquises sur un sujet. Ne se fier qu’à une seule étude est à l’origine du biais de confirmation.

Les méta-analyses regroupent toutes les connaissances présentes sur un sujet selon certains critères d’inclusion, elles permettent ainsi d’augmenter la puissance statistique.

Ainsi en comptabilisant le nombre d’essais positifs par rapport au nombre d’essais négatifs (et éventuellement en pondérant selon la crédence respective des uns et des autres) on peut savoir si l’hypothèse émise est crédible ou non.

Si une hypothèse est fausse on devrait s’attendre à avoir moins de 5 % des essais positifs (risque d’erreur de considérer des données significatives alors que c’est dû au hasard en médecine = p-value).

Cependant il reste encore, entre autres, un biais particulièrement important à estimer pour avoir une vision claire de la situation : c’est le biais de publication ou biais du tiroir.

Les études négatives sont rarement publiées car soit les chercheurs les remettent dans leur tiroir (d’où ce nom de biais du tiroir) soit c’est les journaux qui les rejettent et ils passent à la trappe.

Qui s’intéresse à savoir que nous n’avons pas pu démontrer une corrélation entre l’adénocarcinome de la langue et la consommation de carottes chez le lapin Angora ? Personne.

Pour autant ce biais n’a pas que des désavantages, il limite la masse des publications.

Cette première sélection est partiale et il est nécessaire d’en prendre compte pour ne pas avoir une mauvaise appréciation de la situation.

Le biais du tiroir est donc à l’origine d’une surreprésentation des essais positifs, il est présent dans la recherche médicale et varie d’un domaine à l’autre ce qui le rend compliqué à estimer.

C’est d’ailleurs probablement l’un des biais le plus sujet à discussion et à controverse entre les différents partis en présence, notamment entre les sceptiques et les tenants des pseudo médecines.

Il s’agit d’un biais statistique correspondant peu ou proue au biais du survivant (erreur sur la fréquence de base). C’est une surévaluation des succès par omission des échecs.

Mais comment calculer quelque chose alors que nous n’avons pas tous les éléments en main (le nombre total d’études réalisées sur un sujet) ?

Il va falloir estimer le nombre d’essais négatifs selon différents critères (statistique conditionnelle).

A/ Une situation contrastée

Quand on cherche, on commence par fouiller par ci par là (on met en place des protocoles pas trop chers, on analyse des résultats) et un jour les données répondent positivement.

« Ça confirme ce que je pense ! », généralement c’est le premier réflexe, puis arrive la phase de tempérance : « bon, maintenant on peut mettre les moyens pour avoir des preuves solides (et avec notre petite étude ça permettra de trouver les fonds nécessaires) parce que là je m’emballe peut être un peu vite, il y a pas mal de chance que mon résultat soit dû au hasard. »

Et c’est là que les chemins bifurquent : le tenant de la pseudoscience change de protocole, fait d’autres essais aussi peu fiables qui n’ont rien à voir avec le premier en espérant avoir un jour un résultat positif qu’il re-publiera (essayant ainsi, dans une démarche fréquentiste, de faire pencher la balance de son côté : il y a plus de résultats positifs que de négatifs) tandis que le chercheur va aller de l’avant en répétant son expérience pourrie avec moins de biais, moins de bruit, plus de données, un risque d’erreur plus faible pour confirmer son premier résultat et ce sera le début d’un long processus de démonstration (par infirmation cette fois) que son hypothèse est vraie et généralisable.

B/ Des essais hétérogènes

Nos erreurs de jugement (prédictif ou évaluatif) sont dus à la combinaison des biais et des bruits (erreur quadratique moyenne des deux) et il est indispensable, si ce n’est de les maîtriser dans la mesure du possible, d’au moins les connaître pour pondérer notre jugement.

Les biais entraînent un décalage par rapport à la réalité tandis que les bruits entraînent de l’incertitude.

Les biais méthodologiques engendrent donc des résultats prédictibles mais faux (déviation) tandis que les bruits engendrent des résultats stochastiques donc imprédictibles (dispersion).

L’estimation du biais de publication se fait essentiellement en estimant le bruit (absence de concordance) entre les différents essais mais aussi entre ceux des différents laboratoires et les fluctuations dans le temps.

1, Une surreprésentation inhabituelle d’essais potentiellement biaisés

Il est quasiment impossible de mesurer à partir d’un résultat singulier un biais. Seule l’analyse de la méthodologie appliquée pour obtenir celui-ci (qui elle n’est pas singulière) permet d’estimer la crédence que l’on peut porter à ce résultat (c’est une estimation des potentiels biais). 

Ainsi la taille de l’échantillon (N) a une influence importante sur l’écart type (marge d’erreur) mais peut aussi engendrer plus facilement des biais de population (influence sur la répartition lors de la randomisation).

Les critères d’inclusion des méta-analyses devraient normalement éviter de prendre en compte les essais trop biaisés mais parfois celles-ci, faute d’études suffisamment valables, sont moins restrictives. Leur conclusion doit dans ce cas faire preuve de tempérance.’ 

C’est le cas assez souvent en médecine vétérinaire (faute de grives on mange des merles)
Les tenants de pseudo médecines multiplient les essais potentiellement biaisés, celà permet d’augmenter le taux de faux positifs mais en aucun ne devrait influer sur la crédence que nous avons envers notre hypothèse.

Au contraire la surreprésentation inhabituelle d’essais à la méthodologie de piètre qualité (pas de double aveugle par exemple ou d’essais avec des échantillons restreints) est un critère péjoratif qui laisse à penser que ceux qui publient essayent artificiellement de gonfler la proportion d’essais positifs sur le total des essais pour ensuite les publier plus régulièrement mais n’a pas à priori de rapport réel avec le biais de publication mis à part qu’il augmente artificiellement la fréquence de publication des essais positifs et modifie potentiellement la fréquence de base.

2, Une surreprésentation d’essais non répliqués

Le p-hacking est une technique assez simple pour gonfler les études positives. Elle consiste à faire une analyse avec de nombreuses données et ne publier que les critères positifs ou de faire de l’analyse rétrospective des données et ne sélectionner que les groupes de données positives. C’est un biais de sélection des données.
Cette technique fut à l’origine d’une publication rocambolesque sur la précognition (l’affaire Daryl Bem). Ce célèbre psychologue tenant de l’existence du “psi” (capacité psychique surnaturelle) avait réalisé une étude sur la précognition (capacité à lire l’avenir). Les expérimentateurs devaient essayer de deviner si une image allait ou non apparaître sur un écran vierge. Il s’est avéré que les données furent significatives uniquement pour les images à caractère érotique !
Moins amusant, le p-hacking est aussi à l’origine du scandale du Vioxx responsable de 40 000 morts, le laboratoire Merck n’ayant publié que les données positives.

Généralement le risque d’erreur admis (considérer des donnés significatives alors qu’elles ne le sont pas) est de 5 %. Une étude positive sur 20 est donc potentiellement un faux positif. Si l’étude est répliquée alors ce taux diminue drastiquement.

Le p-hacking peut être détecté assez facilement en répétant les études (réplication à l’identique)..

Un résultat surprenant est donc souvent assez vite répliqué par les autres équipes, à l’identique (pour confirmer ou infirmer celui-ci) puis conceptuellement (pour éventuellement détecter des variables de confusion responsables de biais).

Cependant après plusieurs réplications infructueuses, la plupart des chercheurs jettent l’éponge quand ils voient réapparaître des résultats d’autres essais qui manifestement ne sont pas réplicables : leur temps est précieux et les essais cliniques onéreux.

Après plusieurs échecs, les réplications disparaissent et seuls restent des essais positifs publiés régulièrement mais non répliqués.
Ce basculement est pernicieux mais il est tout à fait estimable en faisant une analyse chronologique des essais : un taux de positivité des essais inversement proportionnel au taux de réplication est un critère péjoratif.
De même une sur-présentation d’essais avec très peu de critères analysés est potentiellement péjorative (suspicion de p-hacking).

3, dispersion et non homogénéité dans le temps

Quand un effet est réel on peut s’attendre à ce que les essais positifs soient rapprochés. Lorsqu’un laboratoire tente coûte que coûte à prouver que son hypothèse est vraie, il enchaîne les essais et ne publie que ceux positifs. Il y a donc une dispersion dans le temps.
On peut aussi s’attendre à ce que la proportion entre essais positifs et essais négatifs soit assez stable dans le temps, là encore des variations importantes sont un critère péjoratif.

Il faut aussi pondérer la fréquence d’apparition en fonction de la qualité intrinsèque des essais pris en compte. Au plus il y aura de biais dans les essais au plus la fréquence de publication des essais positifs sera importante.

4, Des résultats variables d’un laboratoire à l’autre

La science se pratique au pluriel. Là encore le fait qu’un seul ou très peu de laboratoires publient sur le sujet est plutôt péjoratif (les autres ont probablement abandonné faute de résultats probants).

Mais quand en plus ces laboratoires ont des points de vue diamétralement opposés celà doit susciter notre méfiance.

C/ Des données hétérogènes

1, Une surreprésentation d’essais avec des données ayant un risque d’erreur important

Faites 1000 études avec une p-value de 5 %, en moyenne 50 reviendront positives mais si vous diminuez la p-value à 1 % alors seules 10 en moyenne reviendront positives et ainsi de suite. 

Regarder la répartition des études selon leur p-value respectives (risques d’erreur) est un indicateur possible de la présence d’un biais du tiroir.

2, Des tailles d’effet hétérogènes

Pour des études équivalentes avoir de fortes variations de taille d’effet (pourcentage de concordance faible) indique la présence de bruit important et permet d’estimer si les résultats sont aléatoires ou non.

Celà tend à démontrer le caractère stochastique des données, là encore c’est un critère péjoratif. Le pourcentage de concordance entre les différentes études permet d’estimer si les résultats sont aléatoires ou non.

Conclusion

C’est le cumul de tous ces critères qui permet d’estimer au mieux le biais du tiroir. A travers une analyse dynamique de la bibliographie qui permet d’ajuster sa crédence envers telle ou telle hypothèse.

Nous avons essayé de voir comment juger l’existence d’un biais de publication mais le mieux serait encore d’empêcher les acteurs réalisant les études médicales de les créer.
Là encore la situation est inégale, après chaque scandale (dont notamment celui du Vioxx) le législateur s’est penché sur les possibles sources d’erreurs et de fraudes dans l’industrie pharmaceutique et a renforcé les mesures pour éviter ce phénomène (déclaration et autorisation au préalable des essais cliniques, analyse des données brutes par une organisation indépendante, etc.). Ainsi les procédures d’autorisation de mise sur le marché des médicaments se sont renforcées au fil des ans (déclaration de Taipei).
En ce qui concerne la recherche clinique (non pharmaceutique) là encore le législateur a adapté son discours au fur et à mesure du temps, tant au niveau international qu’au niveau national (loi Huriet-Séruscliat) afin d’éviter au mieux le biais du tiroir.
Pour la recherche paramédicale, le législateur est bien plus clément ce qui explique la présence encore importante du biais de publication.

Kahneman, D. Sibony, O. Sunstein, C.R. (2021) Noise, a flaw in human judgment

Vyse, S. (2017). P-hacker confessions: Daryl Bem and me. Skeptical inquirer, 41(5), 25-27

Yong, E. Replication studies Bad copy.  Nature 2012, 485, 298–300

Ross, J.S.; Madigan, D.; Hill, K.P.; Egilman, D.S.; Wang, Y.; Krumholz, H.M. Pooled analysis of rofecoxib placebo-controlled clinical trial data lessons for postmarket pharmaceutical safety surveillance. Arch.Intern. Med. 2009, 169, 1976–198. DOI : 10.1001/archinternmed.2009.394

Song F, Parekh S, Hooper L, Loke YK, Ryder J. Dissemination and publication of research findings : an updated review of related biases. Health Technol Assess 2010;14(8) DOI : https://doi.org/10.3310/hta14080