Les petits effectifs qui n’ont pas peur des gros

PLT me soumet les éléments statistiques qui ont donné lieu à polémique entre Didier Raoult et le ministère de la santé à propos des résultats obtenus dans les Bouches de Rhône avec l’hydroxychloroquine.

Voici l’exemple : avec une calculette, vous pouvez vérifier. C’est ce genre d’observations qui a conduit un groupe de cliniciens français à publier un papier dans un journal prédateur avec la riposte désormais connue sous le nom de l’histoire de la trottinette.

Si cela vous amuse, je vous décortique ce tableau pour vous montrer où est la fève.


effectifsCas d’echecs% echec
HopitauxTraités chloronon TraitésTraités chloronon traitésTraités chloroNon traitésconclusion du clinicien efficacité de la chloro
15001500052250.010.015oui
21500050006002250.040.045oui
33000010002100800.070.08oui
4100002050020.050.1oui
520000500800350.040.07oui
620000200800100.040.05oui
72000200020300.010.015oui
85001500052250.010.015oui
94000400008010000.020.025oui
10500100025700.050.07oui
Total10250079720493519020.0340.048Oui car tous les hôpitaux observe un pourcentage d’échec supérieur chez les non traités chloro (en moyenne 4.8% vs. 3.4%)
% global échec=1902/79720=0.238% pour non traités & 4935/102500=4.81% pour les traités




% global échec0.0481460.023859Conclusion du statisticien: non car le % de mortalité est deux fois supérieur pour les traités chloroquine et compte tenu des effectifs, c’est statistiquement significatif

Mon commentaire :

Cher ami,

Il me semble que le paradoxe mathématique que tu proposes, et dont on pourrait un peu rapidement conclure à la supériorité des conclusions obtenues en colligeant des données provenant de sources multiples et aussi nombreuses que possible ( l’idéologie du ‘big data’), repose sur le fait que les proportions traités/non traités sont très différentes d’un hôpital à l’autre. De plus, il se passe que les proportions guéris/non guéris sont très différentes entre les hôpitaux à petits effectifs et les hôpitaux à gros effectifs, et dans le sens où elles sont systématiquement beaucoup plus serrées là où une grosse surproportion de malades ont été traités.

Qu’est-ce que j’en déduis ? Certainement pas qu’il est révélateur de faire de vastes enquêtes réunissant des données de diverses provenances. Il me semble que le simple fait que les résultats observés soient largement différents d’un lieu à l’autre montre un manque de rigueur dans la constitution des données, et que toute conclusion fondée sur l’idée que l’on peut faire comme si l’on avait affaire aux données d’un même hôpital recueillies de façon standardisée est sans valeur. On a visiblement ajouté des choux et des carottes. Si un médoc a un effet, il doit être à très peu de chose le même dans tous les essais, et si ce n’est pas le cas, c’est que les essais, ou au moins certains d’entre eux, ne valent rien. Ils sont en tous cas non-comparables et encore moins sommables. Je ne vois pas comment on peut même songer à additionner des résultats qui ne sont visiblement pas les résultats du même protocole expérimental. Tout statisticien raisonnable qui tombe sur une courbe bi-modale oublie de commenter curieusement la moyenne et se préoccupe d’identifier le facteur qu’il n’a pas pris en compte et de refaire ses calculs.

En l’occurrence, faute de l’enquête qui s’impose sur la constitution des données, si tous les hôpitaux de ton exemple trouvent le produit HCQ efficace, en faisant l’hypothèse que tous ont bien travaillé, quoique chacun à leur façon, j’en tire personnellement la conclusion qu’il l’est, et je m’y tiens. S’ils ne le trouvent pas efficace dans la même proportion, et avec des différences considérables, je ne fais pas la moyenne de leurs jugements globaux : j’en déduis que le produit n’a pas la même efficacité dans toutes les circonstances de dose, de terrain, de phase de la maladie, etc. , ou bien que les critères d’efficacité n’ont pas été les mêmes partout. Mais je maintiens à l’évidence la conclusion provisoire que le produit a probablement un potentiel.

Je crois avoir perçu cette critique qui commence à être répandue dans les milieux médicaux et que porte Raoult de façon certes attaquable tant elle est contre-intuitive : en pratique, lorsque l’on considère un article sur des résultats d’essais cliniques, plus les effectifs sont faibles et plus on peut avoir confiance. Cela veut juste dire que, à l’opposé du spectre, et sans aller jusqu’à l’exemple caricatural et, faut-il espérer, exceptionnel de ‘Surgisphère’, où l’on est carrément dans la falsification frauduleuse, les modélisateurs du ‘big data’ font des calculs justes sur des données fausses. Ils construisent des édifices théoriques gigantesques sur des fondations de sable. C’est la tour de Babel, image de notre civilisation, dont on voit poindre la fin.