Article technique

Pourquoi est-il important de bien calculer ses tailles d’échantillons en amont des études ?

6/01/2022

EFOR Actualité Technique Data digit omics

Que ce soit dans le domaine clinique ou industriel, de nombreuses normes émergent afin de justifier les tailles des échantillons des études menées.

C’est par exemple le cas de la norme ISO 13485 :2016, visant à encadrer la mise en place de systèmes de management de la qualité chez les fabricants de dispositifs médicaux, dont une des nouveautés était de justifier les tailles d’échantillons dans les plans de vérification et validation. Alors pourquoi est-ce si important de bien calculer une taille d’échantillon avant la conduite d’une étude ? Comment s’y prendre ? Et qu’est-ce qu’implique un mauvais calcul ?

Nos équipes répondent à vos questions…

Calcul des tailles d’échantillons

D’après les statisticiens, il est nécessaire de calculer a priori des tailles d’échantillons afin d’obtenir une puissance statistique suffisante et des différences significatives entre les groupes considérés. La puissance, c’est la chance qu’une étude possède pour mettre en évidence la différence recherchée, si elle existe.  Par exemple, si la puissance d’une étude est calculée après la réalisation de l’étude, et est seulement de 50%, cela veut dire que l’étude à seulement une chance sur deux de détecter des différences significatives, lorsque ces différences existent réellement. Dans ce cas-là, l’étude ne permet pas de conclure avec certitude à une différence entre les deux groupes et a conduit à un gaspillage de ressources (temps, crédits…).

Alors comment maximiser la puissance d’une étude ? Par de grands échantillons ?

La puissance ne dépend pas uniquement d’un grand nombre d’observations collectées, elle dépend également d’un risque d’erreur, et surtout de la valeur attendue du critère principal (proportion, moyenne, odds-ratio…) ou de la différence attendue entre les groupes, et de sa variabilité. Ce qui est finalement le plus important pour le calcul de l’échantillon, c’est d’avoir une connaissance de l’ordre de grandeur de l’indicateur définissant le critère principal.

Oui, mais comment avoir une idée de cet ordre de grandeur, alors que c’est ce qu’on souhaite estimer ?

Quand une étude est menée, c’est en général parce que l’on soupçonne un effet ou qu’un résultat significatif a déjà été trouvé dans la littérature. Elle permet donc de faire une hypothèse sur la valeur attendue du critère principal, ou de la différence attendue entre les groupes. On fixe ensuite un risque d’erreur à 5%, et une puissance recherchée par exemple à 80%, ce qui permet de calculer un nombre de sujets nécessaires.

En fonction des contraintes budgétaires, on peut être amené à moduler le risque d’erreur et la puissance. Si jamais l’étude que l’on souhaite réaliser est une première, alors il est nécessaire de mener une étude pilote pour avoir une idée de l’ordre de grandeur du critère principal.

Quels logiciels permettent ensuite de calculer la taille des échantillons ?

Le logiciel PASS est spécialisé dans le calcul de taille d’échantillons. Il fournit également une liste de références bibliographiques pour comprendre les estimations calculées. Les logiciels de traitements statistiques comme SAS et R permettent également de calculer le nombre de sujets nécessaires.

Et que se passe-t-il si l’hypothèse sur le critère principal est mal formulée ?

Si vous surestimez la valeur attendue du critère principal, vous allez avoir moins de sujets à inclure mais vous minimisez la puissance statistique et vos chances de conclure. Si vous sous-estimez la valeur attendue du critère principal, vous allez devoir inclure beaucoup plus de patients, ce qui fragilise la faisabilité de votre étude.

Quelles expériences a Soladis dans le calcul des tailles d’échantillon ?

Soladis justifie de compétences sur ce sujet dans plusieurs domaines : clinique, génomique, industriel et marketing.

Dans le domaine clinique, la réglementation est plus stricte et la justification de la taille des échantillons est requise par les autorités de santé (Légifrance, 2019). La taille d’échantillon est donc précisée dans le protocole de l’étude, qui est rédigé en amont de la réalisation de l’étude.  Il arrive parfois qu’il y ait plusieurs critères principaux pour une seule étude. Dans ce cas-là, il est nécessaire de bien définir le critère d’acceptation de l’étude clinique. En fonction de cette définition, il faut moduler le risque d’erreur et/ou calculer des tailles d’échantillons sur chaque critère, et enfin sélectionner la taille maximale obtenue  (SPRIET, Alain et DUPIN-SPRIET, Thérèse, 2004).

Dans le domaine génomique, des problématiques de corrections de multiplicité des tests s’ajoutent dans les questions de calcul de taille d’échantillons. Soladis est capable d’accompagner ses clients pour utiliser et améliorer les packages récemment développés pour le calcul d’échantillons nécessaires pour les études RNAseq. A noter que pour ces études il est nécessaire d’avoir une idée de la profondeur de séquençage (variabilité technique) en plus de la variabilité biologique du critère principal (ici l’expression des gènes).

Dans le domaine industriel, les questions de calcul de taille d’échantillons se rencontrent sur plusieurs problématiques. Certains projets traités par Soladis ont notamment porté sur la détection d’unités défectueuses au sein de lots de production, en utilisant, entre autres, la norme ISO 2859-1. Cette norme, qui semble très pratique, ne s’applique pas forcément à toutes les problématiques et nous veillons à ce qu’elle soit utilisée à bon escient.

Toujours dans le domaine industriel, la norme ICH Q2 (R1) encadre les validations de méthodes analytiques. En se basant sur cette référence, Soladis a ainsi pu accompagner ses clients dans la définition de leur plan d’analyse et ce, à chaque étape de la validation : études de fidélité intermédiaire, linéarité, justesse etc. Soladis peut également aider ses clients à mettre en place des tests d’équivalence, lorsque ces derniers souhaitent prouver la reproductibilité, par exemple, de plusieurs lots de validation ou lorsqu’ils souhaitent s’assurer de l’acceptabilité des résultats suite à un changement. Tout comme les tests de comparaisons, le calcul de la taille d’échantillon des tests d’équivalence nécessite d’avoir une idée de la variabilité de la méthode, de la différence moyenne entre les échantillons, de la puissance souhaitée et nécessite également de déterminer le critère d’équivalence le mieux adapté à la situation.

Enfin, dans le domaine Marketing, la qualité des études repose en grande partie sur la qualité de l’échantillon étudié. En amont de l’étude, et selon les objectifs, il est donc nécessaire de définir la méthodologie qui permettra de réduire l’erreur ou l’écart entre la réalité et la mesure réalisée. La mise en place d’un plan de sondage permet d’identifier précisément la population étudiée, de définir sa taille, et de déterminer les caractéristiques requises pour l’échantillon d’étude. La taille d’un échantillon ne dépend pas de la taille de la population à étudier, mais de deux critères qui sont la précision souhaitée pour les résultats et le nombre de sous-populations à analyser dans cet échantillon. L’enjeu des études marketing est donc surtout d’assurer la représentativité de l’échantillon d’étude. Les méthodes les plus rigoureuses pour assurer cette représentativité sont les méthodes probabilistes (tirage aléatoire simple, échantillonnage stratifié, par grappes, systématique…), mais d’autres techniques moins coûteuses existent (méthodes non probabilistes : méthodes des quotas, échantillon de convenance,…). C’est davantage sur cette question de représentativité de l’échantillon qu’intervient Soladis dans le domaine Marketing.

Pour conclure, quelles préconisations recommandez-vous à vos clients à ce sujet ?

La priorité est de définir clairement l’objectif de l’étude, les populations ciblées, et d’avoir une idée du résultat que l’on souhaite mettre en évidence. Pour cela, il s’agit de se référer à la littérature, ou bien réaliser une étude pilote en amont de l’étude principale. Une fois que l’hypothèse sur la valeur attendue du critère principal est formulée, nos statisticiens sont en mesure de calculer des tailles d’échantillons appropriées.

Nos équipes se tiennent à votre disposition pour répondre à vos questions et vous accompagner sur ces sujets

N’hésitez pas à solliciter nos équipes via le formulaire de contact


Références

Légifrance. (2019, avril 17). Arrêté du 21 décembre 2018 fixant le format du résumé du protocole d’une recherche impliquant la personne humaine mentionnée au 3° de l’article L. 1121-1 du code de la santé publique ne comportant que des questionnaires ou des entretiens. Récupéré sur Légifrance.gouv.fr: https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000037852311

SPRIET, Alain et DUPIN-SPRIET, Thérèse. (2004). Bonne pratique des essais cliniques des médicaments. Karger Publishers.