Comment définir la taille d’un échantillon?

(article rédigé par Olivier Klein)


Pourquoi définir la taille d’échantillon a priori?

* Lorsqu’on effectue une étude expérimentale, on est guidé par des hypothèses. Celles-ci peuvent concerner certains effets desmanipulations que l’on introduit ou des différences entre des groupes de participants se distinguant sur certains traits. Grâce à des méthodesd’inférence statistique, on cherche à établir la vraisemblance de ces hypothèses. Toutefois, pour que ces méthodes permettent de tirer des conclusions pertinentes, il faut que le nombre d’observations soit suffisant. Comment dès lors déterminer ce nombre, ou effectif? Il estévidemment tentant de se baser sur une règle intuitive (20 sujets par condition par exemple) ou de se laisser guider uniquement par l’accès à la population (“plus j’en ai, mieux c’est”) voire à arrêter la collecte de données dès qu’on obtient des résultats significatifs (une pratiquetotalement contraire aux principes d’inférence statistique!). Aucune de ces solutions n’est idéale. En effet, pour déterminer le nombred’observations à utiliser dans une étude, il faut prendre en compte la puissance de cette étude. La puissance, correspond à la probabilité dedétecter un effet qui est présent dans la population dont est issu l’échantillon. Elle dépend précisément des facteurs suivants:

* – La taille de l’effet dans la population (plus l’effet est important, plus on a de chances de le détecter).

* – La taille de l’échantillon (plus elle est élevée, plus la puissance est importante)

* – Le seuil de signification (plus il est élevé, plus grande est la puissance).

* Cf. aussi la page sur l’inférence statistique

* Problème: si la puissance de notre étude est insuffisante, on ne peut tirer aucune conclusion des résultats, en particulier s’ils sont non significatifs. Or, la puissance moyenne des études publiées en psychologie est très faible. Elle se situerait autour de 50% (Rossi, 1990). Celaveut dire les études de psychologie ont en moyenne seulement une chance sur deux de détecter un effet (en supposant qu’il soit présent).Outre les conséquences que cela entraîne sur l’intérêt des études publiées, cela représente un gaspillage de ressources (temps, argent, crédits d’expériences,…) considérable.

* Trois solutions s’offrent à nous pour augmenter la puissance d’une étude:

* Augmenter la taille de l’échantillon.

* Minimiser l’erreur (ce qui peut se faire par l’entremise de plans intra-sujets, en introduisant des covariés ou en utilisant des échantillonsaussi homogènes que possible au sein de chaque condition).

* Utiliser des manipulations plus fortes (et donc à augmenter la taille de l’effet).

Remarque: De nombreuses publications en psychologie, telles que Psychological Science, Journal of Experimental Social Psychology ouPersonality and Social Psychology Bulletin exigent (ou recommandent) à présent que les études soient “enregistrées” (sur un site web comme par exemple, l’Open Science Framework (http://www.osf.io). Cet enregistrement implique notamment de rapporter a priori uneanalyse de puissance justifiant la taille d’échantillon utilisée. Ceci permet notamment d’éviter une pratique consistant à arrêter la collecte dedonnées lorsque l’effet est significatif (ce qui augmente le risque d’erreur de première espèce).

 

Quelle puissance utiliser?

* Le grand spécialiste de la puissance, Jacob Cohen, recommande un seuil de 80%. Cependant, on pourrait proposer l’argument selon lequelune puissance n’est acceptable qu’à partir de 95% ce qui reviendrait à accepter le même taux d’erreur de type II (beta = faux négatifs) que cequ’on accepte en termes d’erreur de type I (alpha = faux positifs). En effet, avec une puissance de 80%, on considère comme acceptable de “manquer” 20% d’effets pourtant bien présents.

* Pour faire tous ces calculs une ressource est grandement utile: le logiciel G*power (http://www.gpower.hhu.de/en.html) qui est librementaccessible. Utilisez la fonction “determine” pour convertir les etas carrés partiels en “f” (indice de taille d’effet utilisé par le logiciel). Une feuilleexcel permettant de convertir tous les indices de tailles d’effets existe également ici. S’il est important d’estimer si un effet est robuste ou non, il est absolument nécessaire de choisir une puissance importante (95 % de préférence). S’il s’agit juste d’explorer un effet potentiellementintéressant théoriquement, mais non encore établi, il peut être plus légitime de choisir une puissance plus faible.

 

Les différents indices de taille d’effet

* La taille d’effet représente tout simplement la “grandeur” de l’effet observé et dépend du rapport entre le degré auquel les moyennes (ou tendances centrales) varient d’une condition (ou d’une modalité de la VI) à l’autre et le degré de variation au sein de chacune de ces conditions (ou modalités). C’est le rapport entre la variabilité inter-conditions (ou groupes ou modalités) et la variabilité intra-.

* Eta carré (ou η2) correspond à la proportion de variance totale expliquée alors que l’eta carré partiel (fourni notamment par SPSS) est le rapport entre la variabilité due à l’effet considéré et la somme des variabilités (Somme des carrés) due à cet effet d’une part et à l’erreur d’autre part. G*Power utilise un autre indice le f de Cohen, qui correspond au rapport entre la variance des moyennes et la variance de l’erreur. D’autres indices existent. Voir une description complète dans l’article de Lakens (2013).

 

Estimation des tailles d’effets

Pour faire une analyse de puissance, il est nécessaire d’estimer les tailles d’effets. Comment s’y prendre? Plusieurs solutions s’offrent à vous:

1- Se baser sur des travaux existants. L’idéal bien sûr consiste à effectuer une étude pilote et à évaluer la taille d’effet sur un petit échantillon. Alternativement, si l’on connaît, les tailles d’effets dans la littérature (de préférence des méta-analyses, qui proposent des estimations plus fiables), on peut les utiliser. On peut aussi les calculer aisément si on dispose d’études précédentes dans lesquelles les moyennes et les écarts-types par condition (ou les Sommes des carrés inter et intea) sont disponibles (en cliquant sur “determine” dans g*power ou en utilisant un calculateur comme celui-ci: http://www.psychometrica.de/effect_size.html). Attention, toutefois: selon Simmons, vu le biais de publication dans la littérature en faveur des résultats significatifs, il vaut souvent mieux prendre des échantillons deux fois à deux fois et demi plus grands que ce que l’on obtient sur base des résultats observés dans la littérature. Donc, par exemple, si on vous recommande unéchantillon de 20 sujets par condition pour une puissance à 95%, il vaut mieux en avoir 50.

 

2- Utiliser les conventions de Cohen qui définit des effets petits (d = .2, eta2 = .02, f = .10), moyen (d = .5,  eta2 = .13, f = .25) et grand (d = .8, eta2 = .26, f = .40). On pourra ensuite utiliser le tableau suivant pour estimer le nombre de sujets nécessaires en fonction du plan. Ce tableau rapporte l’effectif par groupe nécessaire pour atteindre une puissance de 80% dans des plans inter-sujets.

 

  Taille d’effet  
#Nombre de groupes/Plan Petit Moyen Grand dl numér.
2 393 64 26 1
3 (oneway) 322 52 21 2
4 (oneway) 274 45 19 3
2 X 2 196 32 13 1
2 X 3 162 26 11 2
3 X 3 132 21 9 4
2 X 2 X 2 99 16 7 1
Valeur de d 0,2 0,5 1  
f 0,10 0,25 0,45  
% variance expliquée (eta carré) 1 % 6% 17%  

 

  1. La troisième solution consiste à se baser sur ses propres estimations quant à ce qui constitue un effet digne d’intérêt. Par exemple, si on s’intéresse aux différences entre les hommes et les femmes sur une mesure de racisme, on peut se dire, que l’on ne sera guère intéressé par un effet du sexe qui explique moins de 5% de variance totale. Ceci pourrait se justifier par des préoccupations sociétales: pourquoi étudier un facteur qui n’expliquera qu’une partie congrue de la variance du phénomène qui nous intéresse? On peut établir la taille d’effet correspondante grâce au tableau ci-dessous. Le “f” (utilisé par G*power) vaut un peu plus de 0,20 pour une taille d’effet (eta carré) correspondant à 5% de la variance. Donc, pour deux groupes,

 

f % variance
Petit effet 0,1000 0,01
0,1500 0,02
0,2000 0,04
Effet moyen 0,2500 0,06
0,3000 0,08
0,3500 0,11
0,4000 0,14
Grand Effet 0,4500 0,17
0,5000 0,20
0,5500 0,23
0,6000 0,26

 

Remarquons qu’en psychologie, les tailles d’effets sont en moyenne de d = 0,21 (Richards et al, 2000) ce qui est très faible.

 

Dans le même ordre d’idée, une autre façon de procéder consiste à se représenter de façon concrète ce que représente une taille d’effet donnée. Dans ce tableau, on envisage deux groupes, expérimental et contrôle (mais cela pourrait être les hommes et les femmes, les fumeurs et les non fumeurs, ….). Selon la taille d’effet, voici ce que cela implique pour trois indices. Par exemple, avec une taille d’effet de d = 0,1, 54% des sujets du groupe expérimental seront au-dessus de la moyenne du groupe contrôle, on a 52% de deviner correctement l’appartenance à un groupe sur base de son score, et il y a 53% de chances qu’une personne tirée au hasard dans le groupe expérimental soit au-dessus d’une personne du groupe du contrôle. A partir de quel pourcentage, le phénomène vous intéresse-t-il?

 

 

d

 

 

% groupe expérimental sous la personne moyenne du contrôle

 

 

Probabilité de deviner groupe sur base d’une connaissance de leur score

 

 

Probabilité que quelqu’un tiré au hasard dans groupe expérimental soit au-dessus du groupe contrôle

 

0.0 50% 0.50 0.50
0.1 54% 0.52 0.53
0.2 58% 0.54 0.56
0.3 62% 0.56 0.58
0.4 66% 0.58 0.61
0.5 69% 0.60 0.64
0.6 73% 0.62 0.66
0.7 76% 0.64 0.69
0.8 79% 0.66 0.71
0.9 82% 0.67 0.74
1.0 84% 0.69 0.76
1.2 88% 0.73 0.80
1.4 92% 0.76 0.84
1.6 95% 0.79 0.87
1.8 96% 0.82 0.90
2.0 98% 0.84 0.92
2.5 99% 0.89 0.96
3.0 99.9% 0.93 0.98

 

 

…Alternativement, examinez la liste d’effets ci-dessous et demandez-vous si l’effet que vous étudiez est susceptible d’être plus ou moins grand que des effets bien établis, voire intuitivement évidents, comme la différence de taille entre hommes et femmes, l’effet de la présence d’une majorité sur le jugement, l’effet témoin ou encore l’influence du fait d’être marié sur le fait d’avoir un enfant? Evidemment, il serait préférable encore d’essayer de trouver des effets qui concernent des types de manipulation et des types de variables dépendantes (échelles, temps de réactions…) qui correspondent à celles que vous étudiez.

Exemples de taille d’effets correspondant à des phénomènes connus ou aisés à se représenter intuitivement

 

 

 

d
Différence de taille entre hommes et femmes 1,90
Différence entre l’IMC moyen en France et au Congo (chez les hommes) 0,92
Effet de l’homéopathie vs. Placebo (Linde et al.) 0,76
Effet Asch (influence d’une majorité sur le jugement de la longueur d’une ligne) 1,06
Fumer 30 cigarette par jour sur probabilité de souffrir du cancer du poumon vs. ne pas fumer (Khuder, 2001) 1,11 à 2,92
Effet du sexe (Hommes +, femmes -) sur le fait d’avoir des attitudes favorable quant au fait d’avoir des relations sexuelles sans investissement affectif (Oliver & Hyde) 0,81
Prédiction de l’attitude par le comportement (Kraus) 0,82
Influence du fait d’être ou d’avoir été marié sur le faitd’avoir au moins un enfant (données américaines) 1,46
Influence du nombre de témoins présents sur laprobabilité d’aider une personne en détresse (FIscher et al.) -0,36
Effet du la “race” (noir vs. blanc) sur le score de racisme vàv des Noirs à l’IAT (USA) 0,49
Influence du fait de ne pas porter de préservatif sur la transmission du HIV d’homme à femme (Padian et al). 0,48
Facilitation sociale (effet de la présence d’autrui sur lapeformance). Bond et al. de 0,10 à 0,30
Impact du fait d’être obèse (par rapport à un poidsnormal) sur le fait d’être victime d’agressions de la part des pairs pour une fille de 11/12  ans (Canada: jannsenet al). 0,48
Différence de QI entre un adulte atteint du syndrome de Down (trisomie 21) et un adulte normal +/- 3
Avoir au moins une carie si l’on se brosse les dents 1fois par jour ou moins versus plus d’une fois par jour (enfants de classes moyennes entre 1,5 et 4,5 ans: Gibson & Williams). 1,81
Proportion de femmes poursuivant des étudessupérieures en sciences fondamentales vs. en lettres (en France en 2006: Fonatanini, Costes, Houadec). 0,81
Taux de mortalité du à la maladie d’Alzheimer entre 65 et 74 ans vs. à plus de 85 ans (USA) 2,16
Biais acteur-observateur (expliquer son comportementpar des facteurs situationnels et celui d’autrui par des facteurs dispositionnels). Source: Malle. de -0,016 à 0,09

 

Ressources en ligne:

  • Très bon site proposant différents calculateurs: http://www.psychometrica.de/effect_size.html
  • Article de Daniel Lakens sur les différents indices de tailles d’effet: http://journal.frontiersin.org/Journal/10.3389/fpsyg.2013.00863/abstract. Il comporte des calculateurs excel très pratiques: https://osf.io/ixgcd/
  • Le même propose une solution face aux difficultés que représente le recrutement d’effectifs importants: l’analyse de données séquentielles, qui consiste à déterminer a priori des “moments” auxquels on arrête la récolte de donnée et pouvons inspecter les résultats avant de décider ou non de poursuivre cette récolte, le tout en contrôlant l’erreur de première espèce de façon stricte (contrairement à la pratique sauvage “j’arrête quand c’est significatif”). Papier sous presse disponible. 
  • Belle réflexion sur l’intérêt des tailles d’effet en psychologie: http://funderstorms.wordpress.com/2013/02/01/does-effect-size-matter/

Leave a Reply

Your email address will not be published. Required fields are marked *