L’inférence
Comparaison de moyennes et inférence: Principes de Base
Imaginons que vous essayiez de savoir si les hommes sont meilleurs que les femmes en mathématiques. Vous soumettez un test de mathématiques à 30 étudiantes et 30 étudiants de psychologie et comparez leurs scores moyens à ce test. Vous constatez, grâce à un test t pour échantillons indépendants qu’il est significatif à .04 et que les hommes obtiennent des scores plus élevés que les femmes. Mais qu’est-ce que cela signifie réellement?
Le principe général de l’inférence statistique consiste à tirer des conclusions concernant un groupe auquel on ne peut pas accéder directement (généralement parce qu’il est trop grand. Ici, les hommes et les femmes, soit 3 milliards d’individus dans chaque cas; ou plus modestement les “étudiants” et les “étudiantes”) à partir d’un sous-groupe auquel on a accès et que l’on considère comme un échantillon aléatoire provenant de cette population. Le groupe “étendu” sur lequel on veut tirer des conclusions s’appelle la “population” et le groupe restreint auquel on a accès l’ “échantillon“.
Les tests de comparaison de moyennes (mais cette logique peut être étendue à d’autres test) fonctionnent selon un raisonnement par l’absurde: Ils partent du principe que nos deux échantillons proviennent de la même population du point de vue de la variable dépendante qui nous intéresse. En d’autres termes que les hommes et les femmes ont les mêmes niveaux de compétences en mathématiques.
Imaginez que je choisisse au hasard 20 jeunes filles dans une classe de première année. Parmi ces 20 jeunes filles, je détermine à pile ou face lesquelles seront dans le groupe A et lesquelles seront dans le groupe B. J’ai donc constitué deux échantillons à partir de ma population de départ. Imaginons que je mesure à présent leur taille et que je calcule la moyenne dans le groupe A et dans le groupe B. Seront-elles identiques? Même si on tire deux échantillons au hasard à partir d’une même population, il est très peu probable que ces deux échantillons aient exactement la même moyenne et ce, en raison de l’erreur, c’est-à-dire un ensemble de facteurs aléatoires susceptibles d’influencer les observations. Je ne vais pas pour autant en conclure qu’on peut considérer la différence de moyenne entre mes deux groupes comme systématiques et dues à un facteur extérieur. Mais il est également peu probable que les moyennes observées soient très différentes.
Grâce à une distribution théorique (celle du t), on peut connaître exactement la probabilité d’obtenir chaque différence possible en fonction de son ampleur et de la variance observée dans chaque échantillon. On calcule donc cette probabilité et si on constate qu’elle est très basse (inférieure à .05) on en conclut qu’il est peu probable que les deux échantillons proviennent de la même population. Ils doivent provenir donc de deux populations aux moyennes différentes, les hommes et les femmes.
La logique est donc la suivante:
– Je pars du principe que les deux échantillons proviennent de la même population du point de vue de la variable dépendante ou, en d’autres termes, que l’hypothèse nulle, est vraie.
– J’examine les implications de cette supposition par rapport à la probabilité d’obtenir les différences de moyenne observées.
– Si cette probabilité est très basse (sur base d’un seuil que je définis, par exemple .05, soit 5%), j’en conclus que les deux échantillons proviennent de deux populations différentes et que les deux populations dont ils sont issus (les hommes et les femmes) ont des moyennes différentes. Je rejette donc l’hypothèse nulle.
– Si cette probabilité est haute, je ne rejette pas ma supposition de base (hypothèse nulle), à savoir que les deux échantillons proviennent de la même population.
Comme ce raisonnement est statistique, et non purement logique, on ne peut jamais être certain que notre décision d’accepter ou de rejeter l’hypothèse nulle (c’est-à-dire notre supposition de départ) soit exacte et reflète adéquatement la réalité. On peut donc effectuer deux types d’erreurs:
– L’erreur de première espèce consiste à rejeter l’hypothèse nulle (par exemple à décider que les hommes ont des compétentces différentes des femmes en mathématiques) alors qu’en réalité elle est vraie (les hommes ne diffèrent pas des femmes au niveau de leur aptitudes en mathématiques). On accepte généralement ce risque a hauteur d’un seuil (alpha) de .05. En d’autres termes, on accepte d’éventuellement se tromper si on a moins de 5% de chances que ce soit le cas. Formulé encore d’une autre façon, si l’hypothèse nulle est vraie, il reste 5% de chances qu’on la rejette à tort.
– L’erreur de seconde espèce consiste à ne pas rejeter l’hypothèse nulle bien qu’elle soit fausse. La probabilité d’effectuer cette erreur (appelée beta) est inversément proportionnelle à la puissance du test (1-beta): c’est-à-dire la probabilité de rejeter, à raison, l’hypothèse nulle. La relation entre la puissance et le seuil que l’on choisit (alpha) est en revanche positive: plus on choisit un seuil exigeant (donc faible), moins on a de chance de détecter une différence significative.
Résultat du test
Réalité |
Non Rejet de H0 | Rejet de H0 |
H0 est vraie | Décision correcte (Proba de 1-alpha) | Erreur de première espèce (Proba de alpha) |
H0 est fausse | Erreur de seconde espèce (Proba de beta) | Décision correcte (Proba de 1 -beta = Puissance) |
On peut choisir de cantonner notre risque de première espèce uniquement d’un seul côté de la distribution. Par exemple, si je veux tester l’hypothèse qu’un régime d’entraîenment augmente la performance sportive, je n’examinerai que la possibilité que la moyenne de performance dans la condition “régime” soit plus élevée que dans la condition contrôle. Mon hypothèse alternative est donc que MoyenneRégime>MoyenneContrôle. Dans cette éventualité, je concentrerai mon risque d’erreur uniquement du côté correspondant de la distribution. Je serai prêt à commettre une erreur de première espèce de ce côté là uniquement. On parle de test unilatéral.
En revanche, dans certains cas mon hypothèse alternative est simplement que les deux moyennes sont différentes (sans présumer de leur direction). Dans ce cas, je répartirai mon risque d’erreur des deux côtés de la distribution (2,5% de chaque côté). Il en résulte qu’à valeur égale de ma statistique (par exemple t), le p. correspondant au risque de première espèce sera multiplié par deux dans ce dernier cas. J’aurai donc moins de chance de détecter une différence si elle est présente.
Donc, un test bilatéral est plus conservateur (il minimise le risque d’erreur de première espèce) mais moins puissant.