L’analyse de variance à mesures répétées

A quoi sert cette méthode statistique?

– à comparer les moyennes obtenues par des échantillons appariés. En pratique, il s’agira généralement:

  1. D’examiner les scores obtenus sur une même variables mesurées à plusieurs temps différents chez les mêmes sujets (par exemple avant et après une manipulation expérimentale). On qualifiera alors ce facteur de facteur “temps”.
  2. De comparer les réponses à différents items concernant des objets différents mais mesurant le même type de construct théorique. Par exemple, on pourrait comparer trois types de jugements d’une cible, tels que la  sociabilité, l’intelligence, et la moralité sur une échelle à 7 points.  On pourrait alors qualifier ce facteur de facteur “dimension”.  On pourrait également demander aux sujets d’effectuer ces jugements à propos de plusieurs groupes différents, par exemple, les Français, les Belges et les Allemands. Dans ce cas, le plan, ou “design” en anglais, sera le suivant: dimension (sociabilité, intelligence, moralité)  x groupe cible (français, belges, allemands).
  3. D’examiner l’effet d’une manipulation expérimentale quand les mêmes sujets sont exposés à tous les niveaux de la manipulation expérimentale. Par exemple, imaginons que l’on s’intéresse à l’effet d’une amorce associée à un groupe cible donnée (par exemple, les Maghrébins ou les Français) ou neutre (par exemple, “savon”), sur le temps de réaction à une tâche de décision lexicale (décider si une suite de lettre est un mot ou un non-mot). On pourra effectuer cette tâche sur des mots stéréotypiques des maghrébins, des français, ou d’aucun des deux groupes. Imaginons par ailleurs que tous les sujets voient les deux types d’amorces et doivent répondre aux mots des trois types. Dans ce cas, le design sera type d’amorce (français, maghrébins, neutre) X type de jugements (stéréotypiques de français, stéréotypique des maghrébins, neutre).

– ATTENTION: Cette analyse ne nous dit pas dans quel sens vont ces éventuelles différences. Pour le savoir, il est nécessaire de calculer les moyennes par groupes grâce à la commande MEANS ou à un graphique et, dans le cas d’interactions significatives, on analysera les effets simples des facteurs afin de déterminer quels effets sont impliqués dans l’interaction. 

– Niveau de mesure: intervalle.

Avantage de l’analyse de variance à mesures répétées sur l’analyse de variance factorielle.

Lorsqu’une manipulation est intra-sujets, c’est-à-dire que les mêmes sujets sont exposés aux différentes conditions expérimentales, on ne peut pas attribuer la différence entre deux conditions à des différences entre les sujets qui ont été confrontés aux différentes manipulations expérimentales. Par exemple, dans une expérience impliquant une mesure de temps de réaction, certains sujets sont plus lents que d’autres. Si on applique une manipulation inter-sujets (c’est-à-dire que des sujets différents sont assignés à chaque niveau de la variable indépendante), il est possible que les différences entre les conditions soient dues au fait que, par hasard, il y avait plus de sujets lents dans une condition que dans les autres. Si tous les sujets avaient été exposés à toutes les manipulations expérimentales, et que la variable était donc intra-sujets (“within-subjects”), une différence entre deux conditions ne pourrait pas due à cet effet “parasite”. On pourra donc plus facilement l’attribuer à un effet de la manipulation. Lorsqu’on utilise un plan intra-sujets, et une analyse de variance à mesure répétées, à différence égale entre deux conditions, il y a donc plus de chances que celle-ci soit due à la manipulation plutôt qu’à des caractéristiques des deux échantillons. En d’autres termes l’analyse de variance à mesures répétées est plus puissante que l’analyse de variance factorielle inter-sujets car elle détecte plus facilement les différences entre les populations investiguées.

Par ailleurs, un avantage pratique des plans intra-sujets réside naturellement dans le fait qu’il faut recruter beaucoup moins de sujets étant donné que les mêmes sujets sont confrontés à tous les niveaux des facteurs. Cela constitue naturellement un gain de temps appréciable.

Désavantages des plans intra-sujets par rapport aux plans inter-sujets

Le principal désavantage des plan intra-sujets (et non de la méthode d’analyse elle-même) réside dans le fait que les réponses des sujets peuvent se contaminer mutuellement. Par exemple, si on compare les stéréotypes des Marocains à ceux des Français chez le même groupe de sujets, il est envisageable que les réponses à un type de groupe influencent les réponses à l’autre type de groupe. Le sujet pourrait par exemple se dire lorsqu’ils doit juger si les Français sont accueillants qu’ils sont peu accueillants car il viendra de se prononcer sur les Marocains qu’il a jugés extrêmement accueillants. Ce type de problème peut-être partiellement résolu en contrebalançant l’ordre de présentation des mesures. En d’autres termes, la moitié des sujets devra d’abord se prononcer sur les Marocains et l’autre moitié sur les Français.

Commandes SPSS

Pour expliquer les commandes nous allons nous baser sur le fichier ANOVREP.POR (fichier “portable SPSS”) qui décrit l’expérience imaginaire suivante: chaque observation correspond à un sujet qui a dû évaluer la sociabilité d’une cible française et d’une cible belge et ce avant ou après une discussion avec un comparse. Avant d’effectuer leurs jugements, la moitié des sujets ont été confrontés à une menace identitaire (sous la forme d’une “blague belge”), l’autre moitié non. Le plan est donc le suivant: menace (oui, non) x cible (belge, français) x temps (avant, après discussion). Le premier est inter-sujets et les deux derniers intra-sujets. Le fichier SPSS comprend dans l’ordre les colonnes suivante:- num: numéro du sujet- condit: condition expérimentale (menace, absence de menace).

– socbel1: jugement de la sociabilité des Belges avant discussion.

– socbel2: jugement de la sociabilité des Belges après discussion.

– socfra1: jugement de la sociabilité des Français avant discussion.

– socfra2: jugement de la sociabilité des Français après discussion.

  • Analyse Data/ General Linear Model/ Univariate/ Repeated Measures.
  • Vous voyez apparaître une fenêtre vous demandant de spécifier les noms des facteurs intra-sujets. Dans “Within-factor” subject name, indiquez le nom du premier facteur, par exemple “cible”. Dans “number of levels”, indiquez 2: effectivement, il y a deux niveaux (français et belges). Cliquez sur “Add”. Procédez de même avec le second facteur, que l’on appellera “temps” et qui a également deux niveaux. Poussez sur “Add” et ensuite sur “Define”.
  • Sur l’écran suivant, vous devez indiquez les noms des variables qui correspondent à chaque combinaison de facteurs répétés. Comme nous avons deux facteurs répétés à deux niveaux, il y a 4 variables. Le premier chiffre entre parenthèses correspond au premier facteur défini (ici “cible”) et le second au second facteur (ici, “temps”). Si nous avions trois facteurs répétés, il y aurait bien sûr 3 chiffres.
  • Faites glisser une des variables dépendantes, par exemple sterbel1 en la sélectionnant et en cliquant sur la flèche “>”.
  • Si vous avez choisi socbel1(1,1), cela signifie que le niveau 1 du facteur “cible” est “belge” et le niveau 1 du facteur “temps” est “avant discussion”.
  • La deuxième variable dépendante correspondant à la combinaison (1,2) est donc socbel2 vu que seul le temps varie.Faites-la glisser de la même façon.
  • La troisième variable (2,1) est nécessairement  socfra1 et la quatrième (2,2) socfra2. Faites-les glisser successivement.
  • Il vous reste à faire glisser la variable “inter-sujets”. Sélectionnez donc “condit” et faites-là glisser dans “Between-Subject Factors”.
  • Afin d’avoir une idée des effets qui pourraient intervenir, il vaut la peine de cliquer sur “options” qui nous permet de représenter les moyennes correspondant à chaque effet. Sélectionnez l’ensemble du contenu du rectangle de gauche dans le rectangle de droite (en cliquant sur “overall” et en faisant descendre le pointeur,  faites-le glisser jusqu’au bas de la liste pour obtenir toutes les combinaisons, et cliquez sur “>”). Cliquez ensuite sur “continue”.
  • Cliquez à nouveau sur OK afin que l’analyse s’affiche.

Comment lire l’Output?

Après avoir obtenu des informations sur le nombre de niveaux de chaque facteur, vous obtenez un tableau du type suivant, qui vous indique les différents effets observés. Remarquons qu’on retrouve deux types d’effets: les effets multivariés (représentés dans le tableau ci-dessous) et un peu plus loin, les “within-subject” effects (tableau suivant). Remarquons que, bien que les deux donnent souvent les mêmes résultat, vaut mieux se centrer sur le tableau des  “within-subjects effects” (effets intra-sujets) qui est décrit plus loin.

 

Multivariate Tests(b)

Effect Value F Hypothesis df Error df Sig.
CIBLE Pillai’s Trace .448 47.802(a) 1.000 59.000 .000
Wilks’ Lambda .552 47.802(a) 1.000 59.000 .000
Hotelling’s Trace .810 47.802(a) 1.000 59.000 .000
Roy’s Largest Root .810 47.802(a) 1.000 59.000 .000
CIBLE * CONDIT Pillai’s Trace .001 .031(a) 1.000 59.000 .861
Wilks’ Lambda .999 .031(a) 1.000 59.000 .861
Hotelling’s Trace .001 .031(a) 1.000 59.000 .861
Roy’s Largest Root .001 .031(a) 1.000 59.000 .861
TEMPS Pillai’s Trace .261 20.809(a) 1.000 59.000 .000
Wilks’ Lambda .739 20.809(a) 1.000 59.000 .000
Hotelling’s Trace .353 20.809(a) 1.000 59.000 .000
Roy’s Largest Root .353 20.809(a) 1.000 59.000 .000
TEMPS * CONDIT Pillai’s Trace .038 2.356(a) 1.000 59.000 .130
Wilks’ Lambda .962 2.356(a) 1.000 59.000 .130
Hotelling’s Trace .040 2.356(a) 1.000 59.000 .130
Roy’s Largest Root .040 2.356(a) 1.000 59.000 .130
CIBLE * TEMPS Pillai’s Trace .282 23.201(a) 1.000 59.000 .000
Wilks’ Lambda .718 23.201(a) 1.000 59.000 .000
Hotelling’s Trace .393 23.201(a) 1.000 59.000 .000
Roy’s Largest Root .393 23.201(a) 1.000 59.000 .000
CIBLE * TEMPS * CONDIT Pillai’s Trace .072 4.544(a) 1.000 59.000 .037
Wilks’ Lambda .928 4.544(a) 1.000 59.000 .037
Hotelling’s Trace .077 4.544(a) 1.000 59.000 .037
Roy’s Largest Root .077 4.544(a) 1.000 59.000 .037
a Exact statistic
b Design: Intercept+CONDIT
Within Subjects Design: CIBLE+TEMPS+CIBLE*TEMPS

Comme pour une analyse de variance factorielle classique, SPSS nous indique le niveau de signification statistique des effets principaux et les interactions. Toutefois, pour chaque effet, ce niveau est calculé de quatre façons différentes. En règle générale, leurs résultats sont concordants. Seul, Roy’s largest root peut donner des résultats légèrement différents. On préfèrera les trois autres techniques. Plus généralement, nous constatons que SPSS ne nous donne dans ce tableau-ci que les effets impliquant des facteurs répétés. Il manque donc l’effet principal de la condition que l’on observera plus bas. Jusqu’à présent nous constatons quatre effets: un effet de la cible (donc selon que l’on juge des français ou des belges, les moyennes diffèrent), un effet du temps (ces moyennes varient donc en fonction de la discussion), une interaction entre le temps et la cible (les deux effets précédents dépendent donc l’un de l’autre), et une interaction des trois facteurs (les effets conjoints de la cible et du temps dépendent donc de la présence d’une menace ou non). Pour connaître exactement la nature de ces effets, il nous faudra examiner les tableaux de moyennes un peu plus loin.
Mauchly’s Test of Sphericity(b) Measure: MEASURE_1

Mauchly’s W Approx. Chi-Square df Sig. Epsilon(a)
Within Subjects Effect Greenhouse-Geisser Huynh-Feldt Lower-bound
CIBLE 1.000 .000 0 . 1.000 1.000 1.000
TEMPS 1.000 .000 0 . 1.000 1.000 1.000
CIBLE * TEMPS 1.000 .000 0 . 1.000 1.000 1.000
Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables is proportional to an identity matrix.
a May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed in the Tests of Within-Subjects Effects table.
b Design: Intercept+CONDIT
Within Subjects Design: CIBLE+TEMPS+CIBLE*TEMPS

SPSS nous indique ensuite le résultat d’un “test de sphéricité” qui vérifie l’une des conditions d’application de la méthode employée ici. Généralement, on peut ignorer ce test…Et dans le cadre de ce site web, nous l’ignorerions.

Tests of Within-Subjects Effects Measure: MEASURE_1

Source Type III Sum of Squares df Mean Square F Sig.
CIBLE Sphericity Assumed 427.652 1 427.652 47.802 .000
Greenhouse-Geisser 427.652 1.000 427.652 47.802 .000
Huynh-Feldt 427.652 1.000 427.652 47.802 .000
Lower-bound 427.652 1.000 427.652 47.802 .000
CIBLE * CONDIT Sphericity Assumed .276 1 .276 .031 .861
Greenhouse-Geisser .276 1.000 .276 .031 .861
Huynh-Feldt .276 1.000 .276 .031 .861
Lower-bound .276 1.000 .276 .031 .861
Error(CIBLE) Sphericity Assumed 527.837 59 8.946
Greenhouse-Geisser 527.837 59.000 8.946
Huynh-Feldt 527.837 59.000 8.946
Lower-bound 527.837 59.000 8.946
TEMPS Sphericity Assumed 162.097 1 162.097 20.809 .000
Greenhouse-Geisser 162.097 1.000 162.097 20.809 .000
Huynh-Feldt 162.097 1.000 162.097 20.809 .000
Lower-bound 162.097 1.000 162.097 20.809 .000
TEMPS * CONDIT Sphericity Assumed 18.351 1 18.351 2.356 .130
Greenhouse-Geisser 18.351 1.000 18.351 2.356 .130
Huynh-Feldt 18.351 1.000 18.351 2.356 .130
Lower-bound 18.351 1.000 18.351 2.356 .130
Error(TEMPS) Sphericity Assumed 459.602 59 7.790
Greenhouse-Geisser 459.602 59.000 7.790
Huynh-Feldt 459.602 59.000 7.790
Lower-bound 459.602 59.000 7.790
CIBLE * TEMPS Sphericity Assumed 321.247 1 321.247 23.201 .000
Greenhouse-Geisser 321.247 1.000 321.247 23.201 .000
Huynh-Feldt 321.247 1.000 321.247 23.201 .000
Lower-bound 321.247 1.000 321.247 23.201 .000
CIBLE * TEMPS * CONDIT Sphericity Assumed 62.914 1 62.914 4.544 .037
Greenhouse-Geisser 62.914 1.000 62.914 4.544 .037
Huynh-Feldt 62.914 1.000 62.914 4.544 .037
Lower-bound 62.914 1.000 62.914 4.544 .037
Error(CIBLE*TEMPS) Sphericity Assumed 816.930 59 13.846
Greenhouse-Geisser 816.930 59.000 13.846
Huynh-Feldt 816.930 59.000 13.846
Lower-bound 816.930 59.000 13.846

– SPSS nous fournit ensuite les “within-subject effects” ou “effets répétés”. Cet output donne des informations très semblables aux “multivariate tests”. Généralement, ce tableau est donc quasiment interchangeable avec ce dernier.

– Ignorez également les “within-subject contrasts” qui suivent.

– Restent les “Between subject effects”, équivalents à une analayse de variance traditionnelle:

Tests of Between-Subjects Effects Measure: MEASURE_1 Transformed Variable: Average

Source Type III Sum of Squares df Mean Square F Sig.
Intercept 6782.374 1 6782.374 617.620 .000
CONDIT .607 1 .607 .055 .815
Error 647.906 59 10.981

Comme nous n’avons ici qu’un seul facteur inter-sujets, la condition, l’unique test est celui d’un “main effect” de la condition qui teste si les jugements moyens diffèrent en fonction de la présence d’une menace. Cette analyse est de peu d’intérêt car les jugements moyens sont claculés en effectuant les moyennes des jugements des belges et des français avant et après la discussion. La présence d’un effet indiquerait donc qu’indépendemment du groupe cible et du moment auquel ces jugements ont été récoltés, ceux-ci diffèrent.

 

Estimated Marginal Means

Ensuite, apparaissent les tableaux de moyennes. Nous n’allons examiner ici que les tableaux correspondant aux effets que nous avons obtenus:

 

3. CIBLE Measure: MEASURE_1

Mean Std. Error 95% Confidence Interval
CIBLE Lower Bound Upper Bound
1 6.597 .295 6.006 7.188
2 3.949 .276 3.396 4.501

 

Nous obtenons un effet de la cible qui indique que les français sont jugés comme moins sociable que les Belges. Effectivement, le jugement moyen est de 6.60 pour les Belges et de 3.95 pour les Français.

4. TEMPS Measure: MEASURE_1

Mean Std. Error 95% Confidence Interval
TEMPS Lower Bound Upper Bound
1 4.458 .286 3.886 5.030
2 6.088 .269 5.550 6.626

Nous obtenons également un effet du temps qui indique qu’au temps 2 (après discussion, M = 6.10), les jugement sont en moyennes plus éleves qu’avant discussion (M = 4.46).

 

7. CIBLE * TEMPS Measure: MEASURE_1

Mean Std. Error 95% Confidence Interval
CIBLE TEMPS Lower Bound Upper Bound
1 1 4.634 .442 3.750 5.518
2 8.560 .456 7.648 9.471
2 1 4.281 .374 3.533 5.029
2 3.616 .373 2.870 4.363

 

Nous avions obtenu un  effet d’interaction entre la cible et le temps. Qu’observe-ton? En ce qui concerne les Belges, nous constatons que les jugements de sociabilité ont tendance à augmenter après la discussion par rapport à avant, alors que pour les français ils ont tendance à diminuer. Nous pouvons même examiner si chacun de ces effets est significative en examinant l’intervalle de confiance des moyennes. Ces intervalles de confiance nous indique les valeurs entre lesquelles on peut affirmer avec 5% de chance de se tromper (ou 95% de certitude) que la valeur “réelle” de la moyenne (c’est-à-dire sa valeur dans la population) se trouve. En ce qui concerne les français, celui-ci varie entre 3.75 et 5.52 avant la discussion, c’est-à-dire un intervalle qui n’inclut pas la moyenne de 8.57. On peut donc supposer que cette augmentation est significative chez les belges (même si ce n’est pas là la méthode la plus appropriée pour tester des effets simples, comme nous le verrons plus loin). Par contre en ce qui concerne les français, les intervalles respectifs des deux moyennes (de 3.533 à 5.029 avant discussion et de 2.87 à 4.36 après discussion) comprennent la moyenne correspondant à l’autre niveau (3.61 est dans le premier intervalle et 4.28 dans le second). Donc, la diminution observée sur les jugements des français n’est pas significative au seuil de .05.

 

8. condition * CIBLE * TEMPS Measure: MEASURE_1

Mean Std. Error 95% Confidence Interval
condition CIBLE TEMPS Lower Bound Upper Bound
Pas de menace 1 1 3.936 .630 2.675 5.196
2 9.425 .649 8.126 10.725
2 1 4.531 .533 3.465 5.598
2 3.399 .532 2.335 4.464
Menace 1 1 5.333 .620 4.093 6.573
2 7.694 .639 6.416 8.973
2 1 4.031 .524 2.982 5.081
2 3.834 .523 2.787 4.881

 

Enfin, l’interaction des trois facteurs étaient significative. En examinant le tableau ci-dessus, on constate que l’interaction précédente, c’est-à-dire la tendance des jugements des belges à augmenter après la discussion combinée à la tendance des jugements des français à diminuer est plus marquées en l’absence de menace. Une analyse des intervalles de confiance nous indique que ces tendances sont significatives partout sauf chez les français dans la condition menace.

 

8. condition * CIBLE * TEMPS Measure: MEASURE_1

Mean Std. Error 95% Confidence Interval
condition CIBLE TEMPS Lower Bound Upper Bound
Pas de menace 1 1 3.936 .630 2.675 5.196
2 9.425 .649 8.126 10.725
2 1 4.531 .533 3.465 5.598
2 3.399 .532 2.335 4.464
Menace 1 1 5.333 .620 4.093 6.573
2 7.694 .639 6.416 8.973
2 1 4.031 .524 2.982 5.081
2 3.834 .523 2.787 4.881

Leave a Reply

Your email address will not be published. Required fields are marked *