Les interactions impliquant des facteurs continus

Introduction: En psychologie socials, on s’intéresse souvent à l’influence d’une variable continue sur une variable dépendante en fonction d’une variable catégorielle ou nominale. Est-ce que l’effet de la variable continue dépend de la variable nominale? Ou inversement, est-ce que l’effet de la variable nominale dépend de la variable continue? Répondre à ces questions implique donc d’étudier les interactions entre la variable nominale et la variable continue. Sur cette page, je décris de façon très succincte et peu technique les façons les plus simples d’étudier ce type d’interactions.

Un exemple: Imaginez la situation suivante: vous avez mesuré l’identification à la Belgique de deux groupes de sujets grâce à une échelle regroupant plusieurs items (le score variant entre 1 et 9), par exemple des personnes de – de 20 ans et des personnes de plus de 40 Vous souhaiteriez examiner si l’identification a un effet sur un autre facteur, par exemple l’attitude vis-à-vis du droit de vote accordé aux étrangers non européens, et surtout si cette relation dépend de l’âge. En d’autres termes, vous aimeriez examiner s’il existe une interaction entre le groupe d’âge et l’identification. Manifestement, vous ne pouvez toutefois pas effectuer un ANOVA factoriel car une telle analyse exige que les facteurs soient des variables nominales. Or l’identification est une variable continue dans le cas présent. Comment faire?

    • Pour aborder ce problème, on peut envisager trois solutions faciles à appliquer mais qui ne sont pas optimales et une quatrième, demandant davantage d’efforts, mais qui est préférable.

 

    • Solution 1: la dichotomisation (“median split”) : la première consiste à transformer votre variable continue en une variable nominale, par exemple en divisant votre échantillon en deux groupes: les “peu” et les “fort” identifiés sur base d’une section à la médiane (qui consiste à séparer les sujets de part et d’autre de la médiane, c’est-à-dire la position de l’échelle qui permet de distinguer deux groupes égaux de sujets de part et d’autre de ce point). On peut ensuite effectuer un anova factoriel en traitant les deux variables indépendantes comme des facteurs nominaux. Cette solution est regrettable car elle revient à négliger la “richesse” de l’échelle. Ainsi, en admettant que la médiane soit au milieu de l’échelle (4.5), un sujet qui a obtenu une valeur de 4.4 sera considéré de façon équivalent à un sujet qui a obtenu un score de 1 alors qu’un sujet ayant obtenu un score de 4.6 sera considéré comme aussi différent qu’un sujet qui a obtenu un score de 4.6. L’analyse perdera donc nécessairement de la puissance.

 

    • Solution 2: comparer les corrélations. Une autre solution, plus recommandable, consiste à calculer la corrélation entre l’identification et l’attitud vis-à-vis du droit de vote dans chaque groupe d’âge.
    • Ceci peut se faire de façon aisée en utilisant la fonction “split file” dans SPSS. Cette fonction vous permet de faire des analyses séparées à chaque niveau d’une variable que vous définirez Vous cliquez sur DATA/Split file/Organize Outpout by groups et vous faites glisser la variable “groupe d’âge” (ou toute autre variable indépendante nominale, selon vos données) avant de cliquer sur OK. Toutes les analyses que vous effectuerez seront produites pour chaque groupe d’age. Pour désactiver la fonction, vous devrez cliquer sur data /split file/analyse all case/OK.Vous pouvez alors calculer la corrélation entre vos deux variables en cliquant sur analyze/correlate/bivariate et en faisant glisser vos deux variables (identification et attitude). SPSS produit alors les corrélations pour chaque groupe d’âge. Imaginez que celle-ci soit de .02 pour les jeunes et de .40 pour les plus âgés. Comment savoir si elles sont différentes? Cette question est importante car si les corrélations sont significativement différentes, cela signifie que l’effet de l’identification sur l’attitude dépend de l’âge ou, en d’autres termes qu’il existe une interaction entre l’âge et l’identification. Pour savoir si c’est le cas, il est utile d’utiliser un calculateur comme celui-ci.

 

  • Solution 3- L’analyse de (co)variance incluant un prédicteur continu et interaction. Outre ces deux méthodes artisanales, une solution plus adéquate consiste à effectuer une analyse de covariance mais en tenant compte du fait que l’un des prédicteurs est continu (ce qui n’est pas le cas dans l’analyse de variance traditionnelle). La logique est la suivante: vous allez effectuer une analyse de variance mais en spécificiant bien à SPSS que votre variable identification est continue. Pour ce faire, cliquez sur General linear model/ Univariate. Vous faites glisser votre variable dépendante “attitude” dans “dependent” et votre variable nominale dans “fixed factors”. Jusqu’ici, rien de spécial: vous procédez comme pour une ANOVA normae. En revanche, vous faites glisser votre facteur continu (identification) dans “covariate”. Ensuite, vous cliquez sur “model”. Là, vous devez spécifier à SPSS que vous souhaitez non seulement qu’il vous informe sur les effets principaux de chaque variable (vous les faites glisser en choisissant “main effects” ) mais également sur leur interaction (vous les sélectionnez toutes les deux et choissez “all 2-way” avant de les faire glisser). Remarquons que pour les versions récentes d’SPSS, vous devez préalablement cliquer sur “custom”. Vous cliquez ensuite deux fois sur OK. Vous voyez alors apparaître l’effet de l’identification, l’effet de l’âge et l’interaction entre l’âge et l’identification comme dans un ANOVA habituel. Remarquez que chaque effet est contrôlé par les deux autres. Ainsi, si vous obtenez un effet de l’âge, cela signifie que cet effet tient compte de l’identification: donc, ce n’est pas parce qu’un groupe est plus identifié que l’autre (ce qui est éventuellement possible) que vous obtenez cet effet de l’âge. Si vous obtenez un effet d’interaction, la méthode examinée ci-dessus, et qui consiste à calculer les corrélations dans chaque groupe, vous informera quant à la nature de cette interaction. Par exemple, il est possible que la corrélation soit positive dans un groupe et négative dans l’autre, que l’une soit plus positive que l’autre, etc.Bien sûr cette méthode peut être généralisée à des situations impliquant deux ou trois variables continues.
  • Solution 4 (idéale): la régression multiple. La méthode que nous venons de décrire est en fait un cas particulier du modèle linéaire général. C’est pourquoi, il est en fait beaucoup plus flexible de se passer complètement de l’ANOVA et de procéder directement à une régression multiple (analyze/regression/linear) une méthode dont le but est d’examiner les relations entre différents prédicteurs (alias variable indépendante ou facteurs) et une variable dépendante (pour une introduction en anglais à cette méthode, voir cette page-ci).
La régression linéaire multiple nous renseigne sur les relations entre les prédicteurs et la variable dépendante sous forme d’une “équation de régression” qui a la forme suivante:
Y = A+B1*X1+B2*X2+B3*X3…

Y est la variable dépendante
X1,X2,…sont les prédicteurs
B1,B2…sont des coefficients estimés par la méthode qui nous indiquent le degré auquel Y varie en fonction de X2. Plus B1 est “grand” en valeur absolue, plus X1 joue un rôle important dans les variations de Y.
A est l’ “intercept”, c’est-à-dire la valeur deY lorsque tous les prédicteurs sont nuls.
Cette méthode permet d’examiner l’effet de chaque prédicteur en contrôlant les autres prédicteurs. Par exemple si X1 est l’âge, X2 le salaire et Y une mesure de satisfaction professionnelle, la méthode nous permettra d’estimer l’effet du salaire sur la satisfaction indépendamment de l’âge (si on ne procédait pas de la sorte, il est possible qu’une corrélation entre le salaire et la satisfaction soit purement dûe à l’âge si les travailleurs âgés gagnent en moyenne davantage que les jeunes).
  • Pour ce faire, il faut mettre en oeuvre quelques étapes relativement simples. Cette procédure est légérement plus fastidieuse que les méthodes précédentes mais:
1- Elle est immensément plus flexible et nous offre davantage d’informations.
2-Il existe des macros permettant d’automatiser ces étapes en recourant à la syntaxe dans SPSS. Avant d’utiliser ces macros, il peut toutefois être utile de mettre en oeuvre la méthode manuellement afin de se familiariser avec sa logique.
  • La nature de ces étapes dépend du nombre de modalités du prédicteur nominal (combien de valeurs peut-il prendre?).
    • Variable nominale à deux modalités.

      • En ce qui concerne la variable continue: il importe de la centrer. Pour ce faire, on crée une nouvelle variable (via par exemple la commande tranform/ compute qui correspondra à la différence entre la nouvelle variable et sa moyenne).  Appelons la cont
      • En ce qui concerne la variable indépendante nominale, il faut également opérer un recodage (grâce à la fonction tranform/recode) qui dépendra du nombre de modalité de cette variable. Je traite ici le cas le plus simple (deux modalités). On essayera de recoder ces deux modalités de façon à ce qu’une modalité soit recodée à -0,5 et l’autre à 0,5. Appelons là “nom”
      • En ce qui concerne l’interaction: grâce à la commande “compute” on crée une nouvelle variable correspondant au produit des deux variables que l’on vient de créer.Appelons-là nom*cont
      • Il suffit alors de mettre en oeuvre la commande analyze/regression/linear. On fait glisser la variable dépendante dans la case “dependent” et les trois nouvelles variables dans “predictors”. On clique “OK”.
      • Le tableau “coefficients” de l’output nous informe sur l’équation de régression qui a la forme
      • Y = A+B1*CONT+B2*NOM+B3*NOM*CONT.
      • Cette équation correspond à la prédiction de la Variable Dépendante (Y) sur base des deux prédicteurs et de leur interaction.
      • Les valeurs de B1,B2 et B3 sont disponibles dans la colonne “B”. Le A correspond à la constante (s’il est significatif, cela veut dire que la moyenne de Y est significativement différente de 0). Un B1 de 2,7 par exemple, indique que chaque augmentation de 1 unité de la variable continue tend à augmenter de 2,7 unités la variable dépendante.
      • La colonne “sig” nous dit si ces valeurs sont significativement différentes de 0 (s’il y a un effet “significatif” de la variable en question ou de l’interaction).
      • Pour savoir qu’elles sont les valeurs prédites de Y (la variable dépendante) en fonction des prédicteurs, ils suffit de les remplacer par des valeurs spécifiques. Pour le prédicteur nominal, on choisira bien sûr les valeurs de -0,5 et 0,5 que l’on a attribuées à chaque condition. Pour le prédicteur continu, Aiken & West recommandent de choisir des valeurs situées à un écart-type de part et d’autres de la moyenne. On peut ainsi calculer facilement quatre valeurs prédites.
      • On peut également calculer des coefficients de régression par condition (ce qui est impossible via une ANCOVA). Comment s’y prendre? Il suffit de remplacer “nom” par sa valeur. Donc, par exemple, lorsque NOM vaut -0,5, l’équation devient:
        • Y = A + B1*CONT-0,5*B2-0,5*B3*CONT.
      • Donc, dans cette condition:
        • Y= A+CONT(B1-0,5*B3)-0,5*B2.
      • Le coefficient correspondant à cont est donc B1-0,5*B3. Quand cont augmente de 1 unité, Y augmente de B1-0,5*B3 unités dans cette condition.
      • Dans l’autre condition, on remplace “Nom” par 0,5.
      • Donc, ici, le coefficient correspondant à cont vaut (B1+0,5*B3).
      • Si l’interaction est significative, B3 sera important et les coefficients observés dans les deux conditions seront différents.
  • On peut appliquer plus facilement cette méthode, et savoir si ces coefficients de régression simples sont significatifs, en recourant aux macros proposés ci-dessous.
  • Que faire lorsque la variable nominale a plus de deux modalités? Dans ce cas, il faut la recoder en plusieurs variables ayant chacune deux modalités et indépendantes entre elles. On utilise pour ce faire des contrastes indépendants. Imaginons par exemple, une variable nominale à trois modalités correspondant par exemple aux valeurs “Cadres” (1), “Ouvriers” (2), “Employés” (3).
    1 2 3
    Recodage 1 Cont1 0,5 0 -0,5
    Cont2 -1 2 -1
    Recodage 2 Cont1 1 -0,5 -0,5
    Cont2 0 0,5 -0,5

 

    • Le recodage 1 propose deux nouvelles variables. L’un compare les cadres aux ouvriers, l’autres les employés aux deux autres groupes. Ils sont indépendants parce que la somme de leurs produits est nulle (-0,5)*(-1)+0*2+(0,5)*(-1)=0.
    • Le recodage 2 propose également deux nouvelles variables cont1 et cont2. L’une compare les cadres aux deux autres groupes et l’autre ces deux derniers entre eux. Ces contrastes sont également indépendants.
    • Le choix des contrastes dépend évidemment des intérêts théoriques du chercheur.
    • Une fois les recodages choisis (soit l’un soit l’autre), on a donc créé deux nouvelles variables nominales cont1 et cont2. Il suffit alorsde créer deux variables supplémentaires correspondant aux produits de ces variables nominales avec le prédicteur continu et centré. On a donc deux termes d’interaction (interac1 et interac2).
    • On introduit alors dans la régression le prédicteur continu, les deux contrastes (si leur B est significatif, cela signifie que la comparaison associée à ces contraste l’est également), et les termes d’interaction.
    • Lorsqu’on applique ces méthodes, il est également crucial de maîtriser les méthodes de détection des outliers univariés et multivariés qui sont précisément incluses dans la commande linear regression de SPSS. Voir cette page-ci pour davantage de détails.

Voici quelques fichiers extrêmement utiles et permettant de faciliter l’étude des interactions impliquant des facteurs continus:

    • Macro SPSS mise au point par Johannes Ullrich pour calculer des interactions impliquant deux facteurs dont l’un au moins est continu. Cette macro vous épargnera (dans la plupart des cas) de devoir vous-mêmes centrer les variables, calculer les termes d’interaction, etc. En outre, cette macro vous communique la valeur des coefficients de régression par condition. Très très utiles. Pour utiliser cette macro, vous devrez d’abord créer un fichier syntaxe (file/new/syntax). Pour lancer des commandes en syntaxe, il suffit de les copier dans le fichier, de les mettre en surbrillance et de cliquer sur le bouton “play” dans la barre de commandes au-dessus de la fenêtre.. Mode d’emploi de la macro
    •  Macros de Jeremy Dawson permettant de représenter graphiquement des interactions à deux et trois facteurs.Très utile également!
    • Calculateurs online permettant d’estimer les effets d’interactions dans les régressions multiples.

Références et ressources “papier”

  • Pour des informations très complètes à ce sujet, je recommande la lecture de l’ouvrage d’Aiken et West, Interactions in Regression. Londres: Sage.
  • L’article suivant  (en français) est synthétique et très clair:
Brauer, M. (2002). L’analyse des variables indépendantes continues et catégorielles:
Alternatives à la dichotomisation. L’Année Psychologique, 102, 449-484.

Leave a Reply

Your email address will not be published. Required fields are marked *