De l’intérêt d’une approche scientifique « lente »
La carrière de chercheur scientifique est à la fois passionnante et stressante. Passionnante car elle confère une liberté de penser, de conceptualiser et d’expérimenter. Stressante car le développement et la pérennité d’une carrière repose principalement sur la productivité du chercheur (e.g., nombre de publications, de citations). Baignant dans cette culture du « publish or perish », il est bon, sinon crucial, de prendre le temps de s’interroger sur le fonctionnement et l’éthique de la recherche scientifique.
La création de données et la modification de données constituent des conduites scientifiques ostentatoirement frauduleuses qui, vraisemblablement, demeurent marginales dans le domaine de la recherche scientifique. Les cas de fraude avérés perpétrés par Stapel, Smeesters et Sana (pour ne citer qu’eux) ont été à l’origine d’un vent de perplexité et de suspicion quant à la validité des résultats issus de l’expérimentation en psychologie sociale, et dans le domaine de la science de façon plus générale. Outre la mise en place de mesures visant à détecter la fabrication/modification de données (p.e., analyses statistiques attestant de la plausibilité des distributions de scores), ces événements eurent également le mérite de nous inciter à (re)penser nos pratiques de recherche de façon générale. En effet, si les cas de fabrications de données constituent vraisemblablement des cas rares au sein de la communauté scientifique, il n’en reste pas moins que l’éthique censée baliser la pratique de la recherche scientifique était insuffisamment explicitement définie jusqu’il y a peu.
Au centre de ce débat fondamental, la question de la réplication occupe une place de choix. En effet, le but de la science est d’identifier et de comprendre des phénomènes qui existent bel et bien. Si tel est le cas, tester un phénomène dont l’existence a été précédemment établie dans des contextes similaires devrait permettre d’observer des résultats semblables.
Qu’entend-on par réplication exacte ? L’auto-réplication suffit-elle à garantir la robustesse d’un résultat scientifique ? Dans le cas de réplication infructueuse, est-il raisonnable de postuler l’existence de modérateurs insoupçonnés pour rendre compte de cet échec ?
Afin d’aborder cette question dans le domaine de la psychologie, considérons les résultats fictifs obtenus par deux chercheurs. Un premier chercheur s’intéresse à l’impact du niveau de racisme sur la probabilité de voter pour un parti d’extrême droite et ses résultats indiquent que le niveau de racisme explicite est associé positivement au vote réel pour un parti d’extrême droite (i.e., plus les gens affichent un niveau de racisme explicite élevé, plus ils ont l’intention de voter pour un part d’extrême droite). Il réalise une seconde étude identique et obtient des résultats similaires. Quant à lui, un second chercheur réalise une étude similaire mais mesure différemment le racisme. Pour ce faire, le chercheur n°2 utilise un test de performance mesurant les préjugés négatifs à un niveau implicite en lieu et place du questionnaire utilisé par le chercheur n°1. Par ailleurs, tout comme le chercheur n°1, les résultats du chercheur n°2 suggèrent la présence d’un lien significatif entre niveau de racisme et l’intention d’un vote pour un parti d’extrême droite. Sur base des résultats obtenus par ces deux chercheurs, que faut-il conclure ? Le chercheur n°2 peut-il affirmer qu’il a proposé une réplication exacte des résultats du chercheur n°1 ? Le lien entre racisme explicite et intention de vote existe-t-il puisque le chercheur n°1 l’a démontré dans ses deux études ? Les résultats des études réalisées par les chercheurs n°1 et n°2 sont-elles suffisants pour clamer l’existence d’un lien fort entre racisme et intention de vote ?
Premièrement, il est important de noter que les résultats des deux études menées par le chercheur n°1 ne sont pas directement comparables à ceux obtenus dans l’étude du chercheur n°2 puisque ce dernier n’a pas utilisé la même méthodologie. Ceci nous amène à distinguer la réplication « conceptuelle » de la « réplication exacte ». En effet, bien qu’abordant la même thématique, le chercheur n°2 a utilisé un test mesurant les préjugés à un niveau implicite alors que le chercheur n°1 a utilisé un questionnaire classique (mesure explicite). Afin de maximiser la comparabilité des résultats, il aurait fallu que le chercheur n°2 ait utilisé le même questionnaire (réplication exacte) plutôt qu’un test évaluant le même concept, mais à un niveau implicite (réplication conceptuelle). En effet, tester la robustesse d’un résultat précédemment établi implique l’utilisation d’un cadre méthodologique (condition de passation, questionnaires utilisés, etc.) identique. Dans le cas de notre exemple fictif, il est donc faux de dire que le chercheur n°2 a proposé une réplication exacte des études du chercheur n°1. La conclusion la plus appropriée serait de dire que le chercheur n°2 a obtenu des résultats qui suggèrent que le lien entre attitudes racistes et intention de vote identifié par le chercheur n°1 peut être également observé lorsque l’on mesure les attitudes racistes à un niveau implicite. (En revanche, le chercheur n°2 n’est pas en mesure de statuer sur la réplicabilité de ses données puisque d’autres études n’ont pas encore proposé de réplication exacte.)
Nous venons de voir que l’étude du chercheur n°2 ne constitue pas une réplication exacte, mais bel et bien une réplication conceptuelle. Deuxièmement, focalisons-nous à présent sur les résultats du chercheur n°1. Etant donné que le chercheur n°1 a réalisé deux études identiques (réplication exacte) qui ont donné lieu aux mêmes résultats, ces résultats sont-ils suffisants pour garantir la robustesse et donc le caractère réplicable de ce résultat ? A cette question, Simons (2014) répond par la négative. En effet, si l’on aspire à statuer quant à la stabilité et la robustesse d’un effet considéré, la réplication exacte de cette étude au sein de contextes différents s’avère nécessaire. En d’autres termes, répliquer un pattern de résultats au travers de plusieurs études menées par un même chercheur dans un même contexte (auto-réplication exacte) constitue un pas dans la bonne direction (comment penser qu’un effet est robuste dans des contextes différents si l’effet considéré ne l’est déjà pas dans le même contexte ?), mais non-suffisant pour garantir le caractère robuste de l’effet considéré. Afin de fournir cette « garantie », Simons (2014) suggère donc que l’étude soit également répliquée par d’autres groupes de chercheurs dans d’autres contextes (p.e., tester le lien entre attitudes racistes explicites et intention de vote dans d’autres pays).
Troisièmement, imaginons à présent un troisième chercheur, habitant dans un autre pays, qui tente, à plusieurs reprises, de répliquer les résultats du chercheur n°1. Cependant, après quatre tentatives au cours desquelles il utilise exactement la même méthodologie que celle du chercheur n°1, il ne parvient jamais à répliquer les résultats précédemment identifiés. Face à ce constat, le chercheur n°1 pourrait rétorquer que certaines variables (intra-individuelles, sociales, etc.) sont susceptibles d’expliquer le fait que l’effet qu’il a initialement démontré n’ait pas été répliqué. Il suffirait alors d’identifier le modérateur responsable de ces différences (e.g., voter pour un parti d’extrême droite est extrêmement mal vu au sein du pays dans lequel le chercheur n°3 a récolté ses données) et de le tester au travers d’une expérience afin de déterminer dans quelles situations particulières cet effet est observable.
Cette position est celle défendue par certains chercheurs (voir p.e., Cesario, 2014). Néanmoins, selon Simons (2014), ce raisonnement ouvre la porte à des stratégies d’immunisation (i.e., empêcher que la robustesse et le caractère réplicable d’un résultat soit remise en question) : Si une réplication exacte échoue, il suffit alors d’argumenter que les chercheurs n’ont pas encore identifié le modérateur responsable de l’échec de cette réplication exacte. Or, il n’y a, a priori, aucune raison logique forte qui soutienne cette approche. Comme nous l’avons souligné précédemment, l’existence d’un effet en psychologie (ou dans d’autres domaines de la science) présuppose qu’il soit identifiable dans une variété de contextes. L’échec de réplication exacte n’est donc pas censé amener les chercheurs à interroger les raisons de cet échec et à déterminer quel(s) sont les contexte(s) qui rendent la réplication possible. Néanmoins, notons que l’échec des réplications exactes ne signifie pas pour autant que les données originellement observées ou publiées constituent des « faux-positifs » (p.e., détecter un effet par chance), mais il informe quant au manque de généralisabilité et de robustesse d’un effet précédemment identifié par la recherche scientifique.
Comme nous l’avons vu au travers de ce billet, la question de la réplication est essentielle dans le domaine de la recherche scientifique. Capturer à une seule reprise un effet en psychologie (ou dans un autre domaine de la science) ne permet pas de statuer quant à la généralisabilité et la robustesse de cet effet. A ce titre la réplication exacte (l’auto-réplication dans un premier temps et la réplication par d’autres laboratoires) semble être la solution la plus parcimonieuse si l’on désire mettre à l’épreuve la robustesse d’un effet (Simons, 2014). Conséquemment, cela implique l’adhésion à une conception plus « lente » de la recherche scientifique. Et ces considérations devraient également inviter les acteurs de la recherche scientifique à faire preuve de modestie vis-à-vis de leurs résultats lorsqu’ils parviennent à identifier un nouveau phénomène.
Références bibliographiques
Cesario, J. (2014). Priming, replication, and the hardest science. Perspectives on Psychological Science, 9(1), 40-48.
Simons, D. J. (2014). The value of direct Replication. Perspectives on Psychological Science,9(1), 76-80.
Philippe Bernard
Co-director of the CeSCuP & Chercheur Qualifié FNRS
Co-director of the CeSCuP Full time researcher