Données extrêmes (outliers) univariées et multivariées
Il y a deux types de données extrêmes ou outliers. Les éliminer peut rendre de grands services car ils tendent à biaiser les statistiques inférentielles (ANOVAs, tests t, régression multiple, etc.):
descriptives var=nom de la variable
/save.
Vous verrez apparaître leur Z. S'il est plus grand que 4 (voire que 3) en valeur absolue, il est fort probable qu'on puisse l'éliminer sans trop de scrupules! Ceci étant, il existe une méthode préférable: l'utilisation de la déviation à la médiane, dont vous trouverez une description et une procédure de mise en oeuvre sur SPSS sur cette page-ci.
Les outliers multivariés: Lorsqu'on fait une régression multiple, il est souvent utile de pouvoir détecter les outliers multivariés (observations qui sont très mal expliquées par le modèle et semble donc provenir d'une autre population). Ce sont des observations, donc, qui se distinguent des autres par leur pattern étrange au vu des relations observées entre les variables dans le reste de l'échantillon. Par exemple, si on observe une très forte corrélation entre l'estime de soi et l'extraversion dans l'ensemble de l'échantillon, un sujet qui est en même temps fort introverti et possède une haute estime de soi apparaîtra comme un outlier multivarié même si les valeurs d'introversion et d'estime de soi sont chacune "normales".
Pour ce faire, il est souvent pertinent de sauver l'indice de cook (en cliquant sur save dans le module "régression linéaire" de SPSS), d'examiner sa distribution (grâce à un histograme), et d'éliminer les outliers univariés sur cette nouvelle variable (qui est automatiquement nommée coo_1 par SPSS). En général, le plus simple pour ce faire est de faire un histogramme. Typiquement, la plupart des valeurs se situent proche de 0. Les quelques outliers multivariés se rapprochant de .1. On peut les éliminer en cliquant sur data/select cases/if condition is satisfied. Et indiquer dans la case correspondant à la condition "coo_1<.10" (si la valeur seuil est .10 par exemple).
Cela peut radicalement transformer les résultats. Remarquons que cette procédure peut également être appliquée lorsqu'on a des variables purement nominales et que l'on serait tenté de faire une simple ANOVA (il suffit alors de faire une régression à la place).
Outre l'indice de cook, une mesure utilisée de plus en plus souvent pour détecter les outliers est le dffit qui indique l'influence de la donnée "outlying" sur la régression. Une autre mesure similaire est le dfbeta. Ces deux valeurs sont suspects au-delà de 2.
Voici un texte sur ces indices:
http://www.stat.psu.edu/~jls/stat511/lectures/lec25.pdf
De façon générale, voici le chapitre de référence sur les outliers: