måndag 14 juni 2010

Varför signifikanstesta - egentligen?

Signifikanstestning har i 50 år varit obligatorisk för forskare som vill få sina resultat publicerade. Det har lett till tråkiga konsekvenser eftersom man blivit ensidigt inriktad på statistisk signifikans. Många har en ytlig förståelse av begreppet och förväxlar det med betydelse. Man är ganska sällan klar över att storleken av en effekt är minst lika viktig som ”signifikansen” - i själva verket mycket viktigare enligt min mening. Om man får signifikanta resultat eller ej beror till mycket stor del på stickprovets storlek. I den elementära metodundervisningen verkar det som om man sällan tar upp frågan om effektstorlek. Se Sjöberg (2003).

Signifikanstänkandet har också haft andra negativa konsekvenser (Sjöberg, 1999), ett exempel från utvärderingen av psykologiska test ges i slutet av detta inlägg. Men varför testar man för signifikans? Ett viktigt skäl är troligen att man ska kunna vara någorlunda säker på att resultatet man fått inte har uppkommit av en slump - att det ska kunna replikeras. Kanske är detta det underliggande verkliga skälet, även om det ganska sällan har diskuterats.

Frågan är ju viktig eftersom intuitiva föreställningar är till föga hjälp här, se klassikern Tversky och Kahneman (1971). Tversky och Kahneman visade att forskare (psykologer) kraftigt överskattade sannolikheten att ett ”signifikant” resultat skulle kunna replikeras i en ny studie. Forskarna verkar inte ha varit klara över att sannolikheten för replikation är något helt annat än det vanliga alfa-värdet, som är sannolikheten att ett resultat uppkommer om nollhypotesen är sann. Om alfa=0.05 tror man att sannolikheten för replikation är 0.95 eller något strax därunder.


Sannolikheten för att replikera ett signifikant resultat diskuteras i detalj av Lecoutre et al. (2010). Det tycks som om debatten nu leder fram ett vettigt sätt att praktiskt hantera skattningen av denna sannolikhet med början i Killeen (2005). Killeen har kritiserats intensivt (t ex Miller, 2009) men det verkar som om Lecoutre et al. har fått stil på debatten. Killeens artikel tycks ha fått en del forskare att börja använda hans alternativ till traditionell signifikanstestning. Något tycks vara på väg att hända, men debatten som förts av psykologer borde nog analyseras av statistiker och vetenskapsteoretiker.

Det är tankeväckande att hela frågan som Tversky och Kahneman besvarade i en fotnot i sin artikel 1971 nu ger upphov till mycket omfattande tekniska utredningar där de mest olika åsikter är företrädda. Om man INTE kan bestämma sannolikheten för replikation (Miller, 2009) verkar ett huvudmotiv för signifikanstestning falla bort.

En brasklapp är denna: i små stickprov kan resultaten bli kraftigt påverkade av några få avvikande värden. Det gäller därför att vara extra noga med analyserna när man arbetar med små stickprov (Lemons, 2009).

Signifikanstänkandet styr också ibland rekommendationer om storleken på stickprov. Vid utvärdering av validiteten hos psykologiska test har man länge krävt att minst 100 personer ska ingå i stickprovet. Denna siffra baseras på s k power-analys: man vill ha 90 % chans att belägga ett samband som signifikant på minst nivå alfa=0.05, givet att korrelationen mellan test och kriterium är minst 0.30 i populationen. Om kravet ej är uppfyllt sägs studien vara ”inadekvat” oavsett resultatet (Lindley et al., 2008). Men det är inte Gud som har bestämt värdet på dessa parametrar! Antag att vi ansätter andra lika rimliga eller lika godtyckliga värden på parametrarna. Om vi vill belägga ett samband utifrån konventionell signifikans (p<0.05) med en korrelation på 0.40 i populationen med t ex minst 50 % chans att upptäcka den, vad händer då? Rekommendationen blir N=30 (som ger 61 % chans för att vara exakt), se Tabell F.2 i Cohen et a. (2003). N=100 behövs inte alls i denna situation. Det är uppenbart orimligt att döma ut en studie som ”inadekvat” utifrån vilken storlek stickprovet bör ha som slutsats av en power-analys. Denna typ av analys kan vara bra vid planeringen av en undersökning, men är inte ett lämpligt underlag för att bedöma kvaliteten av resultaten. I själva verket vimlar det av publicerade valideringsstudier av psykologiska test som använt sig av mindre stickprov, t ex en sammanställning av valideringsstudier av det kända personlighetstestet OPQ för urval av säljare (SHL, 1999-2007). Av nio citerade studier var det bara två som uppfyllde kravet N=minst 100. (Intressant är också hur låga sambanden med säljframgång var, i genomsnitt r=0.06, men det är en annan historia som jag snart ska återkomma till).

Referenser
Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences. Mahwah, NJ: Erlbaum.
Killeen, P. R. (2005). An Alternative to Null-Hypothesis Significance Tests. [doi:10.1111/j.0956-7976.2005.01538.x]. Psychological Science, 16(5), 345-353.
Lecoutre, B., Lecoutre, M.-P., & Poitevineau, J. (2010). Killeen's probability of replication and predictive probabilities: How to compute, use, and interpret them. [doi:10.1037/a0015915]. Psychological Methods, 15(2), 158-171
Lemons, C. J. (2009). Replication of significant correlations in small samples. Evaluation & Research in Education, 22(2-4), 75-86.
Lindley, P., Bartram, D., & Kennedy, N. (2008). EFPA review model for the description and evaluation of psychological tests. Test review form and notes for reviewers. Version 3.42: European Federation of Psychological Associations.
SHL. (1999-2007). OPQ32. SHL sales report. Technical manual. SHL Group Ltd.
Miller, J. (2009). What is the probability of replicating a statistically significant effect? [doi:10.3758/PBR.16.4.617]. Psychonomic Bulletin & Review, 16(4), 617-640.
Sjöberg, L. (1999). Psykologisk forskningsmetodik och praktik: tre haverier. (Methods and practice of psychological research: three disasters). VEST: Journal for Science and Technology Studies, 12(3), 5-25.
Klicka här.
Sjöberg, L. (2003). Good and not-so-good ideas in psychological research. A tutorial in idea assessment and generation. VEST: Journal for Science and Technology Studies, 16, 33-68.Klicka här.
Tversky, A., & Kahneman, D. (1971). The belief in the "law of small numbers". Psychological Bulletin, 76, 105-110.