4. Metod och genomförande
I det här kapitlet ges en detaljerad beskrivning av metoder och genomförandet av den systematiska översikten. Här redogörs också för de vägval som projektgruppen har gjort inom ramen för arbetet och motiven till dessa. Notera att kapitlet beskriver metod och genomförande för översikten som helhet, dvs. såväl förskola som grund- och gymnasieskola.
Figur 5. Arbetsgång
4.1 Behovsinventering och förstudie – den övergripande inriktningen
Skolforskningsinstitutet genomför löpande behovsinventeringar[24], vilket sker genom dialog med både verksamma och organisationer inom skolväsendet samt med forskare inom utbildningsvetenskap. Syftet med inventeringarna är att försöka ringa in angelägna undervisningsnära frågor där forskningssammanställningar i form av systematiska översikter kan utgöra viktiga underlag för att utveckla praktiken.
Materialet från behovsinventeringarna bearbetas av institutet genom analyser och förstudier. Förstudierna utgör sedan underlag för Skolforskningsnämnden som fattar beslut om de systematiska översikternas övergripande inriktningar. Syftet med förstudierna är att undersöka förutsättningarna för att genomföra översikter inom ett identifierat behovsområde. Det handlar då om att föreslå en inriktning som överensstämmer med institutets uppdrag och att bedöma om det finns tillräckligt med forskning på området.
I behovsinventeringarna har framkommit att lärare, förskollärare och andra verksamma har många frågor om digitalisering i skolan och vilket vetenskapligt stöd det finns för olika användningsområden. De flesta frågor har varit av mer generell karaktär, men det har också uttryckts funderingar kring digitala lärresurser i undervisningen och om de gynnar elevers kunskapsutveckling. Även flera av organisationerna vittnade om att det saknas tillgänglig kunskap om hur digitala lärresurser kan användas på ett genomtänkt sätt i ett pedagogiskt sammanhang.
I förstudien gjordes bedömningen att en systematisk översikt om digitala lärresurser i matematikundervisningen har en potential att vara till nytta för många i skolan och förskolan. Förstudien identifierade exempelvis undersökningar som tyder på att digitala lärresurser nyttjas sparsamt på matematiklektionerna i Sverige och att IT-användningen i skolorna varierar stort (Skolverket, 2016a, 2016d).
4.2 Frågeställning – vad det är vi undersöker och varför
En systematisk översikt grundar sig på den forskning som identifieras och väljs ut. För att skapa förutsättningar för litteratursökningen och urvalet av studier behöver den övergripande inriktningen preciseras.
De preciserade frågorna tas fram av projektgruppen. Många överväganden behöver göras för att precisera frågorna. Om de blir för breda och övergripande kan det innebära att översikten blir mycket omfattande och komplex. Blir de däremot alltför snäva kan det innebära en risk att resultatets användbarhet i praktiken blir begränsad.
Två frågor ställs i den här översikten:
- Vilka effekter har matematikundervisning med digitala lärresurser på barns eller elevers kunskaper i matematik?
- Vad kan förklara om en matematikundervisning med digitala lärresurser har effekt eller inte på barns eller elevers kunskaper i matematik?
För att underlätta arbetet med att ta fram en sökstrategi och tydliga principer för hur urvalet av litteratur ska göras används så kallade inklusions- och exklusionskriterier.
4.2.1 Inklusionskriterier
Skolforskningsinstitutet använder en modell där vi med hjälp av inklusionskriterier bestämmer vilka som ska ha deltagit i studierna, vilka arbetssätt/metoder som ska ha tillämpats, vilken typ av resultat som ska ha rapporterats samt i vilket sammanhang forskningen ska vara gjord. För att en studie ska tas med i översikten behöver alla fyra inklusionskriterier vara uppfyllda.
Forskning som ingår i den här översikten ska avse
- barn i förskola eller elever i grund- eller gymnasieskola (deltagare)
- digitala lärresurser utformade för matematikundervisning eller utvecklade för att hantera matematik (arbetssätt/metoder)
- undersökning av någon aspekt på kunskapsutveckling i matematik (resultat)
- undervisning inom ramen för förskolans eller skolans ordinarie verksamheter (sammanhang).
En rad tekniska villkor behöver också formuleras för att kunna genomföra en systematisk översikt. Det kan handla om inom vilken tidsperiod litteratursökningen ska göras, vilka publikationsformer som ska accepteras eller vilka språk forskningen ska vara rapporterad på för att kunna bedömas av projektgruppen.
Forskning som ingår i den här översikten ska vara
- empirisk primärforskning
- publicerad 2006–2016[25]
- publicerad i vetenskapliga tidskrifter, i skriftliga samlingar från vetenskapliga konferenser (proceedings) eller i form av akademiska doktorsavhandlingar från lärosäten i Skandinavien
- skriven på engelska eller skandinaviska språk
- avse originalarbeten som före publicering har genomgått så kallad peer reviewgranskning.
4.2.1 Exklusionskriterier
Forskning som inte ska tas med i en översikt följer i många fall som en konsekvens av inklusionskriterierna eftersom forskning som inte uppfyller kriterierna exkluderas. Ofta finns dock behov av att även formulera ett antal exklusionskriterier, dvs. kriterier som förtydligar exempelvis forskningsinriktningar som inte kommer att beaktas i översikten.
Forskning som ingår i den här översikten ska inte avse
- vuxenutbildning
- en huvudinriktning på barn eller elever i behov av särskilt stöd, exempelvis barn eller elever med funktionsnedsättning (t.ex. syn- eller hörselnedsättning), räknesvårigheter eller inlärningssvårigheter till följd av annan funktionsnedsättning (t.ex. ADHD, autism eller andra specifika inlärningssvårigheter)
- en huvudinriktning på barn eller elever i behov av andraspråksstöd
- tillgång till eller tillhandahållande av IT-utrustning
- arbetssätt inom ramen för mer varaktig distansundervisning
- arbetssätt inom ramen för arbetsminnesträning eller mer generell träning av kognitiva förmågor
- generella digitala verktyg, ex. medier, kommunikations- eller responsverktyg
- digitala plattformar, bedömningsverktyg eller administrativa program
- endast preliminära resultat eller pågående pågående projekt.
4.2.3 Hur vi har resonerat vid valet av inklusions- och exklusionskriterier
Deltagare
Ett vanligt sätt att begränsa en systematisk översikts omfattning är att avgränsa vilka skolformer som tas med. Vi har bedömt att det inom det här området är viktigt att ta med forskning om såväl förskola som grund- och gymnasieskola, men vi har valt att inte ta med vuxenutbildning.
Typ av digitala lärresurser
En hel del forskning om digitalisering i skola och förskola har haft sitt fokus på tillgång till IT-utrustning, internet och IT-system. Med ett sådant fokus skyms lätt frågor om hur IT kan användas i undervisningen samt vilka konsekvenser användningen kan ha för barns och elevers lärande och deras kunskapsutveckling (Grönlund, 2014; Liabo m.fl., 2016; Skolverket, 2016c).
Vår bedömning har varit att översiktens fokus ska vara på digitala lärresurser som specifikt anknyter till matematik. Även om det finns många exempel på hur IT i de flesta skolämnen kan användas som mer generella verktyg, har vi bedömt det som angeläget att sammanställa forskning om digitala lärresurser som är avsedda för matematik. Vi har formulerat kravet som att lärresurserna ska vara antingen utformade för matematikundervisning eller utvecklade för att hantera matematik. Den första formuleringen hänvisar till digitala lärresurser som har skapats i syfte att användas i ett pedagogiskt sammanhang. Ett exempel kan vara så kallade virtuella manipulativer, alltså digitala lärresurser där matematiska objekt, t.ex. en kub, visas och kan manipuleras på skärmen. Med den andra formuleringen avses digitala lärresurser som har tagits fram i ett annat syfte än för att bedriva undervisning, men som kan användas för att utföra matematiska aktiviteter. Ett exempel på det senare kan vara ett kalkylprogram.
En konsekvens av inklusionskriteriet är också att digitala lärresurser som inte uttryckligen fokuserar på matematikundervisning inte tas med i översikten. Det kan exempelvis gälla såväl digitala lärresurser vars huvudsyfte inte är att användas i matematikundervisning som undervisning i andra ämnen än matematik. Detta trots att relevanta aspekter av matematiken kan beröras i båda fallen. Exempel kan vara äventyrs- och byggspel eller programmeringsaktiviteter.
Vår utgångspunkt har också varit att de lärresurser eller arbetssätt som ingår ska ha en direkt koppling till själva undervisningen och att lärresurserna som studeras ska erbjuda någon form av interaktivitet. Interaktiviteten medför att användaren behöver vara aktiv i relation till den digitala lärresursen i själva undervisningssituationen. Därmed har vi inte tagit med exempelvis arbetssätt som enbart omfattar användning av medier i digital form för att presentera ett innehåll eller lärresurser i syfte att vara till stöd för mer administrativa göromål.
Typ av resultat
Vi har ställt som krav att forskning som inkluderas ska ha studerat och rapporterat resultat avseende någon aspekt på kunskapsutvecklingen i matematik. Kravet medför en tydlig riktning för vilken typ av forskning som kan ingå och därmed för urvalet av studier. Många gånger har det exempelvis lyfts fram att digitala lärresurser bör kunna öka barns och elevers intresse och engagemang, och att mer engagerade barn och elever också bör tillskansa sig mer kunskaper (Hamari m.fl., 2016). Även om det kan vara rimligt att anta att en sådan koppling borde finnas har vi tyckt att resultat avseende motivationsaspekter inte är tillräckligt för att studien ska accepteras.
Ordinarie verksamheter
Metoder och arbetssätt som ingår ska vara avsedda att kunna användas inom ramen för skolans eller förskolans ordinarie verksamheter. En tanke med kravet har varit att inte inkludera så kallade virtuella skolor eller renodlade program och kurser för mer varaktig distansutbildning. En annan tanke har varit att inte ta med forskning om digitala lärresurser eller arbetssätt som kan anses alltför svåra att nyttiggöra i en nära framtid. Det kan röra sig om avancerade lärresurser eller komplexa arbetssätt som exempelvis förutsätter specialutrustning, stora fortbildningsinsatser eller särskild teknisk support. Därutöver har vi bestämt att inte ta med forskning som rör extraordinära undervisningsaktiviteter utanför skoltid ämnade för specifika grupper eller tillfällen, t.ex. studiecirklar för särskilt matematikintresserade eller övningsprogram inför examensprov.
Övriga överväganden
Det finns en rad digitala lärresurser som kan användas i syfte att stödja undervisning av barn och elever i behov av olika former av särskilt stöd för att de ska nå uppställda mål eller krav. Det finns också tekniska hjälpmedel som har skapats för att underlätta undervisning av barn och elever med funktionsnedsättning. Vår bedömning har varit att systematiska översikter inom dessa områden är angelägna, men att de bör genomföras som separata uppdrag. Vi har därför valt att inte ta med forskning med en huvudinriktning på barn och elever i behov av särskilt stöd.
För att kunna bedöma forskningsresultat måste vi ta hänsyn till hur forskningen har genomförts. Den forskningsfråga som ställs i en studie har en avgörande betydelse för vilken ansats som är mest lämplig för att kunna ge ett svar. I det här fallet kan viktiga aspekter vara de som har att göra med t.ex. studieupplägg, studiestorlek, val av jämförelser, val av instrument för att utvärdera resultaten och uppföljningstid. Vår bedömning har varit att sådana överväganden är väsentliga för att kunna bedöma den identifierade forskningens kvalitet.
Vi har vidare bedömt att det inte finns skäl att på förhand avgränsa översikten med avseende på studieursprung. Vi har snarast tyckt att det kan ses som en styrka i det här fallet om den forskning som identifieras har sitt ursprung från olika delar av världen. Däremot har vi bedömt det som viktigt att utforma litteratursökningen på ett sätt som ger goda förutsättningar att fånga upp den skandinaviska forskning som kan finnas. Där det bedömts som relevant har faktorer som kan ha betydelse för överförbarheten till ett svenskt sammanhang diskuterats.
4.3 Litteratursökning – att finna tänkbart relevant forskning
En systematisk översikt kännetecknas av en omfattande sökning av forskningslitteratur. En nyckelfaktor är strategin som används för att identifiera relevant forskning. För att utforma strategin behöver hänsyn tas bland annat till vilka källor sökningen ska utföras i samt vilka sökord och vilken logik som ska användas för att identifiera forskning i olika databaser.
I de flesta databaser görs en sökning med hjälp av en söksträng. Söksträngen är de kombinationer av ord som matas in i databasen.
4.3.1 Sökstrategi
Sökstrategin utformades för att finna all relevant forskning om digitala lärresurser i matematikundervisning inom de definierade ramarna. Med tanke på områdets tvärvetenskapliga karaktär valde vi att söka i internationella vetenskapliga ämnesdatabaser med varierad innehållslig inriktning. Kompletterande sökningar gjordes i skandinaviska databaser för att förbättra förutsättningarna att identifiera forskning som genomförts i ett sammanhang som liknar det svenska. Litteratursökningen gjordes i följande typ av källor:
- internationella vetenskapliga ämnesdatabaser, ex. ERIC, PsycInfo, WebOfScience
- skandinaviska databaser, ex. Libris, SwePub, DiVA
- utvalda vetenskapliga tidskrifter och konferenssamlingar.
Databassökningarna utformades genom att först identifiera relevanta sökord inom kategorierna matematik, digitala lärresurser samt skola/utbildning. Detta gjordes genom efterforskningar av nyckelbegrepp som används inom forskningsfältet samt med hjälp av de externa forskarnas ämneskunskaper. Söksträngen konstruerades så att endast forskningslitteratur som innehöll minst ett sökord från respektive ordkategori skulle fångas. Sökorden skulle påträffas i publikationernas titlar eller sammanfattningar, eller som nyckelord.
Utöver databassökningarna med söksträng användes även andra tekniker för att identifiera relevant forskning. genomfördes För att finna forskning som inte finns publicerad i databaserna och för att fånga studier som inte hittats med hjälp av söksträngen gjorde vi en manuell genomsökning av tillgängliga konferenssamlingar och vetenskapliga tidskrifter inom forskningsfältet. De tidskrifter som handsöktes valdes ut baserat på vilka som genererat flest relevanta träffar efter den inledande relevansgranskningen. De konferenssamlingar som handsöktes valdes ut baserat på de externa forskarnas bedömningar av tänkbart viktiga konferenser inom fältet.
För en detaljerad beskrivning av sökstrategin inklusive vilka källor, sökord och begränsningar som använts, se bilaga 1 på webbplatsen www.skolfi.se.
Figur 6. Utformning av sökstrategi
En extra kontrollsökning genomfördes i augusti 2017 i syfte att undersöka att relevanta studier inte missats. Söksträngen utformades då specifikt för att hitta experimentella studier. Ett antal ytterligare vetenskapliga tidskrifter handsöktes vid samma tillfälle. Urvalet av tidskrifter baserades på rekommendationer från forskare inom ämnesfältet. Kontrollsökningen redovisas separat i bilaga 1 på webbplatsen www.skolfi.se.
4.4 Relevans- och kvalitetsbedömning
Den litteratur som identifieras genom litteratursökningarna behöver gallras, sorteras och bedömas mot bakgrund av inklusions- och exklusionskriterierna. Urvalet syftar till att sålla bort de studier som bedöms inte kunna bidra till att besvara den fråga som den systematiska översikten har som mål att besvara. Hur noggrant litteratursökningen än görs kommer en stor del av den identifierade litteraturen att utgöras av brus, dvs. studier som saknar relevans för översiktens frågor.
I ett nästa steg kvalitetsgranskas den forskning som bedöms uppfylla översiktens inklusionskriterier. Det är endast forskning som bedöms vara relevant och av tillräcklig kvalitet, för vår frågeställning, som får ingå i översikten. Kvalitetsgranskningen är det sista steget i urvalsprocessen för att avgöra vilken litteratur som ska ingå i den systematiska översikten.
4.4.1 Relevansgranskning i flera steg
Som första steg i relevansgranskningen gjorde medarbetare vid Skolforskningsinstitutet en första gallring av titlar och sammanfattningar tillhörande alla referenser som identifierats i litteratursökningen. Den litteratur som inte motsvarade de uppställda kriterierna gallrades bort. För att inte riskera att missa relevant litteratur tillämpades principen hellre fria än fälla, vilket innebar att alla publikationer som inte säkert kunde bedömas gick vidare till nästa steg i urvalsprocessen.
I nästa steg gick projektgruppens externa forskare igenom de titlar och sammanfattningar som kvarstod efter den första gallringen. Inför detta steg delades forskarna in i läspar och relevansgranskningen genomfördes av två forskare oberoende av varandra. Det innebar att litteratur som minst en av forskarna bedömde uppfylla kriterierna, eller då tillräcklig information saknades för att göra en bedömning, gick vidare till nästa steg. Forskarna fick även tillgång till en förteckning av samtliga referenser som gallrats ut i första steget.
Slutligen genomfördes relevansgranskning i fulltext. I detta steg bedömdes publikationerna i sin helhet. Två av projektgruppens externa forskare, oberoende av varandra, genomförde även fulltextläsningen. Den som efter läsning i fulltext bedömde att en publikation borde exkluderas fick också ange skälen för detta.
Litteratur som exkluderades efter bedömning i fulltext sorterades bort av något eller flera av följande skäl: fel deltagare, metod/arbetssätt, typ av resultat, sammanhang, språk eller publikationstyp; bakgrundsmaterial som forskningsöversikter, debattinlägg, reflektioner, tips och trix eller liknande; eller dubblett[26]. Antalet publikationer som sorterats under respektive kategori av exklusionsorsaker redovisas dock inte. Anledningen är att publikationerna kan ha brustit i överensstämmelse med översiktens fråga av flera olika skäl. Vid bedömningen har principen varit att exkludera studier som inte uppfyller översiktens relevanskriterier så snart någon bristande överensstämmelse påträffades. En redovisning av dessa frekvenser skulle därför kunna bli missvisande.
De oenigheter som uppstod, dvs. när forskarna inom ett läspar hade bedömt en och samma publikation olika, löstes genom ett konsensusförfarande enligt följande: den forskare som inkluderat en publikation som den andra forskaren hade exkluderat fick relevansbedöma en extra gång, då med information om den exklusionsorsak som den andra forskaren angett i steget innan. Vid behov fördes en diskussion för att enas om ett gemensamt beslut.
4.4.2 Kvalitetsbedömning – vilken forskning som är tillförlitlig
Oavsett vilken typ av empirisk forskning som värderas handlar kvalitetsgranskningen om att avgöra studiernas trovärdighet, tillförlitlighet och överförbarhet. Det innebär att värdera i vilken utsträckning man i en studie verkligen har undersökt det man avsåg att undersöka, hur precist eller fullödigt resultatet är samt om, och i så fall på vilket sätt, resultatet kan överföras till andra sammanhang. Bedömningen kan enbart utgå ifrån det som rapporteras i publikationerna, dvs. hög kvalitet i själva rapporteringen är avgörande för att en studie ska kunna bedömas rättvist[27] (Gough m.fl., 2013).
Att kvalitetsbedöma forskningslitteratur kräver ofta många överväganden. För att en studie ska kunna anses ha tillräcklig kvalitet behöver en rad olika aspekter vara tydligt redovisade och vissa krav måste vara uppfyllda. Utgångspunkter, val av metod för att samla in och analysera data, resultat och tolkningar samt i vilket sammanhang forskningen är gjord ska tydligt framgå. Forskningsfrågorna och avgränsningarna ska vara väldefinierade och det ska finnas ett resonemang kring hur formuleringen av dessa relaterar till tidigare forskning och/eller om det finns någon teorianknytning. Vidare bör det finnas en noggrann redovisning för hur data och resultat relaterar till varandra, eventuella analysproblem och en diskussion om resultatens överförbarhet kopplat till urval och sammanhang. Mer allmänt måste en studie också leva upp till krav på begriplighet och logisk struktur. Att beskrivningar och resonemang är enkla att förstå och att själva forskningsprocessen går att följa är väsentligt för att över huvud taget kunna göra en bedömning (Gough m.fl., 2013; Higgins & Green, 2011; Petticrew & Roberts, 2006; Statens beredning för medicinsk utvärdering (SBU), 2014).
Resultatet av litteratursökningen, relevans och kvalitetsbedömningen redovisas i ett flödesschema[28], i vilket det går att följa hela processen.
Systematik i bedömningen
Alla studier som passerade relevansgranskningen tilldelades ett unikt löpnummer och förtecknades i en tabell. Studierna delades sedan upp slumpvis mellan granskarna för bedömning. Kvalitetsgranskningen genomfördes av projektets externa forskare och projektledaren.
För att alla studier skulle behandlas på ett systematiskt och likvärdigt sätt användes ett bedömningsstöd som i ett antal frågor tar upp olika aspekter som kan påverka en studies kvalitet (se bilaga 2 på webbplatsen www.skolfi.se). Förutom att ge vägledning för kvalitetsgranskningen utgjorde stödet underlag för redovisningen av granskarnas resonemang. Bedömningsstödets funktion var dock enbart att ge en övergripande vägledning för granskningen. Projektgruppen förde därför löpande diskussioner för att specificera aspekter på vetenskaplig kvalitet i relation till den systematiska översiktens fråga[29].
Därefter delades resultaten av kvalitetsbedömningarna inom projektgruppen. Vid osäkerheter om enskilda bedömningar fördes diskussioner om studien kunde anses ha tillräcklig kvalitet för att ingå i översikten[30].
Typ av forskning som kan besvara översiktens fråga
I den här översikten är fokus på att utvärdera hur undervisning med stöd av digitala lärresurser påverkar barns och elevers kunskapsutveckling i matematik. Det har fått konsekvensen att den forskning som ingår i översikten består av experimentella jämförande studier.
I avsnitten nedan går vi igenom vad vi har ansett är viktigt att tänka på när experimentella jämförande studier ska tolkas, och hur vi har resonerat när vi kvalitetsbedömt studierna.
Vad som karaktäriserar ett experiment
Ett experiment karaktäriseras av att något görs under kontrollerade förhållanden för att påverka ett utfall. Syftet är att studera ett samband mellan två eller flera variabler samtidigt som alla andra tänkbara variabler är konstanta. Även om den experimentella studien har tydliga fördelar när man som forskare är ute efter att studera effekter och orsakssamband finns också nackdelar. Ibland är experiment svåra att genomföra av praktiska, juridiska eller etiska skäl. En annan nackdel är att dessa studier kan ha begränsningar gällande möjligheterna att överföra resultaten till verkliga situationer. Medan experimentsituationen karakteriseras av en hög grad av kontroll, är verkligheten i själva verket ofta mycket olikartad. Överförbarheten påverkas också av andra saker, såsom i vilken utsträckning den grupp som studeras är representativ för andra grupper, eller om det sammanhang en studie genomförs i liknar andra sammanhang (Bryman, 2016; Cohen m.fl., 2011).
Jämförelsegrupp är viktigt när effekter ska studeras
I effektstudier behövs en jämförelsegrupp för att kunna skilja effekten av en insats från en normalt förväntad kunskapsutveckling som följer av att i någon form delta i undervisning. För att undersöka effekter räcker det inte att bara studera dem som får ta del av en viss typ av undervisning. En viktig anledning är att det är rimligt att anta att en relevant undervisningsinsats alltid i någon mån förbättrar kunskapsutvecklingen, oavsett om den är bättre eller sämre än någon annan (Bryman, 2016; Higgins & Green, 2011; Statens beredning för medicinsk utvärdering (SBU), 2014).
Som jämförelsegrupp använder man ofta elever som deltar i ordinarie undervisning. Den undervisningen kan naturligtvis se olika ut i olika sammanhang. När det gäller forskning om digitala lärresurser i matematik är ordinarie undervisning vanligen någon form av analogt arbetssätt för att studera ett visst ämnesinnehåll, såsom att använda tryckt material samt papper och penna.
Det är också möjligt att jämföra användning av två eller flera digitala lärresurser med varandra. Ibland kan det handla om att en och samma lärresurs används på olika sätt, t.ex. att elever antingen får samarbeta eller arbeta enskilt. Sådana studier kan ge information om vilket av jämförda arbetssätt som i något avseende fungerar bäst, men säger inte hur de står sig i jämförelse med en ordinarie undervisning utan en digital lärresurs.
Att delta i ett forskningsprojekt kan skapa förväntningar
För att avgöra om ett utfall verkligen följer som en konsekvens av en viss insats måste villkoren för experiment- och jämförelsegrupperna vara likartade (utöver själva insatsen) allteftersom studien fortlöper. Annars finns risk för att eventuella skillnader i resultat mellan grupper som jämförs i själva verket förklaras av något annat än den insats som ska studeras. I praktiken medför detta att forskarna behöver inhämta information om studiedeltagarna och tillämpa metoder som gör att det går att skapa jämförbara grupper. Nedan tar vi upp några viktiga aspekter att vara medveten om när man ska tolka och värdera experimentstudier.
En sak att uppmärksamma i ett experiment är att det kan finnas en risk för vad som brukar benämnas för Hawthorneeffekter[31]. Hawthorneeffekter är när ett utfall påverkas av att deltagare i forskning omedvetet ändrar sitt beteende till följd av att de blir studerade. Det innebär att själva experimentsituationen kan medföra att såväl elever som lärare skärper till sig lite extra under studiens gång. Det är ytterligare ett skäl till varför det är viktigt att ha en jämförelsegrupp och att även deltagarna i jämförelsegruppen upplever att de är med i en studie. Annars finns risken att en viss insats tolkas som bra, trots att resultatet egentligen bara är en konsekvens av att man deltar i ett forskningsprojekt (Bryman, 2016; Higgins & Green, 2011; Statens beredning för medicinsk utvärdering (SBU), 2014).
Hawthorneeffekter är nära besläktade med vad som kan kallas förväntanseffekter. Förväntanseffekter är helt enkelt effekter till följd av en tro på att en viss insats ska leda till ett visst resultat. Det är förstås inget fel med att ha förväntningar på att exempelvis ett nytt sätt att undervisa är bra, men det kan leda till ett ändrat förhållningssätt i fråga om andra saker än bara att ett nytt arbetssätt används. Det kan naturligtvis också vara tvärtom, att det nya förväntas vara sämre. Ett sätt att minska risken för att förväntningar ska påverka utfallet är att försöka skapa en undervisningssituation i jämförelsegruppen som liknar den i experimentgruppen, men som saknar det innehåll som antas vara gynnsamt för kunskapsutvecklingen i matematik[32]. Det kan till exempel handla om att jämförelsegruppen har fått arbeta med samma digitala utrustning som experimentgruppen, men med något annat än en matematikapplikation.
Det är även viktigt att vara medveten om att den som leder eller ansvarar för undervisningen, t.ex. en lärare eller förskollärare, kan ha en viktig betydelse för resultatet. Beroende på hur en studie i övrigt är upplagd kan det finnas såväl fördelar som nackdelar med att det är antingen en och samma eller olika lärare som leder de olika insatserna som ska jämföras. Finns anledning att misstänka att risken för förväntanseffekter, såväl positiva som negativa, är stor hos läraren, kan det vara bättre att låta olika lärare undervisa i de olika grupperna. Om dessa risker bedöms vara mindre eller på något sätt kunna hanteras i studien, kan det snarare vara en fördel om det är samma lärare som undervisar eftersom villkoren i grupperna då blir mer likartade.
Slumpmässigt urval har många fördelar
En typ av upplägg för att studera effekter är den så kallade randomiserade kontrollerade studien (RCT[33]). I en randomiserad studie fördelas deltagarna slumpmässigt till de insatser som ska jämföras. Den största fördelen med att lotta är att grupperna som ska jämföras med slumpens hjälp kan balanseras avseende okända faktorer eller egenskaper. På så sätt minimeras risken för att grupper ska skilja sig åt gällande sådant som man saknar kunskap om, men som kan påverka studiens utfall (Jadad & Enkin, 2007).
Ett randomiserat upplägg ger goda förutsättningar för att isolera själva insatsen. Det är det säkraste sättet att avgöra om ett utfall verkligen orsakas av insatsen och inte är en konsekvens av andra saker, dvs. att det som faktiskt har hänt inte skulle ha hänt utan insatsen. Om lottningen går rätt till är sannolikheten för en deltagare att hamna i den ena eller andra gruppen oberoende av dennas individuella egenskaper. Därmed undviks en systematisk snedfördelning av individuella faktorer som kan påverka utfallet. En viktig tumregel när man lottar är att de enheter som ska studeras är de enheter som lottas. Det betyder att om det är elevresultat som ska utvärderas i en studie så är det i första hand eleverna som lottas (Higgins & Green, 2011; Jadad & Enkin, 2007).
Lotta grupper av elever i stället för individer
Ibland gör man så kallad grupprandomisering. Det betyder att man lottar grupper, t.ex. skolklasser i stället för elever, till olika insatser. Anledningen till att nöja sig med att lotta grupper är vanligen att det är lättare att genomföra. Men grupprandomisering kan också vara ett bra sätt, till exempel om det är just gruppskillnader man vill studera, eller om det finns starka skäl att tro att individer som befinner sig i samma miljö skulle påverka varandra på ett sätt som gör det svårt att isolera insatserna.
Individer som ingår i en och samma grupp tenderar ofta att påverkas av en insats på ett likartat sätt. Enskilda individers resultat kan därför inte betraktas som oberoende. Det är relativt vanligt att man i grupprandomiserade studier ändå önskar beräkna resultaten i förhållande till antalet individer. Det finns då särskilda beräkningsmetoder att använda som tar hänsyn till de fel som kan uppstå vid ett sådant upplägg. Används inte sådana justeringar ökar risken för att en insats kan tolkas ha effekt trots att den egentligen inte har det, något som på engelska brukar benämnas unit-of-analysis error. Felet kan uppstå när man frångått regeln att det är de enheter som ska analyseras som är de enheter som ska ha randomiserats (Borenstein m.fl., 2009; Higgins & Green, 2011).
Ofta är det svårt att göra ett slumpmässigt urval
Ett annat sätt att göra ett experiment är att använda ett så kallat kvasiexperimentellt upplägg. Det betyder att individerna som studeras fördelas till olika grupper enligt någon annan princip än genom slumpmässig fördelning. Studieupplägget är vanligt i sammanhang då det kan vara praktiskt svårt att tillämpa slumpmässig fördelning. När det gäller undervisning kan det många gånger vara svårt att exempelvis splittra klasser. I stället kan forskarna vara hänvisade till att låta klasserna vara intakta.
Grupper som jämförs måste vara likvärdiga vid studiestart
En nackdel med kvasiexperimentella studier är risken att de grupper som jämförs skiljer sig åt på ett betydelsefullt sätt när studien sätts igång. Det kan exempelvis vara så att en viss klass råkar ha en högre andel högpresterande barn eller elever som av något skäl har bättre förutsättningar än barn eller elever i en annan klass. Sådana skillnader kan vara avgörande för studiens resultat. Därför är det väsentligt att man, efter att fördelningen har gjorts, kan visa att det inte finns några viktiga skillnader mellan de grupper som ska studeras innan själva insatsen påbörjas. I vårt fall är det centralt att forskarna på ett övertygande sätt har visat att det inte finns några initiala skillnader i genomsnittlig kunskapsnivå när det gäller de matematikkunskaper som ska prövas. Men det är bra att vara medveten om att det trots detta kan finnas skillnader mellan grupper som man saknar vetskap om men som ändå kan påverka resultatet.
Alla får ta del av en insats
Ett konventionellt cross-overupplägg innebär att en studie startar med att först tilldela en experimentinsats till den ena av två grupper och jämförelseinsatsen till den andra, för att sedan byta plats på grupperna. Upplägget medför att alla deltagare får ta del av båda insatserna, men under olika tidsperioder. Cross-over går att tillämpa i såväl randomiserade som kvasiexperimentella studier.
Traditionellt brukar cross-overupplägg anses lämpliga främst ifall insatsens effekter är övergående. Men om effekter hänger kvar (carry over) i den gruppen som fick experimentinsatsen först påverkar det möjligheterna att jämföra gruppernas resultat efter den andra studieperioden. När det gäller undervisning är det naturligtvis så att målet är att en insats ska ge bestående effekter på kunskapsutvecklingen. Upplägget medför dock också vissa fördelar. Bland annat kan varje deltagare fungera som sin egen kontroll, vilket minskar variationen mellan deltagare samt att antalet deltagare kan minskas utan att förutsättningarna för att påvisa en effekt försämras. Det kan också finnas etiska skäl till att välja cross-over eftersom upplägget medger att alla som deltar får ta del av samma undervisning, om än under olika tidsperioder av en studie (Higgins & Green, 2011).
Studielängd och uppföljningstid
Hur länge en studie tillåts pågå beror ofta i första hand på vilken sorts ämnesinnehåll som studeras. Medan viss undervisning med stöd av en digital lärresurs kan ha som syfte att barn eller elever ska få träna på ett mycket specifikt innehåll, kan andra lärresurser ha ett mycket omfattande innehåll i syfte att komplettera matematikundervisningen under exempelvis en hel årskurs.
Ett övergripande mål är att undervisningen i skolan ska medföra så bestående effekter på kunskapsutvecklingen som möjligt. Ett sätt att i ett vetenskapligt sammanhang försöka undersöka beständigheten i resultaten är att tillämpa en uppföljande undersökning av prestationer en tid efter att själva undervisningsinsatsen har avslutats, dvs. att använda ett fördröjt eftertest. Ett annat sätt kan vara att utvärdera hur elever presterar på ett standardiserat test som inte kopplar direkt till själva studien (jämför nationellt prov).
4.4.3 Hur vi har bedömt studierna
Vi har ställt som krav att en studie, för att få ingå i översikten, ska ha jämfört minst två grupper där minst en av grupperna har fått undervisning med stöd av en digital lärresurs. Som jämförelser har vi accepterat både studier som har använt någon form av ordinarie undervisning och studier som använt en annan digital lärresurs. De senare kan ha använt en jämförelse som skiljer sig mer eller mindre från den som studeras. Jämförelseinsatsen kan också ha utformats i syfte att fungera som en aktiv kontroll.
När det gäller gruppindelning har vi valt att inkludera såväl randomiserade och grupprandomiserade som kvasiexperimentella studier. Vi har stor respekt för att det kan vara svårt att genomföra studier där barn eller elever fördelas slumpmässigt till olika grupper.
Vi har ställt krav på att man i studierna har sett till att villkoren för experiment- och jämförelsegrupperna har varit rimligt likartade. I synnerhet har vi krävt att det i publikationerna finns en tydlig redovisning av genomsnittlig kunskapsnivå inom grupper som jämförs före experimentets start.
När det gäller studielängd har vi haft två veckor som ett riktmärke för att en studie ska få ingå i översikten. Men bedömningen har varit att det inte skulle vara rättvist att tillämpa ett strikt krav på studielängd då det i sig inte kan vara avgörande för kvaliteten. Därför har vi gjort en samlad bedömning med hänsyn till undervisningens syfte, ämnesinnehållets omfattning och insatsens intensitet. I de fall det saknas uppgift om studielängd har vi fått värdera om övrig information om upplägget tyder på att en insats kan anses ha haft en rimlig omfattning.
Vi har valt att inte ställa som krav att studierna ska ha tillämpat fördröjda eftertester eller andra långtidsuppföljningar av resultaten. Men vi har haft för avsikt att tydligt lyfta fram sådana resultat i de fall de förekommer.
4.5 Data- och resultatextraktion
Data- och resultatextraktion innebär att relevanta fakta plockas ut från varje studie som ska ingå i översikten[34]. Det kan handla om både administrativ information och exempelvis uppgifter om studieupplägg, deltagare, arbetssätt, resultaten och hur dessa genererats i de olika studierna. Syftet är att beskriva studierna som ingår i urvalet, med avseende på använda metoder och resultat. Även andra aspekter som projektgruppen har bedömt som relevanta kan registreras för att skapa förutsättningar för olika sätt att kartlägga det vetenskapliga underlaget.
Alla studier som passerade kvalitetsgranskningen sammanfattades i arbetstabeller över inkluderade studier. I tabellerna registrerades bland annat uppgifter om
- referensinformation (löpnummer, författare, titel, publiceringsår, ursprungsland, källa och typ av publikation)
- studieupplägg
- studielängd och uppföljningstid
- deltagare
- arbetssätt/metod (inklusive typ av digital lärresurs)
- sammanhang
- vilket matematikområde och vilka matematikförmågor som berörs
- instrument för utvärdering av resultaten
- resultat avseende kunskapsutveckling i matematik
- övriga samrapporterade resultat som kopplar till resultat avseende kunskapsutvecklingen i matematik
4.6 Sammanställning av resultat och slutsatser
En systematisk översikt stävar efter att bringa samman resultaten från flera studier till en helhet. Tillvägagångssätten kan variera bland annat beroende på översiktens fråga och vilken typ av forskning som ingår i översikten. Oavsett vilken typ av forskningsresultat som sammanställs är det sällan självklart vilka tillvägagångssätt som kan vara mest lämpliga.
4.6.1 Hur vi har grupperat studierna
Den första grupperingen var att dela på studierna som avser förskolan respektive grund- och gymnasieskolan. Skolans och förskolans styrdokument skiljer sig bland annat när det gäller målen med undervisningen.
Studierna som avser grund- och gymnasieskolan har vi vidare valt att gruppera i årskurs 1–3, årskurs 4–6 samt årskurs 7–9 och gymnasieskolan. Vid grupperingen har vi i första hand tagit hänsyn till uppgifter om studiedeltagarnas ålder. I andra hand har vi utgått ifrån uppgifter om vilka årskurser studierna har berört. Med hjälp av information om ursprungsland har vi sedan i dessa fall försökt göra en rimlig översättning till ett svenskt sammanhang. Gränserna är dock inte alltid skarpa och det finns exempel på studier som delvis överlappar mellan årskursintervallen. Det kan exempelvis bero på att man inom ramen för en och samma studie har gjort undersökningar i flera olika årskurser.
Anledningen till uppdelningen är att det matematikinnehåll som har varit aktuellt i studierna skiljer sig beroende på elevernas ålder. I syfte att kunna analysera studierna med avseende på de undersökta digitala lärresursernas uppbyggnad och funktion och hur de har använts i undervisningen innehåller resultatredovisningarna relativt detaljerade beskrivningar av matematikinnehållet. Uppdelningen medger att den som främst undervisar i lägre årskurser inte behöver sätta sig in i ett matematikinnehåll som avser högre årskurser och vice versa, dvs. uppdelningen innebär att läsningen kan koncentreras till de årskurser som upplevs mest relevanta.
Värt att notera vad gäller gränsdragningen är att det kan skilja sig mellan länder avseende det precisa ämnesinnehåll som behandlas i de olika årskurserna. Det finns bland annat exempel på studier som i lägre årskurser berör ett matematikinnehåll som normalt undervisas om i högre årskurser i ett svenskt sammanhang (t.ex. studier som i motsvarande högstadiet behandlar en algebra som tillhör gymnasieskolan i Sverige). Vi har inte försökt göra någon djupare analys av ämnesinnehållet vid grupperingen, men det berörs i resultatbeskrivningarna där det bedöms som relevant.
4.6.2 En kunskapsutveckling i matematik kan mätas
En kunskapsutveckling i matematik innefattar många olika aspekter och kan mätas på olika sätt, men ofta används någon form av test. Testerna kan skilja sig åt sinsemellan, men har ofta gemensamt att resultaten uttrycks som numeriska värden i form av provpoäng på en kvotskala. Det innebär att det finns ett min- och ett maxvärde och man antar att sambandet är linjärt mellan antal poäng på testet och prestationsnivå. Ju högre poäng en deltagare får, desto högre bedöms deltagarens prestationsnivå vara.
Vad som avses med effekter
En effekt är ett mått på skillnaden mellan två grupper som jämförs i något avseende. I en enskild studie redovisas vanligen uppnådda medelvärden i experiment- respektive jämförelsegruppen med tillhörande spridningsmått, oftast i form av standardavvikelse (SD). Men för att olika studier ska kunna jämföras behöver dessa mått först räknas om.
När effekten av en insats har utvärderats med olika skalor (olika test), men där utfallet avser representera samma sak (kunskapsutvecklingen i matematik), kan man använda uttrycket standardiserad skillnad i medelvärde (SMD, standardized mean difference) för att olika studiers resultat ska bli jämförbara[35] (Higgins & Green, 2011; Polanin & Snilstveit, 2016).
Som vägledning till hur värdet på en effektstorlek kan tolkas refereras ofta till Cohen, se tabellen nedan (Cohen, 1969).
Tabell 2. Tolkning av effektstorleken (Cohen)
d (eller SMD) |
Storlek |
Tolkning |
0,2 |
Liten |
En effekt i denna storleksordning är antagligen inte märkbar |
0,5 |
Medelstor |
En effekt i denna storleksordning är sannolikt märkbar |
0,8 |
Stor |
En effekt i denna storleksordning är sannolikt påtaglig |
4.6.3 Sammanställning av resultat från flera studier
Metaanalys och skogsdiagram
Metaanalys innebär i de flesta fall att man med hjälp av en uppsättning statistiska metoder räknar fram ett slags genomsnitt avseende flera studiers resultat för att skatta en enda sammanvägd effektstorlek (Borenstein m.fl., 2009).
Ett sätt att grafiskt illustrera en metaanalys är att använda skogsdiagram. Skogsdiagrammet visar skattade effektstorlekar med konfidensintervall för varje studie som ingår i analysen. Konfidensintervallet ska tolkas som att det är ett talintervall som, med viss angiven sannolikhet, innefattar det sanna värdet för t.ex. ett medelvärde. För att uttrycka det statistiskt kan man säga att konfidensintervallet innehåller alla tänkbara värden som inte kan förkastas. I regel anges övre och nedre gränsen för ett konfidensintervall som har 95 procents sannolikhet. I skogsdiagrammet illustreras konfidensntervallen av horisontella linjer och en punkt i mitten av varje linje visar en studies skattade effektstorlek. En metaanalys presenterad med ett skogsdiagram innehåller också ofta en sammanvägd effektstorlek med konfidensintervall som brukar illustreras med en romb (Andersson, 2003; Borenstein m.fl., 2009; Higgins & Green, 2011).
Jämföra äpplen och päron
Metaanalyser kritiseras ofta för att de jämför äpplen och päron. I många fall kan kritiken vara berättigad. Men i vilken utsträckning det kan vara problematiskt att lägga samman resultat från flera studier skiljer sig stort mellan olika metaanalyser. Det finns inte två studier som är exakt lika i alla avseenden, utan två eller flera studier kan vara mer eller mindre jämförbara. Om det är lämpligt eller inte att göra en metaanalys är därför alltid en bedömningsfråga (Borenstein m.fl., 2009).
Metaanalys och skogsdiagram utan sammanvägning
En metaanalys har inte som enda syfte att ta fram en sammanvägd effektstorlek för de studier som ingår. Den är även ett verktyg för att analysera och presentera studiernas resultat. Pekar alla studier åt samma håll? Är det stor variation mellan studierna? Finns studier som tydligt sticker ut? Finns skäl att försöka finna förklaringar till skillnader i resultat mellan olika studier? Metaanalysen, i synnerhet när den kombineras med ett illustrativt diagram, kan därmed också ses som ett analytiskt och pedagogiskt instrument (Higgins & Green, 2011; Statens beredning för medicinsk utvärdering (SBU), 2014).
Vi har valt att göra metaanalyser och presentera de ingående studiernas resultat när det gäller kunskapsutvecklingen i matematik i skogsdiagram, men då utan att redovisa sammanvägda effektstorlekar. Vår bedömning är att olikheterna är för stora för att det ska vara meningsfullt att väga samman resultaten. Eftersom underlaget är komplext skulle en sammanvägning kunna ge intrycket att de ingående studierna är mer likartade än vad som är fallet och att resultaten är säkrare än vad förutsättningarna tillåter.
För att kunna presentera resultaten i skogsdiagram har vi behövt göra vissa beräkningar. I underlaget ingår dock också studier där resultaten presenterats på ett sätt som gör att vi inte har kunnat använda dem i ett skogsdiagram. Dessa studier är inte med i diagrammen utan redovisas på annat sätt i översikten. För en detaljerad beskrivning av hur vi har resonerat och de beräkningar vi har gjort, se bilaga 3 på www.skolfi.se.
Tolka skogsdiagram
I skogsdiagrammen markerar mittlinjen (0 på x-axeln) ett resultat där de två grupperna som jämförs är exakt lika. Om hela konfidensintervallet ligger på höger sida om mittlinjen så är den studerade insatsen statistiskt säkerställt bättre än jämförelsen. Ligger konfidensintervallet helt på vänster sida om mittlinjen så är insatsen statistiskt säkerställt sämre[35]
36. Om konfidensintervallet korsar mittlinjen saknas en säkerställd skillnad mellan alternativen som jämförs. I dessa fall är tolkningen att det inte går att avgöra om det är någon skillnad mellan jämförda grupper. Strecket i mitten av konfidensintervallen märker ut de enskilda studiernas skattade genomsnittliga effekter (Borenstein m.fl., 2009; Higgins & Green, 2011).
36 Ibland kan experimentgruppens resultat i stället placeras till vänster och jämförelsegruppens resultat till höger om mittlinjen. Det har ingen betydelse vilken av varianterna som väljs.
Diagrammen visar hur de ingående studiernas resultat förhåller sig till varandra. Om konfidensintervallen tydligt överlappar kan man säga att studierna är samstämmiga. Men om konfidensintervallen inte överlappar alls eller endast i liten omfattning så tyder det på att det finns viktiga skillnader mellan studierna. Det kan bero på många olika saker. Det kan i vårt fall handla om olikheter i deltagargrupper (t.ex. att elever i olika studier har olika förutsättningar), arbetssätt (t.ex. skillnader i fråga om de digitala lärresursernas konstruktion eller hur de har använts i undervisningen) eller resultatmått (t.ex. att man har mätt olika aspekter av matematikkunskaper).
Skogsdiagram som verktyg för orsaksanalyser
En effekt är alltid sammansatt av många olika orsaker, dvs. det är många faktorer som bidrar till den effekt som följer av en undervisningsinsats med stöd av digitala lär resurser. Den effekt som uppmäts i en enskild studie är i det här fallet avhängig vad för lärresurs man har använt och hur man har använt den, men också på många detaljer i själva forskningsupplägget. Vi har därför gjort orsaksanalyser.
En styrka med att göra orsaksanalyser av effektstudier är att orsakerna med nödvändighet hänger samman med de effekter som har uppmätts. Det betyder att vi kan anta att en studies effektresultat är en konsekvens av det som har hänt i just den studien.
Egenskaper hos digitala lärresurser liksom olika sätt att arbeta med dem i undervisningen kan på olika sätt studeras utan att mäta några effekter. Men alternativet att försöka kombinera information från sådana studier med studier som har mätt effekter kan medföra stor osäkerhet i fråga om det verkligen är samma undervisning som har studerats. Det gäller i synnerhet om den undervisning som undersöks är komplex.
Vår bedömning är att relevanta orsaksfaktorer inom det här området mycket övergripande kan delas in i tre olika kategorier:
- Forskningsupplägg: Går det att bedöma om själva forskningsupplägget kan ha haft en viktig betydelse för resultatet, ex. vad som jämförs med vad?
- Egenskaper hos de digitala lärresurserna: Går det att utifrån lärresursernas konstruktion finna egenskaper som kan ha haft en viktig betydelse för resultatet, t.ex. om lärresurserna möjliggör att eleverna kan uppleva och urskilja matematiska begrepp och processer visuellt och dynamiskt?
- Pedagogiskt upplägg: Går det att utifrån hur de digitala lärresurserna har integrerats i övrig undervisning finna arbetssätt som kan ha haft en viktig betydelse för resultatet, t.ex. om arbetet med lärresurserna har kombinerats med andra aktiviteter?
Varje kategori rymmer många tänkbara orsaksfaktorer. Det är också rimligt att anta att faktorerna samspelar, såväl sådana som faller inom en och samma kategori som faktorer som ryms inom de olika kategorierna. Orsaksfaktorerna kan bidra på olika sätt och olika mycket till en viss effektstorlek och det är en svår uppgift att försöka skilja dem från varandra.
Orsaksanalyserna har gjorts på följande sätt: I ett första steg har vi analyserat de enskilda studierna i syfte att försöka finna viktiga bidragande förklaringar till effekterna. Analyserna har genomförts på ett iterativt sätt, dvs. genom att upprepade gånger och på ett cykliskt sätt analysera studiernas rapporterade effekter i relation till forskningsuppläggen, information om de digitala lärresursernas inneboende egenskaper och hur de har använts i undervisningen.
I ett andra steg har vi försökt finna mönster genom att analysera hela eller större delar av underlaget på ett samlat sätt. I det arbetet har vi använt skogsdiagrammen som analytiska verktyg. Genom att studiernas effektresultat visualiseras i diagrammet underlättas möjligheten att upptäcka skillnader och likheter, dvs. hur studiernas resultat avseende effekter förhåller sig till varandra.
Slutsatserna svarar på den systematiska översiktens frågor. I den här översikten underbyggs svaren med hjälp av skogsdiagrammen respektive orsaksanalyserna. Skogsdiagrammen visar både riktning och storlek avseende uppmätta effekter på barns eller elevers kunskaper i matematik av den matematikundervisning med digitala lärresurser som har studerats. Orsaksanalyserna syftar till att finna framträdande mönster när det gäller hur de uppmätta effekterna kan förklaras. I slutsatserna redovisas också identifierade forskningsbehov.
[24] Skolforskningsinstitutet behovsinventeringar bedrivs som egna projekt. Här ges enbart en mycket kortfattad beskrivning.
[25] En extra kontrollsökning genomfördes i augusti 2017, se avsnitt 4.3 Litteratursökning.
[26] Dubblett innebär två exemplar av samma referens. Dubbletter uppkommer vanligen som en följd av att samma referens fångas upp från två eller flera databaser. Det förekommer också att en och samma studie rapporteras (ibland delvis omskriven) i fler än en källa. Dessa dubbletter upptäcks vanligen av projektgruppen senare i urvalsprocessen.
[27] Projektgruppen har inte möjlighet att kontakta forskare för kompletterande uppgifter som eventuellt inte har redovisats i en publikation.
[28] Se kapitel 2 Om denna översikt.
[29] Att en studie har exkluderats i detta steg innebär att den saknar vissa kvaliteter eller karaktärsdrag som skulle ha behövts för att den skulle kunna bidra till att besvara översiktens frågor. Det betyder dock inte nödvändigtvis att den har bedömts hålla en låg kvalitet rent allmänt, i förhållande till sitt eget syfte.
[30] Exkluderade studier redovisas i bilaga 5.
[31] Begreppet myntades efter en analys av undersökningar av hur ljusstyrka påverkade arbetares produktivitet i fabriksanläggningen Hawthorne Works i USA under 1900-talets första hälft.
[32] Att jämföra med placebo/sockerpiller som ofta används vid forskning på läkemedel.
[33] Från engelska Randomized Controlled Trial.
[34] Dataextraktion benämns ibland kodning efter engelskans coding.
[35] Standardiserad skillnad i medelvärde är ett uttryck för effektstorlek. Om värdet på SMD är +1,0 betyder det att en genomsnittlig deltagare i experimentgruppen presterar motsvarande en standardavvikelse bättre än en genomsnittlig deltagare i jämförelsegruppen. Det finns flera något olika tekniker för att beräkna den standardavvikelse som ska användas i formeln ovan. Ett ofta använt uttryck för effektstorlek inom utbildningvetenskaplig forskning är Cohens d (eller bara d) uppkallat efter dess upphovsperson Jacob Cohen. Cohens d är en variant av SMD där standardavvikelsen beräknas på ett visst sätt. Men det finns också andra varianter av SMD. I praktiken har det i det här sammanhanget inte någon stor betydelse vilken av de etablerade tekniker som finns för att beräkna standardavvikelsen. För den som är intresserad av att fördjupa sig på området hänvisar vi till litteratur i statistik och metaanalys (t.ex. Borenstein 2009).
[35] Ibland kan experimentgruppens resultat i stället placeras till vänster och jämförelsegruppens resultat till höger om mittlinjen. Det har ingen betydelse vilken av varianterna som väljs.