Wat Thalheimer niet vertelt over smile sheets

Peter Baggen

Een training evalueren door deelnemers te vragen naar hun waardering? Will Thalheimer vindt het verspilde moeite. Want, zo zegt hij, wat deelnemers vinden van een training heeft geen verband met wat ze geleerd hebben. Reacties van deelnemers zijn dus betekenisloos. Thalheimer schreef er zelfs een boek over. Daarin zet hij evaluaties van trainingen door deelnemers weg als ‘smile sheets’.

Dat evaluaties en leeropbrengsten niet samenhangen, is volgens Thalheimer geen sprookje, maar een wetenschappelijk bewezen feit. Dat zou blijken uit maar liefs vier grote overzichtsstudies. Alliger en collega’s zouden het aangetoond hebben in 1997, Sitzmann en collega’s in 2008, Hughes en collega’s in 2016 en Uttl en collega’s in 2017. Zijn conclusie: deelnemers naar hun reactie vragen is net zo goed als ‘een muntje opgooien om te bepalen of een training goed of slecht is. Serieus!’

Heeft Thalheimer gelijk?

Dit klinkt best overtuigend, maar klopt het ook? Nou nee, want als het gaat om deze meta-analyses slaat Thalheimer de plank flink mis. In werkelijkheid laten die zien dat reacties van deelnemers belangrijke informatie kunnen bevatten over trainingen. Maar Thalheimer negeert dit punt helemaal en zo gooit hij het kind met het badwater weg.

Het is dus tijd voor weerwerk. Daarom pluis ik in dit artikel verder uit wat de meta-analyses die Thalheimer aanhaalt echt zeggen. En ik ga na wat dat betekent voor evaluaties van trainingen door deelnemers. Tussendoor vertel ik een en ander over de veranderende kijk van trainingsonderzoekers op de kunst van het evalueren. Dat is nodig om alle gegevens en conclusies in perspectief te kunnen zien.

Het begin van evalueren: Kirkpatrick

Laten we beginnen bij het begin: Donald Kirkpatrick. Eind jaren vijftig, als het vak van trainen nog jong is, presenteert hij een model om trainingen te evalueren. De kern is dat je op vier niveaus informatie verzamelt over trainingen. Op het eerste niveau vraag je deelnemers om een mening te geven over de training die ze net gevolgd hebben. Dat doe je met evaluatieformulieren. Op het tweede niveau ga je na hoeveel kennis en vaardigheden deelnemers hebben opgedaan. Die informatie verzamel je met toetsen. Op het derde niveau bekijk je of deelnemers zich na de training anders gedragen in hun praktijk. Dat onderzoek je door deelnemers te observeren in hun praktijk. En op het vierde niveau ga je na wat het nieuwe gedrag van de deelnemers oplevert. Hoe je die informatie verzamelt, hangt af van het doel dat de training dient.

Volgens Kirkpatrick leveren deze vier niveaus niet alleen verschillende informatie op, ze bouwen ook op elkaar voort. Goede scores op een lager niveau zouden een voorwaarde zijn voor goede scores op een hoger niveau. Als deelnemers niet tevreden zijn over de training zullen ze weinig geleerd hebben. Als deelnemers weinig geleerd hebben, zullen ze weinig nieuw gedrag vertonen in hun praktijk, enzovoort. Zo ontstaat er volgens Kirkpatrick een positieve samenhang tussen de niveaus. Succes op niveau 1 hangt samen met succes op niveau 2 en zo gaat het door.

Thalheimer

Terug naar Thalheimer: de meta-analyse van Alliger et al

Omdat er destijds weinig andere evaluatiemethodes bestaan worden de vier niveaus van Kirkpatrick snel populair. In de jaren zestig en zeventig gaan veel organisaties en onderzoekers ermee aan de slag. Het lijkt erop dat organisaties dan vooral op niveau 1 informatie verzamelen, maar onderzoekers gaan verder. Zij kijken ook naar de andere niveaus en naar de samenhang daartussen. In 1989 zetten Alliger en Janak 12 van zulke onderzoeken op een rij. Hun conclusie is dat de samenhang tussen alle niveaus niet heel sterk is. Maar vooral die tussen niveaus 1 en 2 is zwak. Daarom stellen ze voor het model van Kirkpatrick aan te passen en niveau 1 los te koppelen van de rest.

Omdat de meta-analyse van Alliger en Janak over weinig onderzoeken gaat, doen Alliger en collega’s hun werk in 1997 over. Deze keer analyseren ze 34 onderzoeken. Daaruit blijkt opnieuw dat er weinig samenhang is tussen reacties van deelnemers (niveau 1) en hun leeropbrengsten (niveau 2). Thalheimer heeft dus gelijk als hij hun die conclusie in de mond legt. Maar de onderzoekers maken wel een voorbehoud, want ze zien dat het uitmaakt wat je deelnemers vraagt op niveau 1. Als je ze vraagt of de training nuttig was, hangen hun antwoorden wél samen met hun leeropbrengsten (niveau 2). Bovendien is de samenhang tussen niveaus 1 en 3 de grootste die ze aantreffen. Mede hierom willen Alliger en collega’s géén afscheid nemen van evaluaties van trainingen door deelnemers. Ze schrijven letterlijk: ‘Ongeacht hun verband met andere maten, vanuit pragmatisch oogpunt zijn reacties van deelnemers belangrijk.’ Maar dat zegt Thalheimer er niet bij.

Een nieuwe kijk op niveau 2

Achteraf bekeken is de meta-analyse van Alliger en collega’s uit 1997 het eind van een tijdperk. Een paar jaar eerder hebben Kraiger en collega’s namelijk voorgesteld om het model van Kirkpatrick bij te stellen. Daarbij richten ze hun pijlen op niveau 2. Volgens Kirkpatrick moeten onderzoekers de leeropbrengsten in kaart brengen door kennis en vaardigheden te meten. Kraiger en collega’s vinden dat te eenzijdig, omdat het je zo geen rekening houdt met de motivatie van deelnemers. Bovendien krijg je door alleen kennis en vaardigheden te meten geen inzicht in de samenhang tussen niveaus 2 en 3. Eerder onderzoek, zoals de meta-analyse van Alliger en Janak, laat zien dat die samenhang niet heel sterk is. Weten plus kunnen (niveau 2) tellen dus niet automatisch op tot doen (niveau 3). Blijkbaar zijn er nog andere factoren in het spel.

Daarom willen Kraiger en collega’s dat onderzoekers voortaan drie zaken in kaart brengen op niveau 2. Naast kennis en vaardigheden, moeten ze ook de motivatie van deelnemers gaan meten. Een belangrijke manier om dat te doen is door deelnemers te vragen naar hun self-efficacy. Dat is een maat voor het vertrouwen dat deelnemers hebben in hun vermogen om beoogde doelen te realiseren. Het idee hierachter is dat deelnemers met veel vertrouwen in eigen kunnen (niveau 2) eerder zullen proberen om nieuw geleerde vaardigheden te gebruiken in hun praktijk (niveau 3). Weten plus kunnen plus willen zouden dus beter moeten optellen tot doen.

Thalheimer

Is de nieuwe kijk zinvol?

In de jaren die volgen maken onderzoekers veel gebruik van het nieuwe model van Kraiger en collega’s. Dat gebeurt vooral in het onderzoek naar transfer. Daarover zijn de laatste 40 jaar vele duizenden artikelen verschenen. De kwaliteit daarvan loopt uiteen, maar er verschijnt genoeg goed onderzoek om er meta-analyses op los te kunnen laten. En die bevestigen in grote lijnen het gelijk van Kraiger en collega’s. Meta-analyse van Colquitt en collega’s (2000), Blume en collega’s (2010), Gegenfurtner (2011), Huang en collega’s (2015) en Chung en collega’s (2022) laten zien dat gedrag van deelnemers in de praktijk (niveau 3) ongeveer net zo veel samenhangt met hun willen als met hun kunnen (niveau 2). Dezelfde meta-analyses laten zien dat het gedrag van deelnemers in de praktijk (niveau 3) minder samenhangt met hun weten (niveau 2).

Alles bij elkaar levert de nieuwe kijk op niveau 2 dus een belangrijk nieuw inzicht op. Wanneer onderzoekers ook de motivatie van deelnemers meten, kunnen ze het gedrag van deelnemers in de praktijk beter voorspellen. Kunnen plus willen tellen beter op tot doen dan weten plus kunnen! En toch is de optelsom daarmee nog niet compleet. Want meta-analyses van Blume en collega’s (2010) en Hughes en collega’s (2020) laten ook zien dat het gedrag van deelnemers in de praktijk samenhangt met de tegenstand of steun die ze krijgen van mensen in hun omgeving.

Terug naar Thalheimer: de meta-analyse van Sitzmann et al

Wat heeft dit nu te maken met Thalheimers kijk op evaluaties van trainingen op niveau 1? Het verband zit ‘m in de meta-analyse van Sitzmann en collega’s. Die bewijst volgens Thalheimer dat de reacties van deelnemers (niveau 1) niet samenhangen met hun leeropbrengsten (niveau 2). En ja, dat zeggen de onderzoekers inderdaad, maar dat is de helft van het verhaal. Want ze zien ook dat de reacties van deelnemers (niveau 1) sterk samenhangen met hun motivatie om het geleerde te gebruiken (niveau 2). Bovendien zien de onderzoekers een gematigd verband tussen reacties en vertrouwen in eigen kunnen. Deze meta-analyse toont dus aan dat de verbanden afhangen van wat gemeten wordt op niveau 2. De samenhang is zwak voor kennis en vaardigheden, maar gematigd tot sterk voor motivatie en vertrouwen in eigen kunnen. Meta-analyses van Bauer en collega’s (2016) en van Chung en collega’s (2022) bevestigen dit patroon.

Thalheimer

En het verhaal gaat nog verder, want Sitzmann en collega’s analyseren ook de inhoud van de reacties van deelnemers. Daarbij ontdekken ze dat deelnemers positiever reageren op trainingen als trainers zich warmer gedragen en meer contact hebben met deelnemers. Deze samenhang is zelfs uitgesproken sterk en volgens de onderzoeker is dat belangrijk, want zo ontstaat een keten van verbanden. Die loopt van het gedrag van de trainer, via de reacties van deelnemers, naar de motivatie van deelnemers en eindigt bij het gedrag van deelnemers in de praktijk.

Sitzmann en collega’s concluderen daarom dat reacties van deelnemers een belangrijke rol kunnen spelen bij evaluaties. ‘Reacties zijn zeer gevoelig voor de kijk van deelnemers op het gedrag van trainers en dat steun de aanname achter het meten van reacties. Namelijk, dat reacties aspecten vastleggen van de deelnemerservaring.’ En dat is toch een heel andere conclusie dan Thalheimer hun toeschrijft.

De meta-analyse van Hughes et al

Hierboven heb je gezien dat Thalheimer selectief omgaat met de meta-analyses die hij aanhaalt. Bij de studie van Alliger en collega’s zegt hij niet dat zij soms wel een verband zien tussen niveaus 1 en 2. En bij de studie van Sitzmann en collega’s laat hij de helft van het verhaal weg. Bij de derde meta-analyse van Hughes en collega’s uit 2016 is het niet anders. Die gaat over de effectiviteit van teamtrainingen in de gezondheidszorg. Maar in de marge van hun studie doen de onderzoekers nog iets anders. Voor hun meta-analyse hebben ze namelijk de indeling van Kirkpatrick gebruikt. En dat geeft ze de mogelijkheid om de samenhang tussen de verschillende niveaus opnieuw te analyseren.

De uitkomst van hun analyse komt grofweg overeen met die van de twee meta-analyses waarmee we dit verhaal begonnen. Net als bij Alliger en collega’s lijkt niveau 1 los te staan van de volgende niveaus die onderling wel samenhangen. Puntje voor Thalheimer zou je dus denken. Maar Hughes en collega’s zeggen erbij dat ze weinig gegevens hebben over niveau 1 en hun analyse niet helemaal vertrouwen. Ter controle gebruiken ze daarom ook de gegevens van een tweede, goed aangeschreven meta-analyse van trainingsonderzoeken. En tot hun eigen verbazing laat die tweede analyse wél een samenhang zien tussen alle niveaus, inclusief niveau 1.

De onderzoekers concluderen dan ook dat het laatste woord niet gezegd is over evaluaties van trainingen door deelnemers. Met een directe verwijzing naar het werk van Sitzmann en collega’s schrijven ze het volgende. ‘Toekomstig onderzoek moet voortbouwen op recente inspanningen om de belangstelling voor reacties van deelnemers nieuw leven in te blazen.’ Hun boodschap is dus ‘kijk meer en beter naar de reacties van deelnemers’ en niet ‘weg met smile sheets’. En dat is weer wat anders dan Thalheimer suggereert.

De meta-analyse van Uttl et al

Tot slot verwijst Thalheimer ook naar een meta-analyse van Uttl en collega’s om zijn verhaal te onderbouwen. Dat is een vreemde eend in de bijt. Want hun studie gaat over de evaluatie van universitair onderwijs door studenten, niet over de evaluatie van trainingen door deelnemers. Maar goed, trainingsonderzoekers gebruiken wel vaker studies over universiteiten. Het zou dus flauw zijn om de studie van Uttl en collega’s om die reden te negeren.

De meta-analyse van Uttl en collega’s laat inderdaad zien dat leerprestaties van studenten niet samenhangen met hun reacties op evaluatieformulieren. Dus ja, hun studie lijkt het betoog van Thalheimer te ondersteunen. Het probleem is alleen dat de onderzoekers hun conclusie bereiken, doordat ze leerprestaties van studenten gelijkstellen aan examencijfers. Maar zulke cijfers weerspiegelen vooral weten en kunnen, en géén willen. Daardoor voegt de meta-analyse van Uttl en collega’s niets toe aan de discussie in het trainingsonderzoek. Uit het trainingsonderzoek weten we immers dat de samenhang tussen niveaus 1 en 2 in trainingen afhangt van wat je meet. De samenhang ontbreekt als je willen niet meet en is aanwezig als je willen wel meet. Doordat Uttl en collega’s geen willen meten, gaan ze dus volledig voorbij aan de kern van de discussie in het trainingsonderzoek.

Thalheimer, het kind en het badwater

Al met al lijkt het erop dat Thalheimer met zijn interpretatie van de meta-analyses achter de feiten aanloopt. Het klopt dat oudere meta-analyse aantonen dat er weinig verband bestaat tussen evaluaties van trainingen door deelnemers en hun leerprestaties. Maar meta-analyses van na de eeuwwisseling tonen een genuanceerder beeld. Die laten zien dat niveaus 1 en 2 wel samenhangen als je op niveau 2 het willen van deelnemers meet. Het verband tussen niveaus 1 en 2 ontbreekt dus alleen wanneer je op niveau 2 uitsluitend kennis en vaardigheden meet.

Thalheimer negeert deze nuance en daardoor kan hij evaluaties van trainingen door deelnemers stellig van de hand kan wijzen. Maar daarmee gooit hij het kind met het badwater weg. Want evaluaties van trainingen door deelnemers kunnen juist een inkijkje geven in het gedrag van trainers. Wanneer die zich afstandelijk opstellen en weinig contact hebben met deelnemers leidt dat tot slechte reacties. Die laatste hangen weer samen met weinig vertrouwen in eigen kunnen en dat leidt op zijn beurt tot slechte transfer.

Dit alles maakt dat evaluaties van trainingen door deelnemers unieke informatie kunnen bevatten. Wie ze goed gebruikt kan immers ontdekken wanneer trainers door onhandig gedrag hun eigen glazen en die van deelnemers ingooien. Het zou jammer zijn als trainers en L&D’ers die kans laten lopen, omdat ze het boek van Thalheimer gelezen hebben.

Disclaimer

In dit artikel lever ik kritiek op Thalheimers stelling dat reacties van deelnemers op trainingen niets zeggen. Dat wil niet zeggen dat ik trainingen voortaan alleen op die manier wil evalueren. Reacties van deelnemers zijn vooral zinvol als je feedback wilt krijgen op het gedrag en de blinde vlekken van trainers. Als je meer wilt weten over de kennis en vaardigheden van deelnemers na de training leg je ze toetsen voor. Wil je weten hoe het gesteld is met hun vertrouwen in eigen kunnen? Gebruik dan een self-efficacy schaal. Wil je nagaan of je als trainer de goede werkvormen gebruikt en die correct begeleidt? Vraag dan een expert om mee te kijken met je training en daarop feedback te geven. Afhankelijk van de vraag die je stelt, kun je dus verschillende instrumenten inzetten.