Ben Wilbrink Profile picture
psychology & educational research, involving assessment in particular; debunking pseudo-science, obscurantism, bureaucracy

Jan 21, 2022, 27 tweets

Mag de correlatie van adviezen ogv eindtoetsscores met gekozen schooltype na de brugklas 'predictieve validiteit' heten? objects.library.uu.nl/reader/index.p…
Nee. Voor het bepalen van validiteit is een deugdelijk experiment nodig. En ik zou niet weten hoe zo'n experiment is uit te voeren.

Zonder experiment bevestigen we verschillen die al bestaan.
Wat voor eindtoetsen geldt, doet dat ook voor schooladviezen. We rotzooien dus maar wat aan, met ons onderwijsstelsel, en vooral de overgang van bo naar vo. benwilbrink.wordpress.com/2020/09/24/kun… Wie brengt mij op andere gedachten?

'Zonder experiment bevestigen we verschillen die al bestaan.' Is dat erg, dan? Ja, want de toekomst is niet goed voorspelbaar, althans veel en veel minder goed dan men denkt. Zie pnas.org/content/117/15… [via Harden 'The genetc lottery' note 13 ch 6]

'Validiteit' is een technische term voor de kwaliteit van tests en toetsen, volgens de leidende 'Standards' aera.net/Newsroom/AERA-… (free download). De term mag zeker niet ijdel worden gebruikt, zoals helaas bij (v/h 'de cito') eindtoetsen bo vaak het geval is, zo ook bij Nijsse.

Ik kom op dit draadje door een (toevallig) artikel van Nijsse (staat voor veel vergelijkbare research); het gegeven van moeilijke voorspelbaarheid van alles dat een paar jaar verder ligt (Salganik e.a.); en de onveranderde rol van SES voor onderwijsloopbanen (Wolbers & De Graaf).

De stelling dieonontkoombaar lijkt:
Ons onderwijssteldsel bevestigt in te sterke mate SES-verschillen. Advisering en toetsing van 12-jarigen, verre van emancipatorisch te werken, bevestigen eveneens SES-verschillen: ze versterken het SES reproducerend karakter van het onderwijs

Al met al best verontrustend. Een een rode kaart voor iedereen—niet in de laatste plaats mijn beroepsgroep—die zo druk in de weer is geweest om het discriminerende onderwijsstelsel te bevestigen. Het grondprobleem lijkt mij het geloof in vaststaande verschillen tussen leerlingen.

Serendipiteit helpt mij weer, ik kom dit passende artikel tegen. Want denk eraan: eindtoetsen bo zijn 'aptitude tests', in de eerste lijn familie van intelligentietests.
'Intelligence testing: The legitimation of a meritocratic educational science' sci-hub.se/10.1016/S0883-…

Dit artikel van Meester en De Leeuw stipt ook even aan dat onderzoek naar validiteit van adviezen/toetsen voor 12 jarigen onhaalbaar is. (opfrisser: Dit draadje begon met 'voorspellen' - en validiteit, maar niet heus) objects.library.uu.nl/reader/index.p…

De technische taal kan wel verwarrend zijn hoor. Er wordt ook wel van predictieve validiteit gesproken in situaties waar van selectie of plaatsing geen sprake is, zoals:
Jan Elshout (1977). Predicting the validity of predictors of academic performance. objects.library.uu.nl/reader/index.p…

Het artikel was uitgelokt door een resultaat van Crombag cs dat tentamencijfers niet voorspelbaar zouden zijn: correlaties met bv. tijdbesteding zijn laag. Maar dat is een correlatie, een groepsstatistiek; zegt niets over EXTRA inspanning van een student. benwilbrink.nl/publicaties/77…

Elshout was dan wel op zoek naar samenhangen—welke sterker zijn dan andere, en waarom dan—maar liet zich niet uit over het GEBRUIK MAKEN ervan. Dat is anders bij een onderzoek van Don Mellenbergh en anderen, 1978: "Het onderzoek waarvan hier verslag wordt gedaan had de bedoeling

na te gaan wat de relevantie is voor het leerlingadvies van een groot aantal capaciteits- en persoonlijkheidsgegevens met als centrale vraag in hoeverre men op grond van deze gegevens kan differentiëren tussen de advies-categorieën." objects.library.uu.nl/reader/index.p… Maar

hier gaat het dus fout, want de vraag 'in hoeverre men op grond van deze gegevens kan differentiëren tussen de advies-categorieën' is de vraag in hoeverre men dat VALIDE kan. En daar is EXPERIMENTEEL onderzoek voor nodig. Correlaties volstaan niet. Waarom zag men dat niet?

Excuus, moet zijn: Waarom zien we dat nog steeds niet? Want dat is het mooie van oude meuk ophalen: het drukt ons met de neus op het feit dat er vaak weinig of geen enkele vooruitgang is geboekt in een halve eeuw tijd. Nog steeds verschijnt de ene na de andere analyse van

oneerlijke kansen door schooladviezen en eindtoetsen zonder ook maar een begin van aandacht voor het stelselbevestigende karakter van die adviezen en toetsen. Uitzondering is dan het proefschrift van @Karen_2510 'Van de kat en de bel' karenheij.bijzonderboeken.nl Haal dit boek op!

Over het stelsel gesproken: er is wel onderzoek beschikbaar over effecten van stelselwijzigingen. Interessant, dat geeft in zekere zin indirecte informatie over validiteit van plaatsing van leerlingen. Zoals Piopiunik 2013 econstor.eu/bitstream/1041… (publ.: Econ of Educ Rev 2014)

Piopiunik toont aan dat vervroegen van de selectie voor verschillende 'tracks' in het vo leidt tot verminderde onderwijsresultaten. In dit geval is dat vervroegen van selectie bij 12 jaar naar selectie bij 10 jaar, in Beieren. De onderzoekaanpak is ook interessant, trouwens.

Hoe gaat het Cito om met die predictieve validiteit? Welnu:
G. G. H. Jansen (1973). De predictieve validiteit van de schooltoets voor een school voor havo/vwo. CITO-memo nr. 76. [niet meer bekend bij Cito, niet online beschikbaar]. Dit is dus niet meer beschikbaar. Maar zie:

Margo G. H. Jansen (1979). De voorspellende waarde van de eindtoets basisonderwijs. [The predictive validity of the 'Eindtoets Bsisonderwijs'] TOR, 4, 239-244 objects.library.uu.nl/reader/index.p… Hier is alleen sprake van correlationele analyse op wat er gebeurt nadat 'de cito' is gebruikt.

Voor onderzoek naar predictieve validiteit van een selecterende toets is het teminste nodig de toets af te nemen, met de resultaten NIETS te doen (ze geheim te houden), en een jaar of wat (4, 5, 6 jaar) af te wachten, en dan gegevens over bereikte onderwijsposities te verzamelen.

Een aardig voorbeeld daarvan is te vinden bij de ontwikkeling van de GIVO (de Groninger Intelligentietest voor Voortgezet Onderwijs), samengevat in Van Dijk (1995) hfdst 10 pure.rug.nl/ws/portalfiles… De testscores liggen stof te verzamelen totdat gegevens jaren later bekend worden.

Kijk, dergelijk onderzoek is voor 'de cito' bij mijn weten nooit gedaan. In ieder geval ten tijde van de publicaties van Margo Jansen was daar in de verste verte geen sprake van. De citotoets en voorganger de Amsterdamse Schooltoets zijn meteen gebruikt. Daarmee was de kans om

een onderzoek naar de predictieve validiteit te doen verkeken. Karen Heij ontdekte dat A.D. de Groot zijn Amsterdame Schooltoets ijkte aan de aviezen van de schoolhoofden. Logisch hè! Maar dat heeft dus niets maar dan ook niets te maken met het ontwikkelen van een valide

voorspellings-instrument. Het werpt onmiddellijk de kritiek op dat die schooladviezen ook nooit zijn onderzocht op predictieve validiteit. Ja, kijk, zo komen we nooit uit het moeras. De Groot probeerde het op de manier van die baron, Von M.

Denkt u na dit alles nog dat de Eindtoets Basisonderwijs een eerlijk middel is om 12-jarigen te selecteren, ook gegeven het huidige onderwijsstelsel? Politici denken dat. Sociologen bezondigen zich er ook wel aan, heb er vaak met Jaap Dronkers woorden over gehad. Stoppen ermee.

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling