Ben Wilbrink Profile picture
Jan 21, 2022 27 tweets 8 min read Read on X
Mag de correlatie van adviezen ogv eindtoetsscores met gekozen schooltype na de brugklas 'predictieve validiteit' heten? objects.library.uu.nl/reader/index.p…
Nee. Voor het bepalen van validiteit is een deugdelijk experiment nodig. En ik zou niet weten hoe zo'n experiment is uit te voeren.
Zonder experiment bevestigen we verschillen die al bestaan.
Wat voor eindtoetsen geldt, doet dat ook voor schooladviezen. We rotzooien dus maar wat aan, met ons onderwijsstelsel, en vooral de overgang van bo naar vo. benwilbrink.wordpress.com/2020/09/24/kun… Wie brengt mij op andere gedachten?
'Zonder experiment bevestigen we verschillen die al bestaan.' Is dat erg, dan? Ja, want de toekomst is niet goed voorspelbaar, althans veel en veel minder goed dan men denkt. Zie pnas.org/content/117/15… [via Harden 'The genetc lottery' note 13 ch 6]
'Validiteit' is een technische term voor de kwaliteit van tests en toetsen, volgens de leidende 'Standards' aera.net/Newsroom/AERA-… (free download). De term mag zeker niet ijdel worden gebruikt, zoals helaas bij (v/h 'de cito') eindtoetsen bo vaak het geval is, zo ook bij Nijsse.
Ik kom op dit draadje door een (toevallig) artikel van Nijsse (staat voor veel vergelijkbare research); het gegeven van moeilijke voorspelbaarheid van alles dat een paar jaar verder ligt (Salganik e.a.); en de onveranderde rol van SES voor onderwijsloopbanen (Wolbers & De Graaf).
De stelling dieonontkoombaar lijkt:
Ons onderwijssteldsel bevestigt in te sterke mate SES-verschillen. Advisering en toetsing van 12-jarigen, verre van emancipatorisch te werken, bevestigen eveneens SES-verschillen: ze versterken het SES reproducerend karakter van het onderwijs
Al met al best verontrustend. Een een rode kaart voor iedereen—niet in de laatste plaats mijn beroepsgroep—die zo druk in de weer is geweest om het discriminerende onderwijsstelsel te bevestigen. Het grondprobleem lijkt mij het geloof in vaststaande verschillen tussen leerlingen.
Serendipiteit helpt mij weer, ik kom dit passende artikel tegen. Want denk eraan: eindtoetsen bo zijn 'aptitude tests', in de eerste lijn familie van intelligentietests.
'Intelligence testing: The legitimation of a meritocratic educational science' sci-hub.se/10.1016/S0883-… Image
Dit artikel van Meester en De Leeuw stipt ook even aan dat onderzoek naar validiteit van adviezen/toetsen voor 12 jarigen onhaalbaar is. (opfrisser: Dit draadje begon met 'voorspellen' - en validiteit, maar niet heus) objects.library.uu.nl/reader/index.p… Image
De technische taal kan wel verwarrend zijn hoor. Er wordt ook wel van predictieve validiteit gesproken in situaties waar van selectie of plaatsing geen sprake is, zoals:
Jan Elshout (1977). Predicting the validity of predictors of academic performance. objects.library.uu.nl/reader/index.p…
Het artikel was uitgelokt door een resultaat van Crombag cs dat tentamencijfers niet voorspelbaar zouden zijn: correlaties met bv. tijdbesteding zijn laag. Maar dat is een correlatie, een groepsstatistiek; zegt niets over EXTRA inspanning van een student. benwilbrink.nl/publicaties/77…
Elshout was dan wel op zoek naar samenhangen—welke sterker zijn dan andere, en waarom dan—maar liet zich niet uit over het GEBRUIK MAKEN ervan. Dat is anders bij een onderzoek van Don Mellenbergh en anderen, 1978: "Het onderzoek waarvan hier verslag wordt gedaan had de bedoeling
na te gaan wat de relevantie is voor het leerlingadvies van een groot aantal capaciteits- en persoonlijkheidsgegevens met als centrale vraag in hoeverre men op grond van deze gegevens kan differentiëren tussen de advies-categorieën." objects.library.uu.nl/reader/index.p… Maar
hier gaat het dus fout, want de vraag 'in hoeverre men op grond van deze gegevens kan differentiëren tussen de advies-categorieën' is de vraag in hoeverre men dat VALIDE kan. En daar is EXPERIMENTEEL onderzoek voor nodig. Correlaties volstaan niet. Waarom zag men dat niet?
Excuus, moet zijn: Waarom zien we dat nog steeds niet? Want dat is het mooie van oude meuk ophalen: het drukt ons met de neus op het feit dat er vaak weinig of geen enkele vooruitgang is geboekt in een halve eeuw tijd. Nog steeds verschijnt de ene na de andere analyse van
oneerlijke kansen door schooladviezen en eindtoetsen zonder ook maar een begin van aandacht voor het stelselbevestigende karakter van die adviezen en toetsen. Uitzondering is dan het proefschrift van @Karen_2510 'Van de kat en de bel' karenheij.bijzonderboeken.nl Haal dit boek op!
Over het stelsel gesproken: er is wel onderzoek beschikbaar over effecten van stelselwijzigingen. Interessant, dat geeft in zekere zin indirecte informatie over validiteit van plaatsing van leerlingen. Zoals Piopiunik 2013 econstor.eu/bitstream/1041… (publ.: Econ of Educ Rev 2014)
Piopiunik toont aan dat vervroegen van de selectie voor verschillende 'tracks' in het vo leidt tot verminderde onderwijsresultaten. In dit geval is dat vervroegen van selectie bij 12 jaar naar selectie bij 10 jaar, in Beieren. De onderzoekaanpak is ook interessant, trouwens.
Hoe gaat het Cito om met die predictieve validiteit? Welnu:
G. G. H. Jansen (1973). De predictieve validiteit van de schooltoets voor een school voor havo/vwo. CITO-memo nr. 76. [niet meer bekend bij Cito, niet online beschikbaar]. Dit is dus niet meer beschikbaar. Maar zie:
Margo G. H. Jansen (1979). De voorspellende waarde van de eindtoets basisonderwijs. [The predictive validity of the 'Eindtoets Bsisonderwijs'] TOR, 4, 239-244 objects.library.uu.nl/reader/index.p… Hier is alleen sprake van correlationele analyse op wat er gebeurt nadat 'de cito' is gebruikt.
Voor onderzoek naar predictieve validiteit van een selecterende toets is het teminste nodig de toets af te nemen, met de resultaten NIETS te doen (ze geheim te houden), en een jaar of wat (4, 5, 6 jaar) af te wachten, en dan gegevens over bereikte onderwijsposities te verzamelen.
Een aardig voorbeeld daarvan is te vinden bij de ontwikkeling van de GIVO (de Groninger Intelligentietest voor Voortgezet Onderwijs), samengevat in Van Dijk (1995) hfdst 10 pure.rug.nl/ws/portalfiles… De testscores liggen stof te verzamelen totdat gegevens jaren later bekend worden.
Kijk, dergelijk onderzoek is voor 'de cito' bij mijn weten nooit gedaan. In ieder geval ten tijde van de publicaties van Margo Jansen was daar in de verste verte geen sprake van. De citotoets en voorganger de Amsterdamse Schooltoets zijn meteen gebruikt. Daarmee was de kans om
een onderzoek naar de predictieve validiteit te doen verkeken. Karen Heij ontdekte dat A.D. de Groot zijn Amsterdame Schooltoets ijkte aan de aviezen van de schoolhoofden. Logisch hè! Maar dat heeft dus niets maar dan ook niets te maken met het ontwikkelen van een valide
voorspellings-instrument. Het werpt onmiddellijk de kritiek op dat die schooladviezen ook nooit zijn onderzocht op predictieve validiteit. Ja, kijk, zo komen we nooit uit het moeras. De Groot probeerde het op de manier van die baron, Von M.
Denkt u na dit alles nog dat de Eindtoets Basisonderwijs een eerlijk middel is om 12-jarigen te selecteren, ook gegeven het huidige onderwijsstelsel? Politici denken dat. Sociologen bezondigen zich er ook wel aan, heb er vaak met Jaap Dronkers woorden over gehad. Stoppen ermee.

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Ben Wilbrink

Ben Wilbrink Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @benwilbrink

Apr 22
Contextrekenopgaven: algebraïseren.
Stelling: we zijn ons door versimpelde contexten in rekenmethoden en -examens niet meer goed bewust van hoe lastig algebraïseren van concrete situaties vaak is.
Hoe algebraïseert u bijvoorbeeld wat er gebeurt bij toetsen van beheersing?
Er moet toch een wiskundig model zijn op te stellen, want we hebben er wel voor gezorgd dat de toets kwantiteiten oplevert, zoals 'aantal goed'.
Als u er niet uit komt, waar zou u in de literatuur gaan zoeken naar mogelijke modellen?
Misschien moet ik toch twee aanwijzingen geven:
1) de beheersing van de stof moet in het model voorkomen, noem deze 'p'.
2) een toets is geen meting, maar een steekproef; of eigenlijk: evenveel steekproeven als er bijvoorbeeld vragen in de toets zijn, noem dit aantal 'n'.
Read 31 tweets
Feb 23
Wroetend in mijn omgevallen boekenkast kom ik iets verrassends tegen. Het zal wel weer een publicatie van Patrick Suppes zijn? Ja, 'Testing theories and the foundations of statistics'. Dat natuurkundigen van alle tijden zich niets aantrokken van meetfouten. Ptolemeus, Newton, /1
Laplace, Maxwell, de hele quantum mechanica. Lees het zelf:
De publicaties van filosoof etc. Patrick Suppes, altijd waardevol, zijn lastig te vinden; zijn corpus is afgeschermd voor Stanfordianen, maar zie bijv. van 1976-1980: /2suppescorpusd9.sites.stanford.edu/sites/g/files/…
suppescorpusd9.sites.stanford.edu/bibliography/1…
Ontbrekende aandacht voor meetfouten in natuurkundige publicaties (lesmethoden dus ook) wekt de indruk dat het hier om exacte wetenschap gaat, als zou het wiskunde zijn. Nancy Cartwright laat zien dat zoiets een misvatting is: (1993). 'How the laws of physics lie. Oxford UP /3
Read 12 tweets
Feb 4
Nadenkend over de geschiedenis van beoordelen in het onderwijs van de 20e eeuw kom ik op de volgende stelling:
De overgang van het eeuwenoude rangordenen op het moderne cijfergeven, 2e helft 19e eeuw (citaat uit Wilbrink 1997), leidde tot een andere selectieve cultuur. Image
Ging het bij het rangordenen om de strijd om de beste te zijn, beloond met een prijsboek (), bij het cijfergeven was het voortaan zaak niet tot de slechtsten te horen: 'onvoldoende' cijfers betekenden zittenblijven of afstromen.repository.ubn.ru.nl/handle/2066/26…
Maar dat cijfergeven is niet iets totaal anders dan het rangordenen () hè! Cijfergeven is nog steeds rangordenen, maar het is een vorm van gestandaardiseerd rangordenen, en tegelijk een sterkere kwantificering van (verschillen in) prestaties.press.princeton.edu/books/hardcove…
Read 35 tweets
Nov 18, 2023
Toetsresultaten scheiden in 'onvoldoende' en 'voldoende' resultaten.
'Is absoluut noodzakelijk' is natuurlijk te verdedigen: meteen 'onvoldoendes' en 'zittenblijven' afschaffen leidt tot chaos.
Maar het bredere perspectief is anders. Zouden we het beoordelen in onderwijs opnieuw mogen ontwerpen, is het werken met cesuren dan optimaal?
'Dat spreekt vanzelf' ligt erg voor de hand. Ik heb mij bij herhaling en over meerdere decennia schuldig gemaakt aan deze stilzwijgende vooronderstelling.
Maar de juistheid van die vooronderstelling moet echt worden onderzocht. Ik heb daarin gefaald, hoewel vaak op het randje.
Read 31 tweets
Sep 29, 2023
Inzicht van de dag.

Een belangrijke bron van ongelijkheid in het onderwijs zelf zijn de talrijke toetsen en tests.

Dat zit zo. Een toets maken is een gelegenheid bij uitstek om kennis te consolideren. En dat werkt alleen wanneer de opdrachten ook maakbaar zijn: makkelijk.
Bij de heersende toetsideologie van niet alleen leraren zelf, maar vooral van leveranciers zoals het Cito, zijn toetsvragen vooral MOEILIJK. In die visie zijn toetsvragen ideaal die de helft van de leerlingen goed kunnen maken.

De hel op aarde, voor te veel leerlingen.
Sorry, mijn vingers schoten even uit over het toetsenbord.

Wat neemt een leerling mee van toetsen/toetsvragen die te moeilijk zijn? Op zijn best helemaal niks, zonde van de tijd. Dat mag eens een keer gebeuren, maar wanneer dit stelselmatig is, groeien leerlingen uit elkaar.
Read 13 tweets
Sep 11, 2023
Wat test een eindtoets basisonderwijs?
Jammer dat er maar 4 alternatieven zijn. Ik kom er dinsdag natuurlijk inhoudelijk op terug.
Na 125 deelnemers tekent zich een interessante verdeling af. Ik moet me maar eens gaan voorbereiden op een snuggere duiding van een en ander. Ga ondertussen door met beantwoorden van deze eenvoudige eindtoetsvraag. (Het is niet gezegd dat er maar één antwoord goed is ... )
Read 68 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(