Ben Wilbrink Profile picture
Sep 15, 2020 125 tweets 29 min read Read on X
Komaan, ik moet eens aan de slag.
Vraag van de dag: kunnen eindtoetsen (voorheen de ‘citotoets’) valide zijn?
Validiteit is een open begrip, maar heeft wel een strak omschreven betekenis, vastgelegd in de Richtlijnen van het NIP (1988) en de Standards van APA AERA NCME (2014).
Om een indruk te krijgen van wat er met validiteit zoal aan de orde is, zie bijv. (de bibliotheek over validiteit is zeer uitgebreid) onlinelibrary.wiley.com/doi/abs/10.111… Dit abstract nodigt uit om ook het artikel zelf te lezen. Dat kan, kijk even wat er zoal in staat: sci-hub.tw/10.1111/j.1745…
Validiteit is niet een kenmerk van een toets, maar karakteriseert het gebruik ervan, in dit geval: de toewijzing van leerlingen aan schooltypen. (zie 1e kolom van Sireci & Parker). Veronderstel even, for the sake of argument, dat de eindtoets bepalend is voor die toewijzing.
Tot zover klassieke stof, u vertrouwt er vast op dat het met validiteit wel goed zit. Hm, it depends.
Mijn vermoeden (in deze draad te onderzoeken) is dat validiteit van de eindtoetsen niet kan worden bepaald. Om een waaier van redenen rond de kernvraag Van wie is het onderwijs?
Of, anders gezegd: validiteit van eindtoetsen is alleen te bepalen onder een reeks restricties en vooronderstellingen die het probleem versmallen tot een trivialiteit die vooral het huidige onderwijsstelsel bevestigt. Bijv.: zitten lln na x jaar in het voorspelde onderwijstype?
For English followers: this thread is about scholastic aptitude tests at the end of Dutch primary education; can they be called valid for for allocating pupils/students to one of six different types of secondary education—schools, not tracks, see en.wikipedia.org/wiki/Education…
Wat valt er te verwachten van dit kritische onderzoekje? Er zit een sterke analogie in, vermoed ik, met de thematiek van selectie voor numerus-fixusstudies; ik mocht voor de Cie-Drenth in 1997 dit overzicht van de publieke discussie 1972-1997 schrijven archief06.archiefweb.eu/archives/archi…
Laten we eerst vaststellen dat ons stelsel van vo nog sterk de 19e eeuwse trekken van standsonderwijs heeft (dbnl.org/tekst/matt023k…), en dat eindtoetsen daar dus voor selecteren (Bourdieu et Passeron 1970 ‘La reproduction. Zie bijv. sci-hub.tw/10.1177/053901…)
Waarom is die laatste constatering van belang? In de mate waarin eindtoetsen selecteren voor schooltypen die zich nog steeds laten karakteriseren als mede door ‘stand’ bepaald, bedienen ze leerlingen ongelijk = discriminatoir. Ze bevestigen standsverschillen. Niet valide dus.
Mogelijke tegenwerping: ‘Maar ons onderwijs is toch meritocratisch? Bij gelijke capaciteiten zijn kansen toch ongeveer gelijk?’ De ongelijkheid zit hem nu juist in gelegenheid om gelijke capaciteiten te verwerven. Meritocratie: benwilbrink.nl/publicaties/97…
Publiek onderwijs is er niet zomaar voor iedereen: er wordt voor geselecteerd. Is dat wel een eerlijke manier om dat kennelijk schaarse goed ‘onderwijs’ te verdelen? Meritocratie speelt in de kaart van bevoorrechte leerlingen. Is het onderwijs vooral van hoogopgeleide ouders?
Sociologen zeggen dan dat onderwijs een positioneel goed is: kinderen van hoger opgeleide ouders kunnen zich proberen te onderscheiden van de overigen. Hun ouders zullen het oneerlijke onderwijsstelsel dat dit mogelijk maakt koste wat kost verdedigen. #onderwijsbeleid_is_oorlog
Beter geformuleerd: onderwijs geeft toegang tot schaarse begeerlijke maatschappelijke posities. Onderwijs heeft een signalerende functie, zegt econoom Bryan Caplan in zijn rijkelijk onthutsende ‘The case against education: Why the Education System Is a Waste of Time and Money’.
Caplan contrasteert de volgens hem dominante signalerende functie met menselijk-kapitaaltheorie. Dus: het bewijs dat je een prestatie kunt leveren waar je later weinig aan hebt, versus het verwerven van maatschappelijk relevante kennis die rendeert voor individu en samenleving.
Hoe zit het dan met de inhoud van eindtoetsen? Wat ‘toetsen’ zij, of wat ‘signaleren’ zij? nOppervlakkig bezien toetsen zij rekenen en taal. Maar ze zijn niet ‘curriculum aligned’ (scholen hebben verschillende curricula). Deze ‘scholastic aptitude tests’ testen intelligentie.
Laat ik dat verduidelijken. De eindtoetsen hangen ergens tussen tests (intelligentie) en examens (in lijn met het curriculum). Dat is wel een validiteitsprobleem: op tests mag men NIET specifiek zijn voorbereid, op examens juist WEL, niet te rijmen dus: benwilbrink.nl/publicaties/86…
Voorzover die eindtoetsen examens zijn die selectief toegang geven tot vervolgonderwijs, is de validiteit bedreigd omdat andere variabelen mede bepalend zijn. Hier uitgelegd: benwilbrink.nl/publicaties/77…
Aha, uren studie zijn van belang, het advies van de leerkracht neemt dat wèl mee.
Ik laat in deze draad het advies er buiten, maar hier wil ik toch opmerken dat het advies van de school sterk is bepaald door leerlingvolgsystemen, dat zijn ook scholastic aptitude tests. Helaas. Vrijwel alles wat hier wordt geschreven over eindtoetsen, geldt dus ook adviezen.
Laten we de ideeën van ‘signaling and sorting’ (Caplan en.wikipedia.org/wiki/The_Case_…) versus menselijk kapitaal (Becker nber.org/books/beck94-1) eens toepassen op eindtoetsen. Zij zijn ongetwijfeld een mix van beide.
Een ingewikkelde mix ook, omdat de toetsen zelfs op de nuttige kennis van taal en rekenen (menselijk kapitaal) zo zijn ontworpen dat er op verschillen in die kennis kan worden geselecteerd (signaling and sorting). Dankzij een wetenschap in dienst van machthebbers: psychometrie.
Dat laatste is onaardig geformuleerd; het slaat dan ook terug op de vraag ‘Van wie is het onderwijs?’. Kijk naar eindtoetsen die als hakmessen in een sorteermachine worden ingezet: die toetsen ‘zijn niet van’ leerlingen en hun ouders, zij hebben niets in te brengen. Terecht?
Ik gebruik een onderscheid van Cronbach & Gleser (1957/1965 ‘Psychological tests and personnel decisions’ journals.uchicago.edu/doi/abs/10.108…): institutionele beslissingen, ten bate van instellingen zoals scholen, vs individuele beslissingen, ten bate van individuen zoals in adviesrelaties.
U voelt hem misschien al aankomen: de vraag of leerlingen er zijn voor het onderwijs (institutioneel selecteren) of dat het onderwijs er is voor de leerlingen (individueel adviseren). Een onderscheid dat Co van Calcar en Siebe Soutendijk in de 60er jaren ook maakten, geloof ik.
Zonder glashelder antwoord hierop hangt validiteit van eindtoetsen in de lucht.
Ter inspiratie: Thorbecke vond ouders prima in staat zèlf te beslissen hun zoon naar zijn nieuwe HBS te sturen. Een paar jaar later lobbyden leraren met succes voor een toelatingsexamen. So it goes.
Een dienstmededeling om het voor vandaag een beetje af te sluiten:
Op de lat staan in ieder geval nog:
- het zetten van grensscores (wanneer mag je dan nog net naar het vwo?)
- Als het allemaal niet valide is, wat dan wel? Is het niet één groot spel van afspraken? Wie maakt ze?
- Er zijn alternatieven voor die cultuur van altijd maar benadrukken, vergroten, en testen van verschillen tussen leerlingen (oa het 2-sigma experiment van Bloom).
- Het is wel duidelijk dat (goed) onderwijs een schaars goed is. Hoe verdelen we dat eerlijk? (Theory of justice)
- Mogelijke tegenwerpingen. ‘Ja maar, er zijn nu eenmaal grote verschillen tussen leerlingen’ Tegenvragen: waarom is dat zo; als er verschillen zijn, zijn die relevant bij de overgang naar vo? Wat telt uiteindelijk: bereikbaar scholingsniveau, of de daarvoor benodigde tijd?
Dit is/wordt een heel lange draad, de tweets vind je ook bijeengebracht in deze file threadreaderapp.com/thread/1305807…
Grensscores, cesuren, zak-slaaggrenzen, drempels.
Karakteristiek voor het gebruik van toetsen is dat ze ook grensscores hebben: voor een ‘voldoende’, om toegelaten te worden, om behandeling A ofwel juist behandeling B te krijgen.Bijv. bij eindtoetsen: grensscore havo ofwel vwo.
Ik wil wat langer stilstaan bij de vraag of beslissingen met een puntje verschil rond zo’n drempel wel valide zijn. De antwoorden geven een idee voor de richting waarin antwoorden te zoeken zijn op de vraag wat te doen met eindtoetsen waarvan we geen validiteit kunnen bepalen.
A. D. de Groot, initiatiefnemer voor het Cito, auteur van ‘Vijven en zessen’, verantwoordelijk voor de Amsterdamse Schooltoets (1967 geloof ik; voorloper van de ‘citotoets’), deze A.D. zoals hij in de wandelgangen werd genoemd, zat met de handen in het haar over zak-slaaggrenzen.
Want, schreef hij in 1972 in een bundel over selektie, iemand afwijzen, laten overdoen of laten zitten op een puntje verschil, dat is inhoudelijk op geen enkele manier te verdedigen. Hij signaleerde het probleem dat zo’n beslissing niet valide is, maar had er geen oplossing voor.
Het probleem is zeer ernstig, al was het maar omdat validiteit nu juist bij uitstek het criterium voor kwaliteit van toetsen en tests is. Zijn toetsen met drempelbeslissingen dan alleen al daarom niet valide? Dat lijkt een te sterke conclusie, maar waarom zou dat zo zijn?
Het probleem is ook zeer ernstig omdat juist rond die drempels, op dat ene puntje verschil, zich veel beroeps- en ook rechtszaken afspelen. Beroepszaken: Job Cohen 1981 benwilbrink.nl/projecten/toet…. Hoge Raad (maar terugverwezen naar Hof Arnhem) eindex. Frans benwilbrink.wordpress.com/2017/09/20/exa…
Het zal niet verbazen dat dit drempelprobleem al eens eerder is gesignaleerd, en van een oplossing voorzien. Waar komen we dan terecht: bij Francis Y. Edgeworth (1888). ‘The statistics of examinations’. Op een puntje verschil niet aangenomen bij de Civil Service; oneerlijk?
Nee, zegt Edgeworth. En daar heeft hij goede argumenten voor. Kijk, zegt hij, zo’n examen is een steekproef, en daar kun je ook best een beetje pech of geluk bij hebben. Kandidaten kunnen dat weten, en hebben het ook zelf een beetje in de hand: zorg voor goede voorbereiding.
Eerlijk en valide, is dat hetzelfde of zijn dat toch verschillende zaken? Het is mij om het even; vermeldenswaard is dat De Groot eerlijkheid of billijkheid als extra criterium heeft voorgesteld in 1970, als belangrijkste criterium ook voor toetsen: benwilbrink.nl/publicaties/70…
Naar mijn bescheiden mening zijn de twee belangrijke publicaties over toetsen, in Nederland verschenen, beide in 1970, beide uit dezelfde UvA-afdeling, en qua onderwerop eigenlijk nauw verbonden hoewel niet naar elkaar verwijzend: van A.D. de Groot en R. van Naerssen. Surprise.
Voor De Groot 1970 zijn toetsen billijk als ze door leerlingen doeltreffend zijn voor te bereiden. Ze moeten gaan over de stof die is voorgeschreven of behandeld, niet daarbuiten. ‘Curriculum-aligned’ heet dat bij de buren. De Groot vult verder in waar Edgeworth al op hintte.
Met het ten onrechte in vergetelheid geraakte pleidooi van De Groot kan men het eens zijn, of niet. Zijn collega Van Naerssen heeft in 1970 een wiskundig model ontworpen dat handen en voeten geeft aan dat ‘doeltreffend kunnen voorbereiden’: benwilbrink.nl/publicaties/70…
Hebben we nu een oplossing voor de vraag hoe we ‘dat ene puntje tekort’ moeten zien?
In zekere zin een criterium voor wat ‘doeltreffend kunnen voorbereiden’ is: de leerling moet het risico van zakken of slagen zelf kunnen dragen. Leerkrachten hebben daar de zorg voor.
Een oplossing voor dat probleem van grensscores is dan, in lijn met Edgeworth, De Groot, en Van Naerssen: het gaat om spelregels waar iedereen zich naar moet gedragen, ook leraren, zij hebben te zorgen voor billijke toetsen, doeltreffend voor te bereiden toetsen. #spelregels
Die spelregels zijn deels ethiek (billijke toetsen), deels politiek (overgangsregelingen, examenregelingen). Een radicale transformatie van wat in de testliteratuur validiteit heet. En niet vrijblijvend: het recht ziet op de billijkheid (Job Cohen, 1981; Henk van Berkel 2019).
Uit de eis van billijkheid volgt onmiddellijk dat de grens onvoldoende-voldoende nooit bepaald mag worden als een vaststaand percentage. Wanneer alle leerlingen een extra inspanning plegen, moet dat tot uitdrukking kunnen komen in hogere scores. Ha, en omgekeerd ook! Ai ai.
Hoe gaat dat bij de Centrale Eindtoets van het Cito/CvTE? De scores zijn gestandaardiseerd, tussen 500 en 550, zoveel is na enig zoeken wel duidelijk. Maar mij blijft onduidelijk of het zo is dat het gemiddelde in beginsel altijd op 335 wordt gezet.
Leerlingen en scholen spelen tegen de bureaucratie van het CvTE (College voor Toetsen en Examens) (ik neem aan dat het voor de andere eindtoetsen in deze markt niet anders is). Kunnen zij dat winnen? Dat hangt ervan af: gaat het om beperkte aantallen plaatsen, of om geschiktheid?
We komen nu bij de vraag of een test voor plaatsing in één van 8 typen brugklas (zoek.officielebekendmakingen.nl/stcrt-2018-250…), een door-en-door traditioneel onderwijsstelsel, geworteld in de 19e eeuw, of zo’n test valide kan zijn. Of we kunnen weten/onderzoeken of er sprake kan zijn van validiteit.
Stel nu eens dat het onderwijs in het vmbo kwalitatief onder de maat is, vergeleken met dat in het avo. En dat het juist kinderen van laagopgeleide ouders zijn die in het vmbo terechtkomen, kinderen van hoogopgeleide ouders in het avo. Dan zou er sprake zijn van discriminatie.
Want hoe we kwaliteit ook definiëren, het kan niet zo zijn dat afkomst mede bepalend is voor de kwaliteit van het onderwijs dat wordt aangeboden. Toch? Dat zou in strijd zijn met de Grondwet art. 1, maar ik kan me vergissen, ik ben tenslotte geen jurist. denederlandsegrondwet.nl/id/vi7pkisz82r…
art. 1: ‘in gelijke gevallen gelijk behandeld’.
De eerste versie hiervan dateert van 1798, en lijkt veel duidelijker geformuleerd:
“Alle Leden der Maatschappij hebben, zonder onderscheiding van geboorte, bezitting, stand, of rang, eene GELIJKE aanspraak op derzelver voordeelen.”
Juristen zullen onmiddellijk tegenwerpen dat gevallen zelden gelijk zijn, en dat dan verschillende behandeling gerechtvaardigd is naar de mate van de verschillen. Maar dus niet iedere verschillende behandeling, en het aanbieden van kwalitatief minder onderwijs lijkt ongepast.
Als onderwijs in het vmbo kwalitatief minder is dan dat in het avo, dan zouden eindtoetsen instrumenten zijn die discriminerend werken. Einde van discussie over validiteit. Dus: kan het kloppen dat de kwaliteit van het onderwijs in het vmbo onderdoet voor dat in het avo?
Daar zijn wel aanwijzingen voor. Veel ouders zien hun kinderen liever in het avo dan in het vmbo, is dat onredelijk? Opleidingen in het vmbo leveren een lager ‘lifetime’ arbeidsinkomen op, daar heb je het al. Menselijk kapitaal. Fascinerende cijfers in dit CBS rapport:
Marieke Rensman: ‘Menselijk kapitaal in cijfers’ CBS, hoofdstuk 8 uit ‘De Nederlandse economie 2011’ cbs.nl/-/media/import…
Hoe belangrijk is dat menselijk kapitaal voor onze economie? “In 2009 bedroeg de waarde van het menselijk kapitaal in Nederland 6,7 biljoen euro.”
“De omvang van menselijk kapitaal is veel groter dan dat van het niet-financieel en financieel vermogen, oftewel het nationaal vermogen.” Ik vermeld dit maar even, want het CPB vertikt het om kosten van onderwijs als investeringen te beschouwen, maar dat zijn ze dus in hoge mate!
Een meer directe aanwijzing dat het niet goed zit met de kwaliteit van het onderwijs in het vmbo volgt uit een OECD-studie over kwaliteit van wiskundeonderwijs in OECD-landen:
Jill Barshay (2016). ‘Is it better to teach pure math instead of applied math? OECD study of 64
countries and regions finds significant rich-poor divide on math instruction’ hechingerreport.org/pure-math-bett…
OECD (2016). ‘Equations and Inequalities. Making Mathematics Accessible to All’ read.oecd-ilibrary.org/education/equa…
Een quote daaruit: “While education systems have generally done well in providing equitable access to the QUANTITY of mathematics education [...] the data show large differences in the QUALITY of learning experiences between social groups.
While disadvantaged students tend
to learn simple facts and figures and are exposed to simple applied mathematics problems, their privileged counterparts experience mathematics instruction that help them think like a mathematician, develop deep understanding and advanced mathematical reasoning skills.”
Er valt meer over te zeggen, maar laat ik het bot samenvatten met woorden van Vincent Icke, dat het vmbo het mag doen met raadseltjesrekenen, waar het avo serieus wiskundeonderwijs krijgt.
De kwaliteit van het onderwijs in het vmbo schiet tekort, dus ook de eindtoets-validiteit.
De voorgaande tekst is qua lengte wat uit de hand gelopen. Begrijp eruit dat ontwikkelaars van eindtoetsen de dure plicht hebben de validiteit van gebruik van hun toetsen zorgvuldig te onderzoeken, en zeker ook mogelijk discriminatoir gebruik te signaleren. #eerlijk_onderwijs
Als er in dit vmbo-casus sprake is van discriminatie (of dat zo is, moet blijken uit toetsing door de rechter), dan kan gebrek aan validiteit van eindtoetsen niet worden gecompenseerd door dekking van de politiek. Discriminatie blijft discriminatie, en dat is niet aanvaardbaar.
Laten we nu het algemene geval bekijken, voor twee behandelingen of schooltypen, A en B. Experimenteel onderwijsonderzoek gaat vaak over de vraag of A ‘beter’ is dan B, zo ja, dan blijft A.
Let op. Wat de eindtoets doet is iets ingewikkelds: leerlingen toedelen aan A òf aan B.
De veronderstelling is kennelijk (stilzwijgend) dat sommige leerlingen het beter doen in A dan in B, en dat andere leerlingen het ‘beter’ doen in B dan in A, en dat de eindtoets dat kan voorspellen. Bij de buren heet dat de veronderstelling van een Aptitude Treatment Interaction.
Lee J. Cronbach en Richard E. Snow onderzochten grondig wat daarover bekend is (uit Amerikaans onderwijsonderzoek, dat wel.) in hun 1977 ‘Aptitudes and Instructional Methods. A Handbook for Research on Interaction’ (voor een uur te leen in archive.org/details/aptitu…)
Enkele quotes:
“We once hoped tat instructional methods might be found whose outcomes correlate very little with general ability. This does not appear to be a viable hope. (...)
The pervasive correlations of general ability with learning rate or outcomes in education limits the power of ATI
findings to reduce individual differences.” (p. 500)
Bij een dubbelblind experiment zal het resultaat ongetwijfeld zijn dat in A de prestaties sterk correleren met eindtoetsscores, maar eveneens in B zal dat het geval zijn.
(regressielijnen zijn beide stijgend) Hm. Impasse?
In het onderwijs is de correlatie tussen intelligentie en studieresultaten typisch ca. 0,7. Er is geen reden dat conditie A hierin verschilt van B, dus in ons gedachte-experiment zijn beide regressielijnen parallel, is GEEN interactie, mogelijk wel een constant verschil.
Bij een constant verschil, laten we zeggen dat de regressie voor conditie A een constante boven die van B ligt, levert A voor alle leerlingen het beste resultaat. De eindtoets zou alle leerlingen dan aan A moeten toewijzen. Dat zien we dus niet gebeuren. Wat is hier aan de hand?
Misschien zie ik iets over het hoofd? Stel dat er in conditie A de totale studietijd is begrens, en dat er een groep is die tegen die grens aanloopt en daardoor lagere prestaties boekt. Maakt dat iets uit? Alleen als resultaten dan lager worden dan in B het geval is.
Maar wat hebben we dan voor wonderlijke situatie? Vergelijk het met eindexamens, waar de toegemeten tijd ruim genoeg is zodat iedereen het werk binnen die tijd kan afronden. Datzelfde kan toch ook met instructie- en zelfstudietijd?
In dit eenvoudige gedachte-experiment vinden we dus dat het niet waarschijnlijk is dat een intelligentietest of eindtoets gebruikt kan worden om een rationele toedeling van leerlingen aan verschillende schooltypen te onderbouwen. In dit opzicht kan de eindtoets niet valide zijn.
Verder met het gedachte-experiment. In de bereikte impasse komt de politiek langs en die zegt, na ampel beraad en advies van vele raden: we gaan die eindtoets toch gebruiken om leerlingen over A zowel als B te verdelen, omdat beide maatschappelijk noodzakelijk zijn. aap_uit_mouw
Dat verandert de situatie radicaal: de politiek bepaalt een numerus fixus voor het aantrekkelijkste schooltype, in ons gedachte-experiment is gebleken dat dat type A was.
En de politiek zegt dat intelligentie bepalend is voor de toelating tot A. Wat hebben we dan: #meritocratie
In een tweet eerder deze avond kwam een tabel langs die mooi laat zien hoe groot de overlap in ‘prestaties’ kan zijn, tussen de diverse opleidingstypen
In de 90er jaren kon Nederland zien hoe prestaties in de basisvorming ook zo’n grote overlap hadden.
Ik wil die uitkomst van meritocratie vanavond niet laten bungelen. Een meritocratie is een walgelijke, een dystopische samenleving, zoals Michael Young in 1957 schetste. En wel hierom: zie Michael J. Sandel 2020 ‘The tyranny of merit’. athenaeum.nl/boek/?authorti… (vertaald)
Dit is een goed moment om door te verwijzen naar een artikel over intelligentie, waar inderdaad nog wel iets meer over gezegd zou moeten worden: van12tot18.nl/intelligentie-…
[Wim van den Broeck bekritiseerde het threadreaderapp.com/thread/1271064… ; mijn dupliek: benwilbrink.wordpress.com/2020/06/12/dup…]
Over het op rationele wijze (besliskundig) bepalen van grenzen tussen zakken/slagen zie het meer technische artikel in het TOR benwilbrink.nl/publicaties/80… vooral de paragraaf ‘Verbinding met het werk van Cronbach en Snow (1977)’ en Figuur 5.
Leuk hoor, die analyse op twee behandelingen/schooltypen A en B. De eindtoetsen gaan over ACHT schooltypen, noem ze maar A, B, C, D, E, F, G en H. Ik heb die eindtoetsen gekenmerkt als type intelligentietests (SAT's bij de buren). Die intelligentie moet wel heel veel werk doen!
Hoe kan het bestaan dat leerlingen in ACHT verschillende schooltypen worden geplaatst op basis van slechts EEN variabele? Er moeten dan ZEVEN reële interacties intelligentie-studieresultaten zijn. En dat de toetsen voor die ene variabele dan ook nog ‘valide’ heten?
Ik ben mij niet bewust van het bestaan van literatuur die dit bizarre casus analyseert. Iedere tip is welkom. Ik zal zelf deze witte vlek op de toetskaart moeten verkennen. Ik ga gebruik maken van de analogie met selectie voor numerus-fixusstudies, ook een plaatsingsprobleem.
In het hoger onderwijs is het mogelijk om opleidingen te rangordenen naar de mate waarin zij intellectueel minder of juist meer veeleisend zijn. Pedagogiek is in NL (maar ook in de VS) minder veeleisend, en staat ook ergens onderaan in status. Ruimtevaarttechniek is veeleisend.
De VS kent een sterke hiërarchie tussen universiteiten. Wie wat beter kijkt, ziet dat die hiërarchie mede berust op de aard van aangeboden opleidingen: vooral pedagogiek (‘education’), of juist vooral techniek (bv. MIT). Er wordt in de VS volop geselecteerd, hoe gaat dat?
Zie Rebecca Zwick (2017). ‘Who Gets In? Strategies for Fair and Effective College Admissions’ Info: hup.harvard.edu/catalog.php?is…
Interview: ets.org/research/polic…
Dit boek geeft weer hoe men in de VS over selectie denkt, ihb. ook bij het Cito van de VS: Educational Testing Service.
Selectieve tests in de VS zijn scholastic aptitude tests, zoals de SAT (van de College Board) en de ACT (act.org, ceo is Marten Roorda, voorheen ceo Cito eu.press-citizen.com/story/news/loc…)
En ja, het Cito, en de NL testpsychologie, is sterk georiënteerd op de VS.
Al dat gedoe met tests suggereert dat alles dan ook draait om die tests. Maar zo gaat het niet. Men kiest vooral zelf voor pedagogie, of ruimtevaarttechniek, en om dat te realiseren wacht er misschien een selectieve toelating.
Zo gaat het ook ongeveer bij onze 12-jarigen, toch?
Op dit punt aanbeland zou ik graag een paar grote thema’s tegelijk behandelen, maar ja, dat kan dus niet. Stel vast dat er een reeks van 8 schooltypen is, in volgorde van intellectuele eisen die er gesteld worden (dalen, of klimmend), en een eindtoets/intelligentietest.
Laten we inspiratie voor een vruchtbaar begin van de analyse halen uit wat Sandel zegt aan het slot van het interview dat Trouw (19 sept.) met hem had trouw.nl/religie-filoso…:
“[De hoogopgeleide elites in de VS, maar ook in Nederland en de rest van Europa] waren zich niet bewust
van de belediging die besloten lag in hun meritocratische model, namelijk dat wie niet omhoog klimt, dat aan zichzelf te wijten heeft. Ze zagen niet hoe neerbuigend ze waren.”
Ons vo volgt het meritocratisch model: het ‘beste’ onderwijs is voorbehouden aan de ‘intelligentsten’!
Grote thema’s zijn in ieder geval:
- onderwijs is kennelijk een schaars goed (maar dat zou het niet moeten zijn?)
- hoe kan dit schaarse goed eerlijk worden verdeeld?
- wat valt er te leren van meer dan 40 jaar gewogen loting voor numerus-fixusstudies?
- wat is ‘intelligentie’ eigenlijk? Persoonlijke verdienste? Of het geluk van waar je wieg heeft gestaan?
- het bo slaagt niet in het beperkt houden van milieu-bepaalde verschillen
- voor dit falen van het bo worden de leerlingen gestraft met oneerlijke kansen op vo
- vo in 8 typen, dat is te gek. Waarom is dat zo, hoe anders?- eindtoetsen kunnen in deze constellatie van tekortschietende condities alleen maar valide worden genoemd door al die onvolkomenheden als onveranderlijke gegevenheden te beschouwen. Maar zo kan het dus niet.
Ik zou misschien het best verder kunnen gaan met de laatste stelling als uitgangspunt, en dan kort aanstippen op welke manieren zoal een selectie op basis van intelligentie/eindtoetsen oneerlijk/discriminerend is. Dikke boeken kunnen altijd nog worden geschreven. Ha ha.
Alle 95 eindtoets-tweets tot nu toe vind je in dit bestand: threadreaderapp.com/thread/1305807…
U vermoedde het mogelijk al: deze draad is een riskant avontuur waarin de stelling dat validiteit van eindtoetsen zich niet laat bepalen leidt tot een aantal voor mij nieuwe inzichten. Zoals de vergelijking van selectie van 12-jarigen met die bij numerus-fixusstudies. Zoals de
stelling dat kwalitatief ondermaats wiskunde-onderwijs in het vmbo, samen met oververtegenwoordiging van kinderen van laagopgeleide ouders in dat vmbo, de toewijzing van kinderen aan vmbo-scholen mogelijk discriminerend is. Zoals de stelling dat selectie voor vo-schooltypen
sterke trekken heeft van selectie voor telkens beperkt aantal plaatsen (numerus-fixus), die veel ‘geschikte’ kandidaten afwijst, te veel dus. Zoals het inzicht dat eindtoetsen problematisch bungelen tussen examens en tests: wel of juist niet doeltreffend voor te bereiden.
Laat ik toch even aanhaken op dat ‘bungelen’, want daardoor gaan allerlei extra storende variabelen een rol spelen en raaktuit het zicht wat validiteit dan nog is.Storende variabelen, dat levert ‘construct-irrelevant variance’ op. Het zijn er heel wat, ook los van dat ‘bungelen’:
zie tabel 1 ‘A Taxonomy ... Systematic Errors ...’ in Thomas M. Haladyna & Steven M. Downing (2005). Construct-Irrelevant Variance in High-Stakes Testing. Educational Measurement: Issues and Practice sci-hub.tw/10.1111/j.1745… Dit artikel bespaart mij weer een hoop schrijfwerk.
Ik moet daar toch dringend iets aan toevoegen, en wel dat ‘intelligentie’ zelf een optelsom is van ‘construct-irrelevancy’: het is immers niet een aangeboren stabiele persoonlijkheidstrek, maar mede resultaat van onderwijs. benwilbrink.wordpress.com/2020/05/24/int… Afijn, ik verwees er al naar.
Ik wil even terug naar de kernvraag: ‘van wie is het onderwijs’, waar is het allemaal goed voor? Als u een ultiem criterium voor maatschappelijk relevant onderwijs mag kiezen, wat zou dat zijn? Waar kan het aan worden afgemeten? Het mag ook een proxy zijn, een sterke indicator.
Ik stel voor: laten we menselijk kapitaal nemen als (proxy)variabele waar het uiteindelijk bij het onderwijs om draait. Vat het breed op: ook gezondheid. En neem het zowel in maatschappelijke zin, als individueel. Bas Jacobs over menselijk kapitaal: personal.eur.nl/bjacobs/rendem…
We kwamen menselijk kapitaal eerder al tegen als het belangrijkste kapitaal in de (economische) samenleving. Meer ervan is beter. Onderwijs is de belangrijkste producent van menselijk kapitaal. Hamvraag: is er nog aanzienlijke ‘reserve’ in wat het onderwijs kan produceren?
Die vraag doet denken aan die andere vraag, na de oorlog vaak gesteld, ‘wat is de reserve aan intellect in Nederland’? Want die reserve moet het onderwijs dan aanboren. Maar dit terzijde, want deze draad gaat over validiteit, if any, van eindtoetsen: wat moeten ze voorspellen?
Velen, ook A.D. de Groot, hebben opgemerkt dat in het onderwijs niets zo goed voorspelt als recente prestaties. Er is in het onderwijs een groot vertrouwen in resultaten uit het verleden als voorspeller van de toekomst. Maar pas op: dit gaat over verschillen tussen leerlingen.
Wat hebben we hier te pakken: het mechanisme dat verschillen tussen leerlingen in stand houdt. Ongelijkheid troef, hoe groter de ongelijkheid, des te beter de voorspellingen. Voorzover verschillen tussen leerlingen SES-bepaald zijn, reproduceert onderwijs verschillen in SES.
Het geschetste mechanisme is rampzalig voor eerlijk onderwijs, maar dus ook voor wat het onderwijs aan menselijk kapitaal produceert. Wat eindtoetsen zouden moeten doen, is voorspellen wat opbrengsten in termen van menselijk kapitaal zijn, bij gegeven schooltypen. Kunnen ze dat?
Laten we wel wezen, het gaat bij deze 12-jarigen om beslissingen die mede bepalend zijn voor hun verdere leven. Het is van de gekke om die beslissingen zo kortzichtig te nemen als nu in feite gebeurt. Toch is dat wat we doen: beslissen op de korte klap, voor de lange termijn.
Een voorbeeld van wat ik bedoel. Selectie voor geneeskunde. Velen zijn van mening dat dat goed kan op basis van eindexamencijfers, want kandidaten met hogere cijfers blijken betere resultaten in het eerste of tweede jaar van de studie geneeskunde te halen. Goed argument?
Als u ‘ja’ zegt, bent u in gezelschap van een aantal promovendi die zich beijverd hebben om dat verband weer eens opnieuw aan te tonen. U kunt ook ‘nee’ zeggen, want eindexamencijfers zeggen weinig of niets over later een goede arts zijn. En dat laatste klopt waarschijnlijk.
Uiteindelijk gaat het om een goede arts zijn, niet of meer of minder tijd voor de studie nodig is. Dat selectie op het criterium van beroepsuitoefening lastig of onmogelijk is, is geen argument om dan maar op verwacht studiesucces te selecteren. (Kan het niet zoals het moet ... )
Nederland heeft een belangrijk en boeiend onderwijsexperiment achter de rug: meer dan 40 jaar gewogen loting voor numerus-fixusstudies. Dat ging gepaard met de nodige maatschappelijke discussie over wat eerlijk is, zie mijn rapportage voor de Cie-CDrenth benwilbrink.nl/publicaties/97…
‘Kan het niet zoals het moet, dan moet het maar zoals het kan’ is te kort door de bocht: er zijn altijd alternatieve mogelijkheden voor het verdelen van schaarste. Bijv.: Jon Elster (1992). ‘Local justice. How institutions allocate scarce goods and necessary burdens’ Cambridge UP
Tegenwerping: Je zegt toch dat die eindtoetsen (als ‘scholastic aptitude tests’) intelligentietests zijn? En intelligentie voorspelt toch succes in het leven, en dus ook menselijk kapitaal?
Klopt. Maar daar zijn een paar probleempjes mee, een drietal:
1) Eindtoetsen zijn beroerde intelligentietests omdat ze niet als zodanig zijn ontworpen. Ze testen op intelligentie, maar we weten niet hoe dan precies, dus leerlingen worden onderworpen aan willekeur. Alweer: beroerde of in het geheel geen validiteit.
2) Het kan zomaar zijn dat achtergrondvariabelen zoals sociaal-economische achtergrond betere voorspellers van succes in het leven zijn, en van menselijk kapitaal. En wel in deze zin dat intelligentietests daar geen voorspellende waarde aan toe kunnen voegen.
3) Intelligentie is niet aangeboren, maar vooral een resultaat van onderwijs. Ieder jaar extra onderwijs voegt intelligentie toe. Het is ook een heel erg schools ding, bewust zo gekozen door Alfred Binet, rond 1900. We moeten het dus niet buiten die schoolse context gebruiken.
Het laatste is dan weer een variant op: succes in school is niet hetzelfde als succes in de samenleving (breed opgevat).
Succes in school hebben is wat we intelligentie noemen; voor succes in de samenleving is bijvoorbeeld het hebben professionele expertise van belang.
Dat neemt niet weg: in onze ongelijke samenleving is het onderwijs poortwachter voor schaarse maatschappelijke posities. Het verband tussen intelligentie en maatschappelijk succes is dus een self-fulfilling prophecy: zo is het bedoeld te functioneren. #onderwijsbeleid_is_oorlog
Linksom of rechtsom kunnen we er niet omheen dat die selectie van 12-jarigen een groot maatschappelijk onrecht is, een onrecht dat mede in stand wordt gehouden door eindtoetsen die belanghebbenden graag ‘objectief’ noemen, alsof ze geen toedekkende rol in een kwaad drama spelen.
Ik wil hier de ontdekkingsreis afsluiten.Ik heb laten zien dat de vraag naar validiteit van eindtoetsen niet los mag worden gezien van de schoolse en maatschappelijke context waarin die toetsen worden gebruikt om belangrijke beslissingen OVER (miet VAN) leerlingen te legitimeren.
Ik heb eerder over problemen rond eindtoetsen geschreven, en over de kwaadaardige nadruk op verschillen tussen leerlingen waar zij stilzwijgend van uitgaan. ik geef een aantal links.
- Talent: aangeboren of aangeleerd? Dat maakt nogal uit voor onderwijs! komenskypost.nl/?p=2971
- Advies en eindtoets — beide eufemismen — Wat is ervan te vinden? komenskypost.nl/?p=4849
- Over maantjes, sterretjes en zonnetjes en veel meer. komenskypost.nl/?p=4883
- De rode draad is het thema ‘eerlijk onderwijs’ komenskypost.nl/?p=4110
- Jubileumboek 50 jaar Cito – Mantel der liefde benwilbrink.wordpress.com/2019/10/07/jub…
[een literatuurbestand over aansluiting bo-vo benwilbrink.nl/literature/aan… ]

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Ben Wilbrink

Ben Wilbrink Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @benwilbrink

Apr 22
Contextrekenopgaven: algebraïseren.
Stelling: we zijn ons door versimpelde contexten in rekenmethoden en -examens niet meer goed bewust van hoe lastig algebraïseren van concrete situaties vaak is.
Hoe algebraïseert u bijvoorbeeld wat er gebeurt bij toetsen van beheersing?
Er moet toch een wiskundig model zijn op te stellen, want we hebben er wel voor gezorgd dat de toets kwantiteiten oplevert, zoals 'aantal goed'.
Als u er niet uit komt, waar zou u in de literatuur gaan zoeken naar mogelijke modellen?
Misschien moet ik toch twee aanwijzingen geven:
1) de beheersing van de stof moet in het model voorkomen, noem deze 'p'.
2) een toets is geen meting, maar een steekproef; of eigenlijk: evenveel steekproeven als er bijvoorbeeld vragen in de toets zijn, noem dit aantal 'n'.
Read 31 tweets
Feb 23
Wroetend in mijn omgevallen boekenkast kom ik iets verrassends tegen. Het zal wel weer een publicatie van Patrick Suppes zijn? Ja, 'Testing theories and the foundations of statistics'. Dat natuurkundigen van alle tijden zich niets aantrokken van meetfouten. Ptolemeus, Newton, /1
Laplace, Maxwell, de hele quantum mechanica. Lees het zelf:
De publicaties van filosoof etc. Patrick Suppes, altijd waardevol, zijn lastig te vinden; zijn corpus is afgeschermd voor Stanfordianen, maar zie bijv. van 1976-1980: /2suppescorpusd9.sites.stanford.edu/sites/g/files/…
suppescorpusd9.sites.stanford.edu/bibliography/1…
Ontbrekende aandacht voor meetfouten in natuurkundige publicaties (lesmethoden dus ook) wekt de indruk dat het hier om exacte wetenschap gaat, als zou het wiskunde zijn. Nancy Cartwright laat zien dat zoiets een misvatting is: (1993). 'How the laws of physics lie. Oxford UP /3
Read 12 tweets
Feb 4
Nadenkend over de geschiedenis van beoordelen in het onderwijs van de 20e eeuw kom ik op de volgende stelling:
De overgang van het eeuwenoude rangordenen op het moderne cijfergeven, 2e helft 19e eeuw (citaat uit Wilbrink 1997), leidde tot een andere selectieve cultuur. Image
Ging het bij het rangordenen om de strijd om de beste te zijn, beloond met een prijsboek (), bij het cijfergeven was het voortaan zaak niet tot de slechtsten te horen: 'onvoldoende' cijfers betekenden zittenblijven of afstromen.repository.ubn.ru.nl/handle/2066/26…
Maar dat cijfergeven is niet iets totaal anders dan het rangordenen () hè! Cijfergeven is nog steeds rangordenen, maar het is een vorm van gestandaardiseerd rangordenen, en tegelijk een sterkere kwantificering van (verschillen in) prestaties.press.princeton.edu/books/hardcove…
Read 35 tweets
Nov 18, 2023
Toetsresultaten scheiden in 'onvoldoende' en 'voldoende' resultaten.
'Is absoluut noodzakelijk' is natuurlijk te verdedigen: meteen 'onvoldoendes' en 'zittenblijven' afschaffen leidt tot chaos.
Maar het bredere perspectief is anders. Zouden we het beoordelen in onderwijs opnieuw mogen ontwerpen, is het werken met cesuren dan optimaal?
'Dat spreekt vanzelf' ligt erg voor de hand. Ik heb mij bij herhaling en over meerdere decennia schuldig gemaakt aan deze stilzwijgende vooronderstelling.
Maar de juistheid van die vooronderstelling moet echt worden onderzocht. Ik heb daarin gefaald, hoewel vaak op het randje.
Read 31 tweets
Sep 29, 2023
Inzicht van de dag.

Een belangrijke bron van ongelijkheid in het onderwijs zelf zijn de talrijke toetsen en tests.

Dat zit zo. Een toets maken is een gelegenheid bij uitstek om kennis te consolideren. En dat werkt alleen wanneer de opdrachten ook maakbaar zijn: makkelijk.
Bij de heersende toetsideologie van niet alleen leraren zelf, maar vooral van leveranciers zoals het Cito, zijn toetsvragen vooral MOEILIJK. In die visie zijn toetsvragen ideaal die de helft van de leerlingen goed kunnen maken.

De hel op aarde, voor te veel leerlingen.
Sorry, mijn vingers schoten even uit over het toetsenbord.

Wat neemt een leerling mee van toetsen/toetsvragen die te moeilijk zijn? Op zijn best helemaal niks, zonde van de tijd. Dat mag eens een keer gebeuren, maar wanneer dit stelselmatig is, groeien leerlingen uit elkaar.
Read 13 tweets
Sep 11, 2023
Wat test een eindtoets basisonderwijs?
Jammer dat er maar 4 alternatieven zijn. Ik kom er dinsdag natuurlijk inhoudelijk op terug.
Na 125 deelnemers tekent zich een interessante verdeling af. Ik moet me maar eens gaan voorbereiden op een snuggere duiding van een en ander. Ga ondertussen door met beantwoorden van deze eenvoudige eindtoetsvraag. (Het is niet gezegd dat er maar één antwoord goed is ... )
Read 68 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(