Toetstechnische Begrippenlijst
Dit is de geactualiseerde toetstechnische begrippenlijst van Stichting Cito (2022)
Ga snel naar:
Engels: 21st century skills
21e-eeuwse vaardigheden zijn vaardigheden die in de huidige maatschappij van belang zijn
om goed te kunnen deelnemen aan de samenleving. Denk aan kritisch denken,
probleemoplossend vermogen en mediawijsheid. Deze vaardigheden zijn een aanvulling op de basisvaardigheden.
zie bijvoorbeeld informatie van het SLO en kennisnet: 21st eeuwse vaardigheden
Engels: a-parameter
De \( A \)-parameter is een parameter uit het 1-parameter logistisch model ( OPLM ). Binnen dit model geeft de \(A\)-waarde het discriminerend (onderscheidend) vermogen van een item weer. Hoe hoger het onderscheidend vermogen, hoe beter het item onderscheid maakt tussen lage en hoge vaardigheidsniveaus. In de praktijk worden de \(A\)-waarden relatief - d.w.z tussen de items onderling - bekeken: hoe hoger de \(A\)-waarde van een bepaald item, hoe hoger het onderscheidend vermogen ten opzichte van de andere items. Zie verder itemresponstheorie
Engels: \(a\)-value
De \(a\)-waarde - ook wel aangeduid met afleiderwaarde - is de proportie kandidaten die, of het percentage kandidaten dat, bij een meerkeuzevraag de desbetreffende afleider als antwoord koos.
Engels: completion question
Een aanvulvraag is een open vraag waarbij de kandidaat een onvolledige zin, berekening of tekening moet afmaken. (zie ook vraagtype)
Engels: abiturient
Een abituriënt is iemand die een bepaalde opleiding heeft voltooid. Dat wil zeggen iemand die het examen met goed gevolg heeft afgelegd en dus de opleiding verlaten heeft.
Engels: absolute frequency
Zie frequentie
Engels: criterion referenced assessment
Absolute normen zijn standaarden waaraan de vaardigheidsniveaus van leerlingen gerelateerd kunnen worden. Deze standaarden worden
vastgesteld op basis van inhoudelijke en/of toetsspecifieke criteria. Een voorbeeld van een absolute norm is "50% goed of meer is geslaagd".
Een meer systematische normeringsmethode om absolute normen vast te stellen zijn de zogenaamde standaarsettingsprocedures,
waarbij aan experts wordt gevraagd welke toetscores represenatief zijn voor
verschillende vaardigheidsniveaus.
zie ook normen, relatief normen , en normeren
Engels: adaptive test
Bij een adaptieve toets wordt de toets optimaal afgestemd op de individuele kenmerken van de leerling. Een toets kan op verschillende manieren adaptief zijn. De meest voorkomende vorm van adaptiviteit is in moeilijkheid. Bij deze vorm van adaptieve toetsing selecteert de computer items met een moeilijkheid die zoveel mogelijk past bij de geschatte vaardigheid van de leerling op dat moment. Elke keer als de leerlingeen nieuwe vraag heeft beantwoord, stelt de computer de geschatte vaardigheid bij op basis van het antwoord en kiest dan een nieuwe item. Gedurende toets kan de computer dus steeds beter de moeilijkheid afstemmen op de vragen. Hiermee voorkom je dat leerlingen vragen krijgen voorgelegd die of veel te moeilijk zijn of veel te makkelijke. Zulke vragen bieden weinig (statistische) informatie over de vaardigheid en werken misschien alleen maar demotiverend. Door de moeilijkheid zo goed mogelijk op de individuele leerling af te stemmen kan men op een zo efficent mogelijk manier de vaardigheid in beeld brengen. Er zijn verschillende methoden om adaptiviteit in moeilijheid te realizeren:
Naast adaptiviteit in moeilijkheid zijn er ook andere vormen van adaptiviteit denkbaar. Zo kan men denken
aan adaptiviteit in presentatie of adaptiviteit in vraagvorm.
Zie:
Wat is er adaptief aan een adaptieve toets?
affectieve- onderwijsdoelstellingen
Engels: affective education objectives
Affectieve onderwijsdoelstellingen zijn de categorie onderwijsdoelstellingen die gericht zijn op de emotionele vorming.
Zie verder: onderwijsdoelstellingen
Engels: distractor
Een afleider is een bij een meerkeuzevraag behorend fout antwoord of een antwoord dat niet het beste is.
Engels: distractor value
zie a-waarde
Engels: to round
Afronden is het terugbrengen van het aantal cijfers achter de komma van een getal.
Engels: deduction points
Aftrekpunten zijn de punten die volgens het scoringsvoorschrift afgetrokken moeten worden voor een bepaald soort fouten, omissies en/of tekortkomingen.
Engels: alpha
alpha is de generieke naam voor twee veelgebruikte statistische grootheden:
Engels: alpha-rest
Alpha-rest is de betrouwbaarheid van een toets, uitgedrukt met coefficient alpha , waarbij één item buiten beschouwing wordt gelaten. Alpha-rest wordt gebruikt om de invloed van een item op de betrouwbaarheid te onderzoeken. Items waarvoor alpha-rest kleiner is dan alpha-totaal dragen niet op een positieve manier bij aan de betrouwbaarheid en zijn kandidaat om uit de toets verwijdert te worden. Voordat een item verwijderd wordt dient eerst een inhoudelijke analyse plaats te vinden.
Engels: response alternative
Een alternatief is een van de antwoordmogelijkheden bij een meerkeuzevraag.
Engels: anchor
Een anker is een verzameling van items die in twee of meer toetsen wordt opgenomen om verschillen in de moeilijkheidsgraad tussen de betreffende toetsen vast te kunnen stellen. Deze informatie wordt gebruikt om equivalente scores vast te stellen (zie equivaleren) en voor normhandhaving .
Engels: answer sheet
Een antwoordblad is een formulier waarop de kandidaten hun antwoorden op de hun voorgelegde opgaven geven.
Engels: answer sheet
zie antwoordblad
Engels: correction model
Een antwoordmodel is een opsomming van goede, soms van minder goede en foute antwoorden bij open vragen,
bedoeld als richtlijn voor de beoordelaar. Het antwoordmodel is een onderdeel
van het correctievoorschrift .
Zie verder: beoordelingsschema.
Engels: answer restrictions
Antwoordrestricties zijn richtlijnen/eisen die toegevoegd kunnen worden aan de vraagstelling met betrekking tot de:
Engels: anwer key
zie correctiesleutel
Engels: automatic essay scoring
Een techniek waarbij essay vragen automatisch worden gescoord met de computer door gebruik te maken van kunstmatige intelligentie.
Engels: automated item generation
Een methode waarmee automatisch items worden geconstrueerd op basis van psychometrische, theoretische en inhoudelijke kenmerken.
Engels: basic skills
Vaardigheden die aan het onderwijs ten grondslag liggen en nodig zijn om deel het dagelijks leven zelfstandig vorm te geven. Denk aan Nederlands lezen en schrijven, en rekenen.
Engels: Bayesian statistics
Bayesiaanse statistiek is een discipline binnen de moderne statistiek gebaseerd op de stelling van Bayes. Met behulp van Bayesiaanse
statistiek worden uitspraken gedaan over, bijvoorbeeld, de vaardigheid van een leerling door een combinatie van vooraf geformuleerde veronderstellingen (priors)
en steekproefgegevens (data). Naarmate er meer data beschikbaar zijn of komen, worden de vooronderstellingen minder belangrijk.
De tegenhanger van Bayesiaanse statistiek is de frequentistische statistiek.
\(b\)-parameter (beta-parameter)
Engels: \(b\) parameter (beta parameter)
De \(b\)-parameter verwijst over het algemeen naar de parameter in itemresponsmodellen ( Rasch model , OPLM , birnbaum model) die betrekking heeft op de moeilijkheidsgraad van een item. Vaak wordt de voor de \(b\)-parameter de Griekse letter \(\beta\) gebruikt. Heel soms wordt de moeilijkheidsgraag ook aangeduid met \(\delta\). Zie verder: itemresponstheorie.
Engels: understanding validity
Begripsvaliditeit is de eigenschap die een toets heeft als kan worden aangetoond dat de toets het door de constructeur beoogde kenmerk van de leerling (onderliggende trek, vaardigheid) adequaat meet. zie ook validiteit
Engels: rater reliability
beoordelaarsbetrouwbaarheid is de mate waarin verschillende beoordelaars tot dezelfde relatieve beoordeling komen van het werk van leerlingen. Een hoge betrouwbbaarheid beteknt dat verschillende beoordeleraars het met elkaar eens over hoe de leerlingen ten opzichte van elkaar gepresteerd hebben. Men spreekt in dit verband ook wel van consistentie in de beoordelingen. Een hoge betrouwbaarheid garandeert niet dat de beoorelaars tot dezelfde beoordeling komen. Om dat laatste te onderzoeken kijkt men naar de beoordelaarsovereenstemming .
Engels: reviewer effect
Beoordelaarseffecten zijn onbedoelde factoren die de beoordelaars beinvloeden en waardoor de beoordelingen vertekend kunnen raken. De beoordelaar is zich meestal niet bewust van deze effecten. Enkele veel voorkomende beoordelaarseffecten zijn:
Engels: rater instructions
Beoordelaarsinstructies zijn algemene richtlijnen, die beoordelaars gegeven worden, over de wijze waarop de prestaties van de leerlingen beoordeeld moeten worden. Beoordelaarsinstructies moeten het optreden van beoordelaarseffecten tegengaan. De beoordelaarsinstructies zijn een onderdeel van het correctievoorschrift .correctievoorschrift. De beoordelaarsinstructies hebben betrekking op zaken als: wijze van beoordelen/nakijken, bijvoorbeeld: nakijken per opgave in plaats van per toets; richtlijnen voor de eerste en tweede corrector, bijvoorbeeld: geen aantekeningen maken op het werk van de kandidaat.
Engels: inter-rater agreement
Beoordelaarsovereenstemming is de mate waarin verschillende beoordelaars tot identieke beoordelingen komen van (bijvoorbeeld) het werk van leerlingen. Twee veel gebruikte maten voor beoordelaarsovereenstemming zijn het percentage overeenstemming tussen twee beoordelaars en Cohen's Kappa.
Engels: to judge
Beoordelen is het toekennen van een waardering aan een geleverde prestatie. Deze waardering kan uitgedrukt worden in een cijfer of in een verbale kwalificatie. Men kan bij de beoordeling al of niet gebruik maken van een beoordelingsinstrument (zie bijvoorbeeld rubric ).
Engels: rating criterion
Een beoordelingscriterium is een kenmerk waarop de prestaties van een leerling beoordeeld worden. Onder beoordelingscriterium kan men tevens een maatstaf worden verstaan, dat wil zeggen een indicatie van wat leerlingen zouden moeten kunnen of kennen, bijvoorbeeld: minimaal aantal typaanslagen per minuut op een typeexamen.
Engels: assessment tool
De term beoordelingsinstrument komt voor in twee verschillende betekenissen. Beoordelingsinstrument in de betekenis van toets, zie verder: toets. Een beoordelingsinstrument is een lijst met beoordelingscriteria waarmee prestaties van leerlingen door beoordelaars geobserveerd en opgetekend worden, met als oogmerk deze te waarderen. Zie verder: beoordelingsschaal
Engels: assessment method
Een beoordelingsmethode is een systematische wijze van waarderen van gedrag. Voorbeelden van beoordelingsmethoden zijn, leerverslag, observatie, het afnemen van een toets.
Engels: rating scale
Een beoordelingsschaal is een instrument waarmee kan worden aangegeven
in welke mate kennis, vaardigheden of houdingen bij een leerling aanwezig zijn, of om de kwaliteit
van het geleverde product (verslag, werkstuk, praktijkopdracht) te beoordelen. De schaal bestaat uit meerdere punten
die een bepaalde positie of rangorde aangeven. Beoordelingschalen kunnen ook worden gebruikt voor zelfrapportages, bijvoorbeeld om
sociaal welbevinden bij leerlingen te meten.
zie Likert-schaal
Engels: review schedule
Een beoordelingsschema is een schema dat dient als richtlijn bij de beoordeling van antwoorden op opgaven waarbij geen eenduidig antwoordmodel op te stellen is. In het beoordelingsschema worden criteria vermeld aan de hand waarvan het antwoord/de antwoorden beoordeeld dient/dienen te worden. Deze criteria kunnen zowel op de inhoud als op de structuur van het antwoord betrekking hebben.
Engels: rating system
Een beoordelingssysteem is een samenhangend geheel van beoordelingsmethoden en/of beoordelingsprocedures.
zie: COTAN beoordelingssysteem , of RCEC
Engels: decision rules
Beslissingsregels zijn afspraken over de wijze waarop beslissingen genomen moeten worden.
Bij examens waarin elk vak afzonderlijk beoordeeld wordt, kunnen de volgende beslissingsregels gehanteerd worden:
Engels: reliability
De betrouwbaarheid is de mate waarin de toetsscores vrij zijn van toevallige meetfouten.
Bij een betrouwbare toets zul je (ongeveer) dezelfde scores
vinden zou je de toets opnieuw afnemen onder gelijke omstandigheden. De betrouwbaarheid wordt uitgedrukt
met een waarde tussen 0 (alleen maar meetfouten) en 1 (perfecte betrouwbaarheid). Over het algemeen worden betrouwbaarheden van
.80 als voldoende beschouwd, afhankelijk van het doel waarvoor de toets wordt ingezet.
De mate waarin de resultaten beinvloed worden door meetfouten kan worden geschat door berekening van een betrouwbaarheidscoëfficiënt. Er zijn verschillende
methoden om de betrouwbaarheid te schatten. Deze kan men grofweg opdelen in drie klassen.
Engels: reliability coefficient
maat voor de betrouwbaarheid
Engels: confidence interval
Een betrouwbaarheidsinterval is een interval van waarden waarvan men met een bepaalde zekerheid kan stellen dat het de waarde
van de populatieparameter omvat.
Indien bijvoorbeeld bij een representatieve steekproef van 100 kandidaten de p-waarde van een item 0,60 is,
dan loopt het bijbehorende 95% betrouwbaarheidsinterval van 0,48 tot 0,72. Men kan er 95% zeker van zijn (dus redelijk zeker) dat de ware - maar onbekende -
\(p\)-waarde in de populatie in dit interval ligt. Men loopt 5% risico dat een foutieve conclusie wordt getrokken.
bewijs-gerichte toetsconstructie
Engels: evidence-centered design
Methodische aanpak voor het ontwerpen van toetstaken waarbij de validiteit centraal staat. De kern van de methode vormt het
cognitief assessmentkader dat bestaat uit drie submodellen: het studentmodel, het bewijsmodel, en het taakmodel.
Engels: Birnbaum model
Engels: floor effect
Er is sprake van een bodemeffect als de toets relatief moeilijk is voor de leerlingen aan wie de toets wordt voorgelegd. De meeste leerlingen hebben dan een score die op of dicht bij de ondergrens ligt. De test is niet in staat individuele verschillen in lage vaardigheden zichtbaar te maken. Zie ook plafondeffect.
Engels: bonus points
Bonuspunten zijn extra punten die aan kandidaten kunnen of moeten worden toegekend.
Engels: c parameter
De \(c\)-parameter is de parameter uit de item repsonstheorie die betrekking heeft op het raden of gissen en daarom wel gisparameter genoemd wordt.
Engels: case test
Een casustoets is een toets waaraan één of meer casussen ten grondslag liggen waarover vragen worden gesteld.
Een casus, ook wel case of geval genoemd, is een op de praktijk gebaseerd probleem waaraan de vragen gekoppeld zijn,
al dan niet uitgebouwd met nieuwe informatie per vraag.
Zie verder: praktijktoets.
Engels: national exam
Het centraal examen is het gedeelte van het examen dat als zodanig in het examenprogramma is aangeduid. Het wordt gekenmerkt door landelijke standaardisering van gelijke of gelijkwaardige opgaven, gelijke of gelijkwaardige afnamecondities, en een centraal (landelijk) vastgestelde beoordelingsvoorschriften en normering. De centrale examens vormen samen met het schoolexamen de examenprogrammas in het voortgezet onderwijs.
Engels: certificate
Een certificaat is een document waarin staat vermeld dat een leerling heeft aangetoond een bepaald deel van een vak, leerstofgebied voldoende te beheersen.
Engels: certificate unit
Een certificaateenheid is een samenhangend en afgerond geheel van onderwijsdoelstellingen waarvoor een certificaat wordt uitgereikt.
Engels: cut-off score, pass-fail score
zie slaag/zakgrens
Engels: checklist
Observatie-instrument waarmee wordt aangegeven of een leerling bepaalde kennis, vaardigheden of gedrag/houdingen bezit, door middel van ja/nee (of wel/niet aanwezig, onvoldoende/voldoende) scoring.
zie ook beoordelen, rubric
Engels: grades
Cijfers zijn getallen die op gestandaardiseerde manier een bepaalde waardering voor een geleverde schoolprestatie uitdrukken. In het Nederlandse onderwijsstelsel worden de schoolprestaties op een cijferschaal van 1 t/m 10 uitgedrukt, hierbij hebben de cijfers de volgende betekenis: 1 = zeer slecht, 2 = slecht, 3 = gering, 4 = onvoldoende, 5 = bijna voldoende, 6 = voldoende, 7 = ruim voldoende, 8 = goed, 9 = zeer goed, 10 = uitmuntend.
Engels: civil impact
Het civiel effect is het recht verbonden aan het bezit van een diploma of getuigschrift.
Engels: classification schedule
Een classificatieschema is een ordening van onderwijsdoelstellingen volgens een bepaald indelingsprincipe. Het classificatieschema kan bijvoorbeeld een ordening zijn volgens vaardigheidsniveaus of denkoperaties. Als er sprake is van een hiërarchische ordening spreekt men van een taxonomie .
Engels: classification question
Een gesloten vraagvorm waarbij leerlingen elementen moeten classificeren naar eigenschappen.
Engels: cluster sample
Er is sprake van een clustersteekproef als de populatie eerst wordt ingedeeld in clusters
(e.g., klassen, scholen, teams)en daarna worden er aselect clusters getrokken en worden alle eenheden in het cluster onderzocht. Soms worden in een tweede stap ook nog at random eenheden uit het cluster getrokken
(tweetrapssteekproef).
zie ook steekproef
Engels: cluster question
Een clustervraag bestaat uit een aantal waar/onwaarvragen die op hetzelfde probleem of op dezelfde gegevens betrekking hebben.
Een voorbeeld:
Als je een magneet wilt hebben, dan kun je die vaak uit een toestel halen. Kun je uit de hieronder genoemde toestellen e
en permanente magneet halen: ja of nee?
Engels: coefficient alpha
Coefficient alpha - vaak aangeduid als Cronbach's alpa - is een (veelgebruikte) maat voor de betrouwbaarheid van een toets. De formule voor het berekenen van coëfficiënt alpha is: \[ \alpha = {J \over J-1} \left( 1 - {\sum_j \sigma_j^2 \over S^2_+} \right) \] hierin is \( J \) het aantal items, \( s^2_j \) de variantie van de scores op item \( j \), en \( S^2_+ \) de variantie van de somscore.
Opmerking: Coefficient alpha is feitelijk de ondergrens voor de betrouwbaarheid. Dit betkent dat de daadwerkelijke (onbekende) betrouwbaarheid van de toets tussen de waarde van alpha en 1 ligt. Alpha is dus een conservatieve schatting van de betrouwbaarheid.
zie ook lambda-2 .
Engels: cognitive assessment framework
Het cognitief-assessmentkader is een onderwijsmeetkundig model dat uit drie submodellen bestaat - het studentmodel, het taakmodel en het bewijsmodel - en zij vormen samen de centrale modellen in de bewijsgerichte toetsconstructie (evidence centered design (ECD)).
Engels: Cohen's d
Cohen's \(d\) is een gestandaardiseerde maat om het verschil tussen twee gemiddelden weer te geven. Voor de interpretatie worden de volgende richtlijnen gehanteerd:
cognitieve onderwijsdoelstellingen
Engels: cognitive education objectives
Cognitieve onderwijsdoelstellingen zijn onderwijsdoelstellingen die gericht zijn op de ontwikkeling van het verstandelijk functioneren, bijvoorbeeld via specificatie van de denkoperatie of van de cognitieve structuren.
zie leerdoelen
Engels: cognitive structure
Een cognitieve structuur is de inhoudelijke structuur van iemands kennis, dat wil zeggen van zijn 'mentale modellen van de werkelijkheid'. Kennis wordt hier opgevat in de ruime betekenis. Zij omvat het 'weten dat', ook wel declaratieve (soms: conceptuele) kennis genoemd (het statische aspect), en het 'weten hoe', ook wel procedurele kennis genoemd (het procesmatige aspect).
College voor Toetsen en Examens (CvTE)
Engels: NA
Het College voor Toetsen en Examens (CvTE) is een zelfstandig bestuursorgaan die verantwoordelijk is voor
de kwaliteit en het niveau van de centrale examens en toetsen voor het voortgezet onderwijs en het middelbaar
beroepsonderwijs (mbo) in Nederland. Ook zorgen zij ervoor dat scholen en instellingen de centrale examens
en toetsen op een goede manier kunnen afnemen.
zie CvTE (officiele pagina)
Engels: combination question
Een combinatievraag is een gesloten vraag waarbij de kandidaat de juiste combinatie(s) moet maken uit twee gegeven groepen elementen.
Engels: common sense questions
Common sense vragen zijn vragen die de doelgroep door logisch redeneren of algemeen aanwezige kennis kan beantwoorden en die als zodanig geen specifieke kennis meten.
Engels: competence
De professionele kennis, vaardigheden en gedrag/attitudes die nodig zijn om een bepaald beroep goed uit te kunnen oefenen worden competenties genoemd.
computer gebaseerd toetsen (CBT)
Engels: computer based testing
Toetsing waarbij de afname met een computer plaatsvindt.
Engels: construction validity
zie validiteit
Engels: contamination effect
Engels: context dependent question
Een context-afhankelijke vraag is een vraag die beantwoord moet worden met behulp van gegevens (een plaatje, grafiek, tabel of tekst) die niet in de vraagformulering zijn opgenomen.
Engels: correction for attenuation
De correctie voor attenuatie is een correctie van een gestandaardiseerd effect (bijv. correlatie, Cohen's \(d\))
voor de onbetrouwbaarheid van de gemeten variabelen die in het effect betrokken zijn.
De meest bekende en meest gebruikte correctie voor attenuatie is die voor de correlatie. Door deze correctie aan te brengen
is het mogelijk om in te schatten hoe groot de correlatie tussen twee variabelen zou zijn als het mogelijk was beide variabelen
perfect betrouwbaar te meten. De formule voor het berekenen van de gecorrigeerde correlatie voor attenuatie is
\[ {r'}_{XY} = { r_{XY} \over r_{XX'} \times r_{YY'} } \]
hierin is \( {r'}_{XY} \) de gecorrigeerde correlatie, \(r_{XY} \) de oorspronkelijke correlatie,
\( r_{XX'} \) de geschatte betrouwbaarheid voor toets \(X\), en
\(r_{XX'}\) de betrouwbaarheid voor toets \(Y\).
Toelichting. De voor attenuatie gecorrigeerde correlatie dient met enige terughoudendheid geinterpreteerd te worden. Het is in feite een voorspelling van de correlatie in het ideale geval er geen meetfouten zijn. Daarnaast dient men rekening te houden met het feit dat de gebruikte schattingen van de betrouwbaarheid vaak een onderschatting zijn (zie coefficient alpha). Dit betekent dat de betrouwbaarheid te laag is ingeschat, en de correctie een te optimistisch beeld geeft van de sterkte van de samenhang. Het kan zelfs voorkomen dat de gecorrigeerde correlatie boven 1 uitkomt.
Engels: correction for guessing
Een correctie voor raden is een correctie van de individuele toetsscores of slaag/zakgrens bij een meerkeuzetoetsen
om de invloed van raden te verdisconteren.
Voor gokken gecorrigeerde toetsscores. Een formule voor het berekenen van de voor raden gecorrigeerde score bij meerkeuzetoetsen is:
\[ X'= X - {F \over (a-1)} \]
hierin is \(X'\) de voor gokken gecorrigeerde score, X de oorspronkelijke score, \(F\) het aantal foute antwoorden, en \( a \) het
aantal antwoordalteranswer
Met behulp van deze formule wordt op grond van het aantal foute antwoorden geschat hoeveel goede antwoorden het gevolg zijn van raden. De
formule gaat ervan uit dat alle foute antwoorden door puur te gissen tot stand zijn gekomen. Dit is een erg strenge, en in de meeste
gevallen onrealistische aanname, waardoor de correctie moeilijk verdedigbaar is.
Voor gokken gecorrigeerde slaag-zakgrens. Soms wordt bij het vaststellen van de slaag-zakgrens rekening gehouden met gokgedrag. Men kijkt dan naar de verwachte score die een leerling zou halen zou hij/zij alles gokken. Deze verwachte score wordt van het totaal aantal te behalen punten afgehaald, en op de overige punten worden een cesuur bepaald (e.g., 55% goed is geslaagd). Stel een toets bestaat uit 12 vier-keuze items en men wil de cesuur leggen bij 55% ware kennis. Een leerling die alles gokt haalt naar verwachting drie punten. Er blijven 9 punten over, waarvan men 55% moet halen, dan zijn 5 punten. De cesuur komt dan op 3 + 5 = 8 punten of meer is geslaagd te liggen. Ook dit is een relatief strenge correctie en dient met weloverwogen toegepast te worden. Indien mogelijk is het beter om het aantal vragen groot genoeg te maken zodat de kans op slagen door puur gokken zo klein mogelijk wordt gemaakt.
Engels: correction model
Engels: answer key
Een correctiesleutel-soms ook wel antwoordsleutel genoemd - is een lijst van de goed te rekenen antwoorden bij meerkeuzetoets.
Engels: NA
Een correctievoorschrift is een bij een open vraag behorende lijst met richtlijnen voor beoordelaars. Het correctievoorschrift bestaat uit een antwoordmodel, een scoringsvoorschrift, en een beoordelaarsinstructie.
Engels: correlation
De correlatie verwijst naar de samenhang tussen twee variabelen. De mate van samenhang wordt uitgedrukt in een getal tussen -1 (perfecte
negatieve samenhang) en 1 (perfecte positieve samenhang). Als er geen samenhang is, dan is de correlatie gelijk aan 0 (nul).
Wanneer men spreekt over 'de correlatie' dan verwijst men doorgaans naar de product-moment (pm) correlatie, ook wel Pearson's correlatie genoemd.
Deze maat geeft aan hoe sterk twee variabelen een rechtlijnig verband vertonen. Indien de pm-correlatie in de steekproef gelijk is aan 0
dan is er geen lineaire samenhang, maar mogelijk is er wel een niet-lineaire samenhang. Daarom wordt aangeraden om de samenhang ook altijd visueel te
onderzoeken met behulp van puntenwolken (scatter plots).
Een andere praktische maat voor de samenhang is Spearman's \(\rho\) (spreek uit: ro) coefficient.
Die geeft aan in hoeverre twee variabelen volgordelijk samenhangen. Men spreekt in dat geval van ordinale samenhang.
Engels: correlation coefficient
zie correlatie
Engels: Dutch Committee of Testing
De COTAN (= Commissie Testaangelegenheden Nederland) is een commissie van het Nederlands Instituut van Psychologen (NIP)
met als doel het bevorderen van de kwaliteit van toetsen en toetsgebruik in Nederland
zie NIP - COTAN
Engels: COTAN test assessment framework
Het COTAN-beoordelingssysteem is een instrument waarmee de kwaliteit van toetsen en tests kan worden geevalueerd. Naast de COTAN
biedt ook het RCEC een beoordelingskader aan die specifiek is ontwikkeld voor onderwijskundige meetinstrumenten.
Deze is aan te vragen bij het RCEC.
COTAN beoordelingssysteem
Engels: criterion variable
Een criteriumvariabele is een waarneembare gedragsvorm die men met behulp van een meetinstrument wil voorspellen (bijvoorbeeld studiesucces, door middel van een toets voor studievaardigheid). Zie verder: predictieve validiteit .
Engels: Cronbach's alpha
zie coefficient alpha .
Engels: cumulative percentage
Een cumulatief percentage is een bij een toetsscore behorend getal dat aangeeft hoeveel procent van de kandidaten de genoemde toetsscore of een lagere heeft behaald. Zie verder: frequentietabel .
Engels: cumulative frequency
De cumulatieve frequentie is een bij een toetsscore behorend getal dat aangeeft hoeveel kandidaten de genoemde toetsscore of een lagere hebben behaald. Zie verder: frequentietabel .
Engels: curriculum
Curriculum is een ander woord voor leerplan en beschrijft de inhoud en doelen van het aan te bieden onderwijs. De in het curriculum beschreven kerndoelen en eindtermen vormen de basis voor hetgeen getoetst wordt binnen het onderwijs.
Engels: decile scale
De decielschaal is een schaal met waarden 1 t/m 10. Elke schaalwaarde representeert 10% van de populatie. Wanneer een leerling op een toets een decielscore heeft van 7, dan scoort 70% van de populatie lager, en 20% van de populatie hoger. De decielschaal is een voorbeeld van een standaardscore
Engels: subtest
zie subtoets
Engels: subquestion
Een deelvraag is een zelfstandig onderdeel van een meervoudige vraag .
Engels: diagnostic test
Een diagnostische toets is een onderzoek om te achterhalen wat leerlingen wel en niet kennen, en wat hun sterke en zwakke punten zijn op verschillende (deel)vaardigheden. Diagnostische toetsen hebben als doel hebben inzicht te krijgen in het leerproces en dit waar nodig bij te sturen. Diagnostische toetsen behoren tot het domein van formatief handelen .
Engels: dichotome scoring
Dichotome scoring is een wijze van scoren
(punten toekennen) waarbij slechts twee waarderingen van het antwoord worden onderscheiden: bijvoorbeeld 'goed' of 'fout'.
Het is gebruikelijk om meerkeuzevragen dichotoom te scoren (0 = fout, 1 = correct).
Toelichting: In de praktijk wordt een verschil gemaakt tussen dichotome variabelen - dat zijn kenmerken waarbij maar twee uitkomsten mogelijk zijn zoals bijvoorbeeld geslacht - en dichotoom gescoorde variabelen, waarbij de variabele zelf meerdere uitkomsten kan hebben, maar aan de uikomsten worden slechts twee verschillende waarden toegekend. Dit is bijvoorbeeld het geval bij meerkeuzevragen: de leerling kan (bijvoorbeeld) kiezen uit 4 alternatieven, waarvan een juist is (1 punt) en de anderen onjuist (0 punten).
didactische leeftijdsequivalent (DLE)
Engels: didactische leeftijdsequivalent (DLE)
De didactische leeftijdsequivalent (DLE) is een maat voor leervorderingen. Een DLE geeft aan welke leervorderingen een leerling gemiddeld
in een maand onderwijs doormaakt. Wenneer een leerling een DLE heeft van 5 dan komen de schoolprestaties van deze leerling overeen
met leerlingen die gemiddeld genomen vijf maanden onderwijs hebben gehad.
De DLE wordt gebruikt om leerachterstanden in kaart te brengen. Elk onderwijsjaar kent 10 maanden. Men begint te tellen vanaf groep 3.
Een nominale leerling heeft aan het einde van groep 4 een didactische leeftijd van 20. Zou een leerling aan het einde van groep 4 een DLE
hebben van 16, dan komen zijn leervorderingen overeen met wat leerlingen gemiddeld genomen na 16 maanden onderwijs realiseren en is er sprake
van een achterstand van 4 DLEs (vier onderwijsmaanden).
Engels: diploma
Een diploma is een document waarin staat vermeld dat iemand in de door het examenprogramma voorgeschreven vakken c.q. onderdelen of exameneenheden met een voldoende resultaat heeft afgerond.
Engels: discrimination index
De discriminatie-index is een maat voor het discriminerend vermogen van een item. In het algemeen wordt de discriminatie-index uitgedrukt in de correlatie tussen de scores op het item en de scores op de hele toets.
Engels: discrimination power
Het discrimineren vermogen van een item geeft de mate aan waarin op grond van de scores op dat item hoog- en laagscorende leerlingen (op de hele toets) onderscheiden kunnen worden.
Engels: domain-oriented interpretation
Domeingerichte interpretatie is het betekenis geven aan een toetsresultaat in termen van kennis en vaardigheden die zijn gedefinieerd bij een bepaald leerstofdomein.
Engels: NA
De doorstroomtoets wordt in 2023 de vervanger van de eindtoets primair onderwijs.
Deze toets wordt door alle leerlingen in groep 8 van het primair onderwijs (PO) gemaakt en dient als tweede objectieve gegeven voor plaatsing
in het voortgezet onderwijs naast het schooladvies. Indien het advies op de doorstroomtoets hoger uitvalt dan het schooladvies, dan dient
de school het advies te heroverwegen en eventueel naar boven bij te stellen.
zie
Engels: dynamic testing
Dynamische toetsen is een vorm van toetsing waarbij tussen de verschillende fases van de toetsing hulp of instructies worden gegeven. Het doel van dynamische toetsing is om niet alleen te onderzoeken wat een leerling kan, maar vooral ook wat een leerling kan met een beetje hulp, ook wel de zone van naaste ontwikkeling genoemd. Bij dynamische toetsing vindt er interactie plaats tussen de leerling en de toets(leider). De tegenhanger van dynamisch toetsen is statistisch toetsen, waarbij de afname volgens vaste statische procedures verloopt.
Engels: effect size
Effectgroottes zijn statistische maten om de grootte van een effect - bijvoorbeeld het verschil in de gemiddelde rekenprestaties tussen jongens en meisjes - weer te geven. Er wordt een onderscheid gemaakt tussen ongestandaardiseerde (ruwe) effectgroottes en gestandaardiseerde effectgroottes. De bekendste gestaandaardiseerde effectmaat is Cohen's \(d\). Deze maat geeft het verschil tussen twee gemiddelden in aantal standaarddeviaties. Ook de correlatie kan worden gezien als een gestandaardiseerde maat voor de effectgrootte.
Engels: final evaluation
Afsluitende beoordeling van een min of meer afgerond stuk leerstof of onderdeel in de opleiding (bijv. eindevaluatie van een stage).
Engels: final terms
Eindtermen beschrijven voor de vakken in de bovenbouw in het vo het geheel van kennis, vaardigheden en attituden/gedrag die een leerling
moet beheersen om het vak met succes af te kunnen ronden en waarover in de schoolexamens en eindexamens getoets wordt.
zie ook kerndoelen en referentieniveaus .
Engels: end of primary school test
Een toets die alle leerlingen aan het einde van het primair onderwijs in Nederland maken.
De eindtoets geeft een advies voor het meest passende vervolgonderwijs voor de leerling op basis van de getoonde vaardigheid.
Dit toetsadvies dient als aanvullend gegeven op het schooladvies. Wanneer het toetsadvies hoger uitvalt dan het schoooladvies,
dan moet de school het advies heroverwegen.
Scholen kunnen kiezen tussen een aantal toegestane eindtoetsen van verschillende commerciele aanbieders of de centrale eindtoets van
het CvTE. Vanaf 2023-2024 is de eindtoets vervangen door de doorstroomtoets .
Engels: empiric items response scurves
Geschatte verband tussen de vaardigheid en de kans op een goed antwoord (dichotome items), of de kans dat een bepaald antwoord
wordt gekozen of een bepaalde hoeveel punten worden toegekend (polytome items).
zie itemresponstheorie
Engels: single question
Een enkelvoudige vraag is een vraag die, in tegenstelling tot een meervoudige vraag, niet gesplitst is in deelvragen en die één enkel antwoord vereist.
Engels: equating
zie equivaleren.
Engels: equating
Equivaleren is een statistische procedure om voor elke score op een bepaald examen een score te vinden op een ander examen
die dezelfde vaardigheidsniveau representeert. Voorbeeld: stel er zijn twee examens A en B, elk met 40 goed-fout vragen,
maar examen A is moeilijker dan B, dan kan de equivaleringsmethode laten zien dat een score van 20 op examen A
een gelijkwaardige vaardigheid weergeeft als een score van 24 op examen B. Een score van 20 op examen A is equivalent met een score van 24
op examen B.
Equivaleringsmethoden worden bijvoorbeeld gebruikt om de slaag-zakgrens
van het ene examen over te brengen naar het ander examen. Dit zorgt ervoor dat bij beide examens dezelfde norm voor zakken of slagen wordt
wordt gehanteerd (zie normhandhaving).
zie Toetsspecial Equivaleren .
Engels: essay type question
zie opstelvraag
Engels: evaluation
Evaluatie is een systematische activiteit voor het verkrijgen van zo objectief mogelijke informatie, op grond waarvan uitspraken over de waarde van het evaluatie-object (een toets, een leerling, een leerplan of gedeelte daarvan, een onderwijsmethode, enz.) worden gedaan en waarover eventueel beslissingen kunnen worden genomen.
Engels: exam
Een examen is een door een daartoe bevoegde instantie ingesteld onderzoek naar kennis, vaardigheden, houding/gedrag van een kandidaat, die over een samenhangend geheel van leergebieden, aan de hand van hem verstrekte opdrachten een aantal prestaties moet leveren, op grond waarvan hem met inachtneming van bepaalde prestatie-eisen en beslissingsregels een bewijs kan worden uitgereikt waaraan bepaalde rechten of bevoegdheden kunnen worden ontleend.
Engels:
Een examenbesluit is een Koninklijk besluit waarin de overheid aanwijzingen geeft voor de inrichting en regeling van het examen voor een bepaald onderwijstype. Het kan onder meer bevatten: de indeling van het examen in centraal examen en schoolbeoordeling, aanwijzingen voor de instelling van de noodzakelijke examencommissies, de gang van zaken bij het centraal examen en de taak van gecommitteerden. In het algemeen bevat het examenbesluit aanwijzingen voor de structurele opbouw van het examenprogramma. Het examenprogramma zelf heeft in het algemeen de status van ministeriële beschikking. De looptijd van het examenprogramma is in het algemeen korter dan die van het Besluit. Veelal wordt op schoolniveau verdere uitwerking gegeven aan het examenbesluit, soms onder de naam examenreglement.
Engels: exam part
Een afgebakend deel van een examen. Dit kan betrekking hebben verschillende vormen binnen examen. Zo kan een examen bijvoorbeeld bestaan uit een mondeling examen, een luistertoets, een praktijkopdracht, een schriftelijk examen. Vaak hebben de onderdelen betrekking op verschillende deelvaardigheden binnen een vak.
Engels: exam program
Een examenprogramma is een zo volledig mogelijke beschrijving van de eisen waaraan examenkandidaten moeten voldoen.
zie bijvorobeeld ook programma van toetsing en afsluiting (PTA) .
Engels: examination regulations
Een examenreglement is een document waarin de school de gang van zaken bij het examen regelt. Het bevat onder meer de organisatie, gedragsregels voor kandidaat en examinator, herkansingsregeling, aanwijzingen voor gedrag bij ziekte en fraude, aanwijzingen voor de regeling van de schoolbeoordeling zoals het examenrooster, wijze van afname en het eventuele wegingssysteem van de cijfers.
Engels: face validity
Engels: feedback
Feedback is een terugkoppeling op iemands presteren. Effectieve feedback geeft leerlingen inzicht hoe zij er voor staan, biedt aanknopingspunten voor het verder leren, en zet leerlingen aan het denken. Feedback wordt gezien als een van de krachtigste middelen voor effectief onderwijs.
Engels: formative test
Cyclisch proces waarbij steeds afwisselend wordt gekeken naar waar de leerling op het moment staat (bijvoorbeeld met een toets) en op basis daarvan gerichte activiteit worden ondernomen om dichterbij de leerdoelstellingen te komen.
Engels: formative test
Engels: formative test
Toetsing met als doel het leren te sturen, vaak onderdeel van een cyclyisch formatief handeling.
Zie formatief handelen , summatieve toetsing
Engels: formal evaluation
Proces van verzamelen en interpreteren van (leerling) gegevens, dat volgens een aantal van te voren vastgestelde regels en met behulp van gestandaardiseerde evaluatie-instrumenten verloopt.
Engels: error analysis
Een systematische inventariseren van de door leerlingen gemaakte fouten met het doel leerlingprestaties (individu of groep) en instructiemethoden te verbeteren en opgaven bij te stellen.
Engels: fraction
zie proportie
Engels: frequency
De (absolute) frequentie is een getal waarmee aangegeven wordt hoe vaak een score voorkomt. Bij een toetsscore
geeft dit getal aan hoeveel kandidaten die toetsscore hebben behaald.
De relatievefrequentie is de absolute frequentie gedeeld door het totale aantal kandidaten.
De relatieve frequentie wordt weergegeven als een proportie of een percentage.
Engels: frequency polygone
Een frequentiepolygoon is een grafische voorstelling van een frequentietabel, waarbij frequenties door stippen worden aangegeven die door rechte lijnen worden verbonden.
Engels: frequency table
Een frequentietabel is een lijst van alle verschillende antwoorden met daarbij het aantal kandidaten (leerlingen, studenten) die het antwoord gekozen heeft. Voor toetsscores is het gebruikelijk van laag naar hoog (of van hoog naar laag) te rangschikken. Een frequentietabel kan worden uitgebreid met een kolom met relatieve frequenties, een kolom met cumulatieve frequenties en met een kolom met cumulatieve percentages.
Engels: frequency distribution
De frequentieverdeling geeft aan hoe vaak waarnemingen voorkomen.
Voor continue variabelen geeft de frequentieverdeling aan hoeveel waarnemingen binnen
een bepaald interval (technisch: bin) vallen. Frequentieverdeling worden grafisch weergegeven
met een histogram of frequentiepolygoon.
Engels: game based assessment
Toetsing waaraan elementen uit game-design en speltechnologie zijn toegevoegd (bijvoorbeeld het halen levels, simulatieomgevingen).
Engels: Gauss distribution
Engels: average p-value
De gemiddelde \(p\)-waarde is het rekenkundig gemiddelde van een reeks \(p\)-waarden. Het beschrijft de gemiddelde
moeilijkheid van de vragen in de toets.
Let op! Wanneer de toets bestaat uit items waarvoor het aantal te behalen punten varieert dan dient men eerst per item de \(p\)-waarden te berekenen en daarna te middelen. De gemiddelde \(p\)-waarde x 100% geeft aan hoeveel procent van het maximaal aantal te behalen punten de leerlingen gemiddeld halen. Dit gemiddelde is niet hetzelfde als het gemiddelde percentage dat de leerlingen van het totaal aantal punten halen. Als men in het laatste geinteresseerd is dan dient men eerst de gemiddelde toetscore te berekenen en die dan te delen door het maximaal aantal te behalen punten.
Engels: average score
De gemiddelde score is het rekenkundig gemiddelde die wordt verkregen door
alle waarden bij elkaar op te tellen en te delen door het aantal scores.
De formule is als volgt:
\[ \bar{X} = { \sum X_j \over N }\]
Het gemiddelde is een van maten voor centrale tendentie (zie mediaan, modus).
generaliseerbaarheidscoefficient
Engels: generalizability coefficient
Een generaliseerbaarheidscoëfficiënt is een maat voor de betrouwbaarheid van
een toets waarin verschillende variantiebronnen verwerkt kunnen zijn.
Generaliseerbaarheidscoefficienten worden vaak gebruikt om de betrouwbaarheid van beoordelaars
te onderzoeken. Een variantiebron die vrijwel altijd in de coëfficiënt verwerkt is,
is de mate van overeenstemming tussen beoordelaars, zowel de inter- als de intrabeoordelaarsovereenstemming
Engels: closed question
Een gesloten vraag is een vraagtype waarbij de kandidaat moet kiezen uit een beperkt aantal antwoordmogelijkheden die vooraf gegeven zijn.
Engels: stratified sample
Bij een gestratificeerde steekproef wordt de populatie eerst in subgroepen (strata) verdeeld. Vervolgens worden uit elke strata naar verhouding aselect eenheden getrokken. Voorbeelden van strata zijn geslacht, regio, gewichtenleerlingen, etc.
Engels: certificate
Een getuigschrift is een bepaald document waarin is vermeld welke resultaten een leerling bij een examen heeft bereikt in welke vakken, volgens welke programma's en op welke niveaus. Een getuigschrift wordt uitgereikt aan iedere leerling die het examen heeft afgelegd, ongeacht de resultaten van dat examen.
Engels: case study
Diepgravend en gedetailleerd onderzoek naar een specifieke eenheid (leerling, klas, school) in een reële context (bijv. in een periode waarin een onderwijsvernieuwingen worden doorgevoerd).
Engels: weight
Het gewicht van een opgave geeft de bijdrage aan van die opgave/dat item tot de totaalscore. Hierbij wordt een onderscheid gemaakt tussen het nominale gewicht en effectief gewicht.
Engels: weighted test score
De gewogen toetscore is de totaalscore waarbij de opgaven in de optelsom een verschillend gewicht krijgen. De formule voor de gewogen somscore luidt: \[ \text{gewogen score} = \sum_j w_j X_j \] hierin is \(w_j\) het gewicht, en \(X_j\) het aantal behaalde punten op vraag \(j\). Wanneer alle opgaven hetzelfde gewicht hebben spreekt men van een of ongewogen score .
Engels: guessing
Het raden van het goede antwoord in een meerkeuzevraag.
Zie correctie voor raden en c-parameter
Engels: correct answer
Het goede antwoord is het antwoord ( kort-antwoordvraag) of alternatief ( meerkeuzevraag ) dat bij de scoring goed gerekend wordt.
Engels: greatest lower bound (GLB)
De greatest lower bound glb is een maat voor de betrouwbaarheid van toetsscores. De glb wordt berekend op basis van een enkele afname en valt daarmee in de klasse van interne consistentiematen zoals ook coefficient alpha en lambda-2 (zie interne consistentie). De glb is groter dan alpha en lambda-2, maar is nog steeds de ondergrens voor de de echte betrouwbaarheid. Dit betekent dat de daadwerkelijke betrouwbaarheid tussen de waarde van de glb en 1 ligt. De glb heeft als nadeel ten opzichte van alpha en lambda-2 dat grote steekproeven (> 1000) nodig zijn en speciale programma's.
Engels: halo effect
Men spreekt van een halo-effect als eigenschappen positiever worden ingeschat op
basis van andere eigenschappen waarover een positief beeld bestaat.
Voorbeeld: er is sprake van een halo-effect wanneer
de cognitieve vaardigheden van leerlingen hoger woorden ingeschat als zij over goede sociale vaardigheden beschikken.
Het fenomeen halo-effect werdt voor het eerst beschreven door Thorndike, die ontdekte dat wanneer mensen elkaar
beoordelen een negatieve perceptie van een bepaalde eigenschap de beoordelingen op alle andere eigenschappen kan verlagen.
halo-effecten worden ook wel aangeduid als het 'fysieke aantrekkelijkheid stereotype'.
Engels: reorder question
Een herordeningsvraag is een vraag waarin een aantal gegevens in een bepaalde volgorde moet worden gezet.
Voorbeeld:
In een kerncentrale wordt elektriciteit opgewekt. Hierbij worden een aantal stappen doorlopen:
Zet de stappen in de juiste volgorde.
Engels: high-stakes test
Toets waarop een belangrijk besluit wordt genomen en daarmee grote consequenties heeft voor leerlingen. Denk bijvoorbeeld aan de eindtoets primair onderwijs en de centrale examens in het voortgezet onderwijs.
Engels: histogram
Een histogram is een frequentietabel weergegeven in een grafiek. De frequenties zijn door kolommen weergegeven
Engels: homogenity
Het begrip 'homogeniteit' wordt in verschillende betekenissen gebruikt:
Engels: horizontal equivalent
Horizontaal equivaleren is het op één schaal brengen van de scores van twee ongeveer
even moeilijke toetsen die dezelfde vaardigheid meten, met de bedoeling bij beide toetsen gelijkwaardige normen te hanteren.
Bijvoorbeeld: het equivaleren van de examens in een bepaald vak in opeenvolgende jaren.
zie equivaleren, normhandhaving,
verticaal equivaleren .
Engels: hot spot question
Een vraagvorm waarbij de kandidaat antwoord moet geven door een bepaald gebied in een afbeelding aan te wijzen.
Engels: identification question
Een identificatievraag is een vraag waarbij van de kandidaat wordt gevraagd de in de stimulus gegeven informatie te vergelijken met eerder verworven of elders in de opgave (bijvoorbeeld in een tekst of tekening) aangeboden informatie. Vervolgens moet de kandidaat nagaan of, en in hoeverre, deze stimuli aan elkaar gelijk zijn.
Engels: calibrate
zie kalibreren
Engels: impression validity
Indruksvaliditeit is de mate waarin een toets volgens (bij voorkeur) experts
zal meten wat gemeten moet worden. Dit oordeel is niet ondersteund door (empirisch) onderzoek.
zie ook validiteit
Engels: content validity
Inhoudsvaliditeit van een toets is de eigenschap dat de opgaven een representatieve weergave vormen van
de te toetsen kennis of vaardigheid. Meestal bedoelt men de representativiteit qua leerstofgebied.
De inhoudsvaliditeit kan worden gewaarborgd door te werken met een toetsmatrijs .
zie ook validiteit
inter-beoordelaarsovereenstemming
Engels: inter-assessor agreement
De interbeoordelaarsovereenstemming geeft de mate van overeenstemming aan tussen beoordelingen van twee of meer beoordelaars,
die dezelfde werkstukken beoordeeld hebben.
zie ook beoordelaarsbetrouwbaarheid en beoordelaarsovereenstemming.
Engels: internal consistency
De interne consistentie van een toets geeft de mate aan waarin de opgaven binnen een toets onderling statistisch samenhangen. Dat wil zeggen dat
dat er een positieve correlatie is tussen de scores van de verschillende opgaven binnen een toets. De interne consistentie wordt
gebruikt om de betrouwbaarheid te onderzoeken. Twee veelgebruikte maten voor de betrouwbaarheid gebaseerd
op de interne consistentie zijn coefficient alpha en lambda-2 .
zie betrouwbaarheid
Engels: intersubjectivity
Intersubjectiviteit is het verschijnsel dat uitspraken van twee of meer beoordelaars (c.q. experts) over een subjectief kenmerk met elkaar overeenstemmen.
intra-beoordelaarsbetrouwbaarheid
Engels: intra-assessor agreement
De intra-beoordelaarsovereenstemming geeft de mate van overeenstemming aan tussen beoordelingen van een reeks personen of objecten op twee of meer verschillende tijdstippen door één beoordelaar.
intra-beoordelaarsovereenstemming
Engels: intra-assessor agreement
De intra- beoordelaarsovereenstemming geeft de mate van overeenstemming aan tussen twee of meer beoordelingen van eenzelfde beoordelaar die dezelfde werkstukken op verschillende momenten heeft beoordeeld.
Engels: full question
Een invulvraag is een open vraag waarbij de kandidaat een onvolledige zin, berekening of tekening moet completeren.
Engels: item
Een item is synoniem voor 'opgave' in een meerkeuzetoets.
Engels: item analysis
Onderzoek naar de psychometrische eigenschappen van de items/vragen in een toets, waaronder bijvoorbeeld de
moeilijkheidsgraad en discriminerend vermogen ).
zie toets-en-itemanalyse
Engels: item bias
Engels: item bank
Een itembank is een gestructureerde verzameling van items. De structuur kan zowel leerinhoudelijk als psychometrisch van aard zijn.
zie ook adaptieve toets
Engels: item calibration
Schatten (berekenen) van de psychometrische eigenschappen (parameters) van een verzameling items met het doel om deze items op dezelfde schaal te brengen.
Engels: item response function
Wiskundige functie waarmee het verband tussen vaardigheid en de kans op het goed antwoord wordt beschreven.
Zie verder: itemresponstheorie.
Engels: item response theory
Theorie binnen de testleer waarbij op het niveau van items op een wiskundige manier een relatie wordt gelegd tussen de antwoorden die leerlingen geven
en een onderliggende latente vaardigheid. Een IRT-model bestaat uit een aantal aannames. De meest gangbare item-responstheorie (IRT) modellen
gaan er vanuit dat je met de test een unidimensionele eigenschap meet en dat de items onafhankelijk van elkaar worden gemaakt (technisch jargon: lokale
onafhankelijkheid). De relatie tussen de latente vaardigheid en responses volgt een logistische functie die wordt beschreven met behulp
van een (Rasch-model) of meerdere parameters (e.g., Birnbaum-modellen).
Een van de eerste IRT modellen is het Rasch model model. Dit model gaat er vanuit dat de items
allemaal even goed discrimineren, maar verschillen in moeilijkheid.
IRT modellen hebben als voordeel dat zij gebruikt kunnen worden bij structureel incompleet designs ,
waarbij verschillende groepen leerlingen, verschillende sets van items maken. Deze eigenschap wordt bijvoorbeeld benut
voor het equivaleren van examens over jaren heen. Voorwaarde is dan wel dat het design 'gelinkt' is.
IRT modellen zijn ook de drijvende kracht achter adaptieve toetsen (CAT).
item-rest correlation
correlatie tussen het item en de totaalscore op alle andere items. De item-restcorrelatie is
een maat voor het discriminerend vermogen van item.
zie ook item-testcorrelatie
Engels: item score
Een itemscore (\(X\)) is het aantal punten dat een kandidaat op een item gescoord heeft.
Engels: item-test correlation (Rit)
correlatie tussen het item en de totaalscore op alle items. De item-testcorrelatie is
een maat voor het discriminerend vermogen van item. De
item-testcorrelatie valt hoger uit dan de item-restcorrelatie omdat hier de itemscore in de totaalscore van
een toets wordt meegeteld. Daarom wordt aangeraden om de item-restcorrelatie te gebruiken.
zie ook item-restcorrelatie
Engels: calibrate
Het schatten van de item paramaters op een gemeenschappelijke schaal.
Engels: knowledge
In de context van een toets wordt met kennis bedoeld datgene wat een persoon weet. In de taxonomie van Bloom of Romiszowski worden definities gegeven van kennis in een onderwijskundige context en hoe dit gemeten kan worden.
Engels: knowledge structure
zie cognitieve structuur
Engels: NA
Kerndoelen beschrijven de aanbodsdoelen in het primair onderwijs en onderbouw vo. Aanbodsdoelen betekent het gaat om inspanningsverplichtingen
door de scholen. Dat wil zeggen, de scholen moeten de onderwijsinhouden aanbieden maar hebben grote vrijheid in de mate van diepgaandheid.
zie Kerndoelen en eindtermen door SLO
zie ook eindtermen en referentieniveaus .
Engels: classical test theorie
De klassieke testtheorie is gebaseerd op een model waarbij men er vanuit gaat dat de waargenomen toetsscore (bijv. het aantal correct) uit twee componenten bestaat: (1) een ware score en (2) een toevallige meetfout . De meetfout is geheel toevallig en hangt daarom met geen enkele andere variabelen samen. Dit model wordt ook wel het klassieke testmodel genoemd. Alle eigenschappen die volgen uit dit model vormen gezamenlijk de klassieke testtheorie.
Engels: short answer question
Een kort-antwoordvraag is een open vraag waarbij de kandidaat het antwoord zelf moet formuleren door middel van een citaat (vermelding van eerste en laatste woord van een tekstfragment), een of enkele woorden, getallen of eenvoudige tekeningen.
Engels: KR-20
KR20 is een interne-consistentiemaat voor de betrouwbaarheid voor specifiek dichotome toetsscores. De formule is als volgt:
\[ r_{xx'} = {J \over J -1} \times \left( 1- { \sum_j p_j (1-p_j) \over S^2_X } \right) \]
hierin is \( r_{xx'} \) de geschatte betrouwbaarheid, \( S^2_X \) de variantie
van de totaal scores, en \(p_j\) de \(p\)-waarde van item \(j\).
Index KR20 is exact gelijk aan coefficient alpha, maar wordt op een andere manier berekend.
KR staat voor Kuder - Richardson, de bedenkers van deze index.
Engels: lambda-2
lambda-2 is een maat voor de betrouwbaarheid van toetsscores. lambda-2 wordt berekend op basis van een enkele afname en valt daarmee in de klasse van interne consistentiematen. lambda-2 is groter dan coefficient alpha, maar geeft nog steeds een ondergrens voor de echte betrouwbaarheid. Dit betekent dat de daadwerkelijke betrouwbaarheid tussen de waarde van lambda-2 en 1 ligt.
Engels: long answer question
Een lang-antwoordvraag is een open vraag waarbij de kandidaat het antwoord moet formuleren door middel van enkele zinnen, een gecompliceerde berekening of tekening.
Engels: latent trait model
Engels: learning analytics
Het verzamelen, analyseren en rapporteren van data over leerlingen en hun omgeving met als doel de leeruitkomsten te begrijpen en te verbeteren.
Engels: learning objective
Een leerdoel is het beoogde resultaat van onderwijsleeractiviteiten. Als het beoogde leerresultaat
wordt geformuleerd in termen van uiterlijke condities en waarneembaar leerlinggedrag spreekt
men van 'concrete leerdoelen' of 'gedragsdoelen'. Als het beoogde leerresultaat wordt geformuleerd
in termen van cognitief gedrag of van cognitieve structuren, spreekt men van cognitieve leerdoelen.
Er zijn verschillende taxonomieen waarmee leerdoelen ingedeeld kunnen worden.
Zie verder: onderwijsdoelstellingen ,
kerndoelen ,
eindtermen
Engels: learning-oriented test
Een leerdoelgerichte toets is een toets die meestal bestaat uit een gering aantal opgaven (5 tot 10)
die te beschouwen zijn als een representatieve steekproef uit alle opgaven die bij een bepaald leerdoel
gemaakt zouden kunnen worden. Leerdoelgerichte toetsen worden tijdens het onderwijsleerproces
gebruikt om kennis-hiaten bij de leerlingen op te kunnen sporen en het onderwijs dienovereenkomstig bij te sturen.
zie diagnostische toets
Engels: study profile
(Grafische) weergave van scores van een leerling, behaald op met elkaar samenhangende instrumenten die onderling met elkaar worden vergeleken.
Engels: student monitoring system
Een verplichte met regelmaat terugkerende toets over meerdere jaren heen om de ontwikkeling van leerlingen door de tijd heen te volgen. Ze bieden zicht op vorderingen van het individu, de groep en de school. Vaak worden deze toetsen in het midden en eind van het schooljaar afgenomen.
Engels: curriculum
zie curriculum
Engels: learning domain
Verzameling van onderling samenhangende kennis en vaardigheden waarover getoetst wordt.
Engels: likert scale
Een Likert-schaal wordt meestal gebruikt om houdingen of meningen te meten. Een respondent wordt gevraagd om op meerdere gerelateerde stellingen/uitspraken/items te reageren door het kiezen van een van de voorgegeven antwoordmogelijkheden (bijvoorbeeld: zeer mee eens ... zeer mee oneens). Die antwoordmogelijkheden heten Likert-schalen. Dit maakt het mogelijk om met een en dezelfde steekproef van respondenten een schaal te construeren (bijvoorbeeld: aversie tegen toetsen) en de respondenten op deze schaal te plaatsen.
Engels: linear transformation
Een lineaire transformatie is een wijze van omzetting van scores in cijfers of in andere scores,
waarbij het nieuwe resultaat een rechtlijnig verband heeft met de oude scores.
Zie verder: standaardscore.
Engels: low-stakes test
Toets waarmee het leerproces geëvalueerd wordt en waar weinig consequenties aan verbonden zijn voor leerlingen.
Denk bijvoorbeeld aan een tussentijdse toets (so) in het voortgezet onderwijs.
zie ook formatief handelen , formatieve toetsing
Engels: matching
Het begrip matching kan naar verschillende aspecten verwijzen:
Engels: matrix sampling
Matrix sampling is een procedure voor toetsafname waarbij niet alle kandidaten alle items voorgelegd krijgen.
De items worden hierbij over verschillende tekstboekjes verdeeld, die weer over verschillende deelgroepen
van kandidaten worden verdeeld.
Matrix sampling is tijd- en kostenbesparend als het er om gaat psychometrische gegevens over items en toetsen te verkrijgen.
Men krijgt uiteraard geen scores van alle kandidaten op alle items, maar met behulp van itemresponstheorie
kan men voor alle leerlingen een vaardigheidsschatting op dezelfde schaal verkrijgen.
Matrix sampling wordt bijvoorbeeld toegepast in de internationaal vergelijkende studie TIMMS.
Engels: median
De mediaan is de middelste waarde wanneer de waarnemingen van laag naar hoog gerangschikt zijn. Wanneer de steekproef
uit een even aantal waarnemingen bestaat dan neemt men het gemiddelde van de twee middelste waarnemingen.
De mediaan is een van de maten voor centrale tendentie naast het (rekenkundig) gemiddelde en de modus.
Engels: multi-choice button
Een meerkeuzetoets is een toets bestaande uit meerkeuzevragen .
Engels: multiple choice question
Een meerkeuzevraag is een vraag waarbij de kandidaat het goede antwoord moet
bepalen uit verschillende alternatieven. Bij uitzondering worden wel meerkeuzevragen geconstrueerd waarbij
meer dan één antwoord goed is.
Doorgaans gaat men ervan uit dat bij een meerkeuzevraag slechts een alternatief juist of het beste is. Er zijn ook
varianten bij waarbij waarbij de leerlingen meerdere opties moeten kiezen. Deze variant worden multiple-response vragen genoemd.
Een voorbeeldvraag:
In welke landen kan men niet met Euros betalen?
Bij multiple-response items is het belangrijk om vantevoren de scoringsregels vast te leggen.
Engels: multiple question
Een meervoudige vraag is een vraag die opgesplitst is in verschillende onderdelen. We onderscheiden twee soorten meervoudige vragen, namelijk vragen die antwoorden opleveren die onafhankelijk van elkaar zijn ( serievraag ) en vragen waarin antwoorden gevraagd worden die afhankelijk zijn ( samengestelde vraag ).
Engels: measurement error
De meetfout is de mate waarin de geobserveerde waarde afwijkt van de werkelijke waarde van een eigenschap.
Meetfouten ontstaan door vertekeningen van uiteenlopende aard bij de meting. Er wordt een onderscheid
gemaakt tussen systematische meetfouten die zorgen voor bias in de metingen, en toevallige metingen die er voor zorgen dat de
metingen niet exact repliceerbaar zijn zou men de meting opnieuw uitvoeren onder dezelfde omstandigheden, maar waarbij men
gemiddeld genomen over replicaties op de ware waarde uitkomt.
Zie verder: betrouwbaarheid , standaardmeetfout,
validiteit .
Engels: to measure
Meten is het toekennen van getallen aan waargenomen prestaties volgens een vastomschreven procedure (zie operationalisatie) zodanig dat op grond van de waarnemingen uitspraken gedaan kunnen worden over (individuele) verschillen in het onderliggend theoretisch concept.
Engels: method-based assessments
Methodegebonden toetsen zijn toetsen die een uitgeverij bij haar methode mee levert, of toetsen die direct zijn afgestemd op de gebruikte methode in het onderwijs. Met methodegebonden toetsen wordt doorgaans bekeken of de leerlingen de lesstof die ze net hebben geleerd voldoende beheersen. Hiermee kan de leerkracht bepalen of de leerling op schema ligt en of en zo ja welke extra ondersteuning de leerling nodig heeft.
Engels: mode
De modus van een reeks waarnemingen is de waarde die het meest frequent voorkomt.
zie ook gemiddelde score , mediaan .
Engels: difficulty level
De moeilijkheidsgraad van een item of toets geeft aan in hoeverre leerlingen uit de doelpopulatie in staat zijn om de vraag of vragen goed te beantwoorden. De moeilijheid wordt meestal uitgedrukt met een p-waarde .
Toelichting. De moeilijkheid van een vraag of toets is altijd gerelateerd aan een specifieke populatie. Een vraag kan moeilijk zijn voor de ene groep leerlingen, maar gemakkelijk voor een andere groep leerlingen. Ook de relatieve moeilijkheid van vragen kan varieren over verschillende populaties. Dus wat de gemakkelijkste vraag is in een toets voor de ene groep is dat misschien niet voor de andere groep. Wanneer men de moeilijkheid van de vragen of toets onderzoekt is het belangrijk om de antwoorden van leerlingen te gebruiken voor wie de toets bedoeld is.
Engels: multimedia based assessment
vraagvorm waarbij naast geschreven tekst (verbale informate) ook gebruik wordt gemaakt van verschillende andere media-uitingen (foto's, afbeeldingen, video, audio). Het gebruik van multimedia in toets kan verschillende functies hebben.
Engels: multiple-choice question
Zie meerkeuzevraag .
Engels: multiple completion task
Multiple completion is een vraagvorm waarin de leerling
moet aangeven welk antwoord of welke combinatie van antwoorden juist is.
Karakteristiek voor deze vraagvorm is dat de alternatieven slechts een selectie van alle denkbare combinaties geven.
Een voorbeeld:
Aan welke van de onderstaande voorwaarden moet een toets voldoen?
(A) alleen 1 en 2
(B) alleen 1 en 3
(C) alleen 2 en 3
(D) aan alle voorwaarden
Engels: level
Examens zijn ieder jaar anders en kunnen als gevolg daarvan onbedoeld het ene jaar relatief moeilijker of
makkelijker zijn dan voorgaande jaren. De N-term (normeringsterm) compenseert voor dit verschil in moeilijkheid. De N-term is een getal
tussen 0 (als het examen relatief gemakkelijk bleek) en 2 (bij een heel moeilijk examen).
De N-term wordt bepaald op basis van normhandhavingsprocedures . Dit zorgt ervoor
dat het cijfer dat leerlingen in verschillende jaren halen op het examen voor een vak te vergelijken zijn met elkaar.
Voor meer informatie over de N-term zie Examenblad - N-term van
CvTE .
Engels: level
zie onderwijsniveau
Engels: normal distribution
De normale verdeling is een bepaalde - veelgebruikte - verdeling die beschrijft hoe de scores in de populatie verdeeld zijn. De normaalverdeling herken je aan zijn klokvormige vorm en het is een symmetrische verdeling. De normale verdeling wordt bepaald door het gemiddelde en de standaarddeviatie. Wanneer het gemiddelde gelijk aan 0 is en de standaarddeviatie aan 1, dan spreekt men van een standaard-normale verdeling.
Engels: normalize
normaliseren betekent dat de scores worden getransformeerd naar schaalwaardes zodanig dat zij een een normale verdeling volgen. Dit kan via de percentielscores . Van elke score wordt de percentielscore berekend, en die wordt vertaald naar een Z-score. Het resultaat is een standaard-normale verdeling, die vervolgens omgezet kan worden naar een normale verdeling met elke gewenst gemiddelde en/of standaardeviatie (e.g., zoals een IQ schaal met gemiddelde 100 en SD van 15).
Engels: standards
Normen zijn de referentiegegevens of referentiekaders waartegen de toetsprestaties afgezet kunnen worden. Er wordt een onderscheid gemaakt tussen relatieve normen en absolute of domeingerichte normen.
Toelichting. In de dagelijkse praktijk is het onderscheid tussen relatief en absoluut normeren niet zo zwart-wit. Een veelgebruikte strategie in het VO is bijvoorbeeld dat in eerste instantie uitgegaan van een absolute normering (bijv. 50% goed is geslaagd), maar als bijvoorbeeld blijkt dat bijna niemand de toets haalt, dan kan dat reden zijn om de norm nog wat bij te stellen.
Engels: standard
Normeren heeft betrekking op de manier waarop er betekenis wordt gegeven aan scores. De scores op een test zeggen op zichzelf niet veel. Door de scores te relateren aan normgegevens (zie normen) krijgen de scores betekenis. Bij de examens vindt normering plaats door middel van equivalering naar referentie examen (zie equivaleren ).
Engels: normal interpretation
Betekenis geven aan toetsresultaten door deze te vergelijken met de toetsresultaten van een relevante vergelijkingsgroep (relatieve normen), bijvoorbeeld leerjaar- of leeftijdgenoten, ook wel normgroep of populatie genoemd.
Engels: norm population, reference group
Een normgroep is een steekproef uit een welomschreven populatie van kandidaten waartegen de toetsresultaten afgezet worden. Normgroepen vormen de basis voor relatieve normeringen en een normgericht interpretatie.
Engels: maintaining standards
Er is sprake van normhandhaving als de normen van het ene examen worden vertaald naar vergelijkbare normen op een ander examen dat dezelfde vaardigheid beoogt te meten. Het maakt voor een leerlingen dan niet meer uit welk examen zij voorgelegd krijgen; voor beide examens gelden immers dezelfde normen. Normhandhaving wordt bijvoorbeeld toegepast bij de centrale eindexamens en zorgt er voor dat de vaardigheid die nodig is om te slagen over de jaren heen hetzelfde blijft. Om de normhandhaving te realizeren maakt men gebruik van equivaleringsmethoden.
Engels: norm drift
Er zijn twee contexten waarbij wordt gesproken over normverschuiving.
Engels: conversion table
Een omzettingstabel is een tabel die aangeeft welke afgeleide score ( cijfer, percentiel) bij welke toetsscore behoort.
Engels: educational objective
Onderwijsdoelstellingen beschrijven in algemene termen de doelen waarvoor onderwijs wordt gegeven. Dit doelstellingen op zowel cognitief vlak zijn (bijv. bijbrengen van taalvaardigheid, rekenvaardigheid), als affectief en sociaal (burgerschap). Zo is eveneens in de rechten van het kind vastgelegd dat de Nederlandse Onderwijsdoelstellinge ervoor zorgen dat kinderen dingen leren die ze nodig hebben om als mens prettig te kunnen leven. Deze algemene doelstellingen worden nader uitgewerkt in kerndoelen , eindtermen, referentieniveaus .
Engels: education level
Het onderwijsniveau verwijst naar een indeling van het onderwijs of leerstof naar de graad van moeilijkheid ervan. Zo wordt in Nederland in het voortgezet onderwijs een onderscheid gemaakt tussen praktijkonderwijs (pro), voorbereidend middelbaar beroepsonderwijs (vmbo: KB, BB, GT), havo en vwo. Het niveau wordt bepaald door de hoeveelheid stof, de cognitieve complexiteit van de leerstof, en het tempo waarin de stof aan de orde wordt gesteld.
Engels: task
Zie opgave
Engels: open ended question
Een open vraag is een vraagtype waarbij een kandidaat het antwoord zelf moet formuleren. Ten behoeve van de beoordeling moet er een correctievoorschrift of een beoordelingsschema zijn. Open vragen kunnen, gekarakteriseerd naar de lengte van het antwoord, onderverdeeld worden in bepaalde vraagvormen, namelijk: invulvraag, aanvulvraag, kort-antwoordvraag, lang-antwoordvraag, en opstelvraag.
Engels: operationalize
Operationaliseren in de context van toetsen verwijst naar het vertalen van algemene leerdoelen naar concrete taken/opgaven (zie bijvoorbeeld de bewijsgerichte toetsconstructie (ECD) ).
Engels: assignment
Een opgave is een onderdeel van een toets en bevat altijd een stimulus (een middel of prikkel om een bepaald gedrag van een kandidaat uit te lokken) waarop een respons (het uitgelokte gedrag) mogelijk moet zijn. zie ook item.
Engels: one-parameter logistic model
Het OPLM is een IRT model uit de familie van Rasch modellen waarbij items een verschillend discriminerend vermogen kunnen hebben.
Engels: assessment question
Een opstelvraag is een open vraag waarbij de kandidaat het antwoord moet formuleren door middel van een samenhangend stuk tekst of een berekening of tekening, die een afgerond geheel moeten vormen.
Engels: \(p\)-value
De \(p\)-waarde is een getal tussen 0 en 1 waarmee de moeilijkheidsgraad van een opgave kan worden weergegeven. De \(p\)-waarde wordt berekend door de gemiddelde score op een opgave te delen door de maximaal haalbare score op die opgave. De \(p\)-waarde voor een meerkeuzevraag is gelijk aan de proportie kandidaten die het juiste antwoord heeft gekozen.
Engels: parallel test
Parallelle toetsen zijn toetsen die dezelfde vaardigheid meten, dezelfde betrouwbaarheid hebben, en de gemiddelde score en variantie van de scores zijn voor beide toetsen gelijk. Parallele toetsen zijn inwisselbaar maar niet identiek. Parallele toets is een van de centrale begrippen in de klassieke testtheorie (KTT).
Engels: parallel shapes method
De parallelvorm-methode is een methode om de betrouwbaarheid van een specifieke toets
voor een specifieke leerlingpopulatie te schatten. Behalve de toets in kwestie wordt
bij dezelfde groep kandidaten een parallelle toets afgenomen. De uitkomsten van beide toetsafnames
worden met elkaar gecorreleerd. De correlatie is de geschatte betrouwbaarheid van de toets en daarmee ook de
geschatte betrouwbaarheid paralleltoets.
In de praktijk blijkt het niet eenvoudig om parallele metingen te construeren. Het lukt soms wel om toetsen te construeren
die deels de eigenschappen van paralleliteit hebben en als basis kunnen dienen voor betrouwbaarheidsonderzoek (zie betrouwbaarheid).
Engels: parameter
De term parameter kunnen we in drie betekenissen tegenkomen:
Ad (1) en (2): Populatieparameters worden doorgaans weergegeven met een Griekse letter en de steekproefwaarde met een gewone letter of met de Griekse symbool met dakje (e.g., \(\bar{\mu}\) ).
Engels: poll research
Grootschalig evaluatie-onderzoek met als doel het vaststellen van de (ontwikkelingen) in de leerprestaties en de
relaties met de leerinhoud (aanbod, tijd, & kwaliteit).
Zie Peil.onderwijs en
Inspectie van het Onderwijs: Peil.onderwijs
Engels: percentage
Proportie uitgedrukt in procentpunten, waarbij elk procentpunt 1/100 deel van het totaal weergeeft. p-waarde worden vaak in percentages uitgedrukt; een percentage van bijvoorbeeld 80% betekent dat de leerlingen gemiddeld 8/10 = 0,8 van het maximaal aantal te behalen punten behaalden.
Engels: percential
Percentielen zijn de 99 schaalwaarden die een frequentieverdeling verdelen in 100 groepen van gelijke grootte. Het 50-ste percentiel (P50) wordt de mediaan genoemd. Kwartielen splitsen de verdeling in vier gelijke groepen.
Engels: percentile score
Een percentielscore is een bij een toetsscore behorend getal dat aangeeft hoeveel procent van de kandidaten de genoemde toetsscore
of een lagere heeft behaald.
Voorbeeld: Iemand haalt op een toets een percentielscore van 56. Dit betekent dat 56% van alle
deelnemers bij die toets dezelfde of een lagere score had.
Engels: ceiling effect
Het plafond-effect treedt op als de toets te gemakkelijk is voor de leerlingen die de toets hebben gemaakt. Er zijn relatief veel leerlingen met een bijna perfect score (maximale score). De toets maakt geen onderscheid op hogere vaardigheidsniveaus.
Engels: polytome scoring
Polytome scoring is het scoren van een antwoord waarbij er meer dan twee onderscheidingen zijn in de waardering van het antwoord. Aan het antwoord op een vraag kunnen we bijvoorbeeld 0, 1 of 2 punten worden toegekend. Bij open vragen hanteert men vaak polytome scoring. (zie ook dichotome scoring). [!]
Engels: population
Een populatie is een verzameling van vooraf gedefinieerde eenheden, bijvoorbeeld alle aan een examen deelnemende kandidaten, waarover men door middel van statistisch onderzoek wil doen. Bijvoorbeeld, bij de peilingen bestaat de populatie uit alle leerlingen in groep 8, die langer dan 1 jaar in Nederland verblijven.
Engels: practice test
Een praktijktoets is een toets waarin de opgaven een min of meer natuurgetrouwe weerspiegeling van de (beroeps)praktijk vormen. In het algemeen vereist een praktijktoets praktisch handelen.
Engels: predictive validity
Predictieve validiteit is de eigenschap die een toets heeft als de toetsscore een criteriumvariabele kan voorspellen (prediceren). Als met een toets studiesucces voorspeld kan worden, dan heeft die toets een bepaalde predictieve validiteit. De hoogte van de predictieve validiteit van die toets wordt uitgedrukt in de hoogte van de correlatie tussen toetsscores van de personen waarbij de toets is afgenomen en hun succes bij verdere studie.
Engels: pretest
Pretesten is het afnemen van een aantal opgaven bij een groep personen, meestal met het doel de eigenschappen van een toets te onderzoeken en slecht functionerende items te verbeteren. Deze groep personen is zoveel mogelijk vergelijkbaar met de populatie waarvoor de test oorspronkelijk is ontwikkeld. Pretesten gebeurt bijvoorbeeld ook in de context van het bepalen van de (voorlopige) N-term van de centrale eindexamens (zie bijvoorbeeld normhandhaving).
Engels: process evaluation
Verzamelen en interpreteren van gegevens over het verloop van een onderwijsleerproces om daarover onderwijskundige beslissingen te kunnen nemen.
Engels: product evaluation
Verzamelen en interpreteren van gegevens over de uitkomsten van een onderwijsleerproces om daarover onderwijskundige beslissingen te kunnen nemen.
product-moment (Pearson's) correlatie
Engels: product moment correlation
PM CORRELATIE
De pm-correlatie geeft de mate aan waarin twee variabelen, bijvoorbeeld twee (gepaarde) reeksen toetsscores, of twee reeksen itemscores en toetsscores, rechtlijnig met elkaar samenhangen. De pm-correlaties wordt als volgt berekend: \[ r_{X}Y = \sum_j { (X-\bar{X})(Y-\bar{Y}) \over (N- 1) \times S_X \times S_Y} \] hierin is \(r_{XY}\) de correlatie, \(\bar{X}\) en \(\bar{Y}\) de gemiddelden van respectievelijk \(X\) en \(Y\), en \(S_X\) en \(S_Y\) de standaarddeviaties van respectievelijk de \(X\) en \(Y\) scores.
Engels: port folio
Een verzameling van werk van leerlingen waarmee zij hun voortgang en ontwikkeling kunnen aantonen. Het werk in het portfolio dient als bewijslast voor het al dan niet beheersen van een vaardigheid.
Engels: production demand
Een productievraag is een vraag waarbij van de kandidaat wordt gevraagd een uitwerking, bewerking, verklaring, samenvatting, uitleg of beoordeling te geven van in de stimulus gepresenteerde informatie. De vraagstelling is naar vorm of inhoud min of meer nieuw voor de kandidaat, maar het antwoord of de oplossing kan gegeven worden op grond van een aangeleerde werkwijze of methode.
Engels: programatic assessment
Bij programmatisch toetsen wordt gekeken naar de gehele ontwikkeling van een leerling. Beslissingen en toekenning van studiepunten worden gebaseerd op een verzameling van datapunten in plaats van een individuele toets. De datapunten bestaan uit een mix van uitingen zoals toetsen, verslagen, reflecties etc.
Engels: proportion
Een proportie is een getal dat de verhouding aangeeft tussen het aantal elementen uit een verzameling met een bepaalde eigenschap en het totale aantal elementen uit deze verzameling.
Engels: psychometric analysis
psychomotorische onderwijsdoelstellingen
Engels: psychomotoric - educational objectives
zie taxonomie
programma van toetsing en afsluiting (pta)
Engels:
Een programma voor schoolexamens in het voortgezet onderwijs dat beschrijft welke leerstof wordt getoetst, op welke wijze, en de mate waarin het onderdeel meetelt voor het eindcijfer. Elke school stelt elk jaar een eigen PTA vast en moet deze vóór een vastgelegd datum toezenden aan de onderwijsinspectie.
Engels: Rir value
Engels: Rit value
Rar-waarde (afleider-restscore correlatie)
Engels: Rar value
De rar value kijkt naar de correlatie tussen het kiezen van een bepaalde afleider en de restscore. Idealiter zijn zijn rar values negatief en is item-restcorrelatie (Rir) positief de. Dit betekent namelijk dat leerlingen met een hogere vaardigheid zijn minder snel geneigd het alternatief te kiezen en te kiezen voor het goede antwoord, dan leerlingen met een lagere vaardigheid.
Engels: guessing probability
De raadkans is de kans op het juist beantwoorden van een meerkeuzetoets, wanneer de kandidaat het goede antwoord niet weet. Bij een meerkeuzevraag met vier mogelijke antwoordopties, heeft de leerling bijvoorbeeld een kans van ¼ op juist gokken.
Engels: range
De range is een maat voor de spreiding van waarnemingen.
De range is de afstand tussen de hoogste en laagste score.
zie ook standaarddeviatie
Engels: Rasch model
Engels: RCEC
Het RCEC - Research Center voor Examinering en Certificering -
is een expertisecentrum voor het borgen en bevorderen van de kwaliteit van examinering.
zie RCEC - website .
Engels: reference data
zie normen
Engels: reference group
zie normgroep
Engels: reference level
Referentieniveaus zijn beheersingsdoelen voor Nederlands en rekenen/wiskunde die aan aangeven wat leerlingen moeten kennen en kunnen op verschillende momenten tijdens doorlopende leerlijnen.
Engels: relatively standard
zie normen
Engels: relative frequency
zie frequentie
Engels: reproduction question
Een reproductievraag is een open vraag , waarbij van de kandidaat wordt gevraagd een min of meer letterlijke weergave van gememoriseerde informatie (zoals jaartallen, definities, regels, e.d.) te leveren.
Engels: response
De term respons kunnen we in twee betekenissen tegenkomen:
Engels: product evaluation
Een proces waarmee de leerresultaten van leerlingen systematisch worden geëvalueerd om daarmee de kwaliteit van het gegeven onderwijs te verbeteren. Vaak wordt dit gedaan in het licht van accreditatie.
Engels: RTTI
Het RTTI is een taxonomie om items te classificeren in vier cognitieve niveaus.
Engels: rubric
Een rubric is een instrument in de vorm van een tabel waarmee op een systematisch en analytische wijze de prestaties van leerlingen worden beoordeeld. Een rubric bestaat altijd uit twee dimensies: de criteria/doelen waarop wordt beoordeeld en voor elk criterium een inhoudelijke beschrijving (soms aangevuld met video's) van de verschillende prestatieniveaus, en voor elke prestatie niveau een waardering/scoring.
Engels: raw score
Het aantal behaalde punten op een toets. Men spreekt van een ruwe score om aan te geven dat de score nog niet is omgerekend naar een schaalwaarde of een normscore.
Engels: composite question
Een samengestelde vraag bestaat uit meerdere deelvragen waarbij het antwoord op de eerdere deelvraag of deelvragen een onmisbaar element vormen voor het oplossen van de volgende deelvraag
Engels: scale
Een schaal is een reeks getallen die volgens een bepaald voorschrift gekoppeld worden aan waarnemingen.
Engels: estimator
Een schatter is een statistische grootheid die gebruikt wordt om de waarde van een onbekende parameter te schatten. (zie parameter , populatie )
Engels: estimate
Een schatting is de waarde van een parameter op basis van een steekproef.
Engels: school advice
Alle leerlingen in groep 8 krijgen een schooladvies waarmee zij toegelaten kunnen worden tot een bepaald
type middelbare school. Het schooladvies kan naar boven worden bijgesteld als de eindtoets primair onderwijs
(vanaf 2023 de doorstroomtoets ) daartoe aanleiding geeft.
zie
Informatie Rijksoverheid Schooladvies
Engels: school grades
zie cijfers .
Engels: school exam
Het schoolexamen is een van de twee onderdelen van het eindexamen voor het voorgezet onderwijs (VO) in Nederland. Naast het schoolexamen maken de VO-leerlingen ook centrale eindexamens. Het schoolexamen bestaat uit een aantal schoolonderzoeken die door de scholen zelf ingericht worden op basis van de algemene eindtermen. De eindexamens worden door Stichting Cito gemaakt.
Engels: school exam
Toets dat dient als onderdeel van het schoolexamen en vaak betrekking heeft op een beperkt deel van de stof, of een specifieke vaardigheid binnen een vak (bijv. luistertoets Engels voor Engels luistervaardigheid).
Engels: score
In het algemeen is de score het totaal aantal scorepunten dat iemand op een opgave (itemscore) of toets (toetsscore) haalt. De score wordt vaak met de letter \( X \) aangeduid. Vaak spreekt men van de ruwe scores om aan te geven dat de scores direct uit de antwoorden volgen en nog niet zijn omgerekend naar standaardscores of schaalwaarden.
Engels: score distribution
De verdeling van de scores op een toetsen, vaak weergegeven met een histogram . Zie ook frequentieverdeling .
Engels: scoring
Scoren is het toekennen van getallen aan waargenomen prestaties volgens de scoringsvoorschriften (e.g., antwoordmodel, rubric ).
Engels: scoring rule
Een scoringsvoorschrift is een onderdeel van het correctiemodel . In het voorschrift worden de maximaal haalbare toetsscore en de scorepunten vermeld. Eventueel worden aftrekpunten en bonuspunten vermeld. Dit is afhankelijk van onder andere goede of gedeeltelijk goede antwoorden. Het scoringsvoorschrift beschrijft welke antwoorden goed, welke gedeeltelijk goed en welke als fout moeten worden beschouwd. Indien mogelijk en nodig wordt omschreven wanneer bonuspunten worden toegekend of aftrekpunten in mindering worden gebracht.
Engels: screening
Screening van opgaven is de controle vooraf van de opgaven ten aanzien van relevantie, wetenschappelijke inhoud en formulering. De screening dient bij voorkeur te worden uitgevoerd door deskundigen die niet betrokken zijn geweest bij de constructie van de opgaven.
Engels: selection
Selectie is het door de opnemende instantie uitkiezen van personen voor een bepaalde vacature of een bepaalde opleiding, op grond van relevant geachte indicatoren zoals bijvoorbeeld behaalde diploma's, een afgelegde toets, of werkervaring.
Engels: sequence effect
Er is sprake van een sequentie-effect als de beoordeling van werkstuk wordt beinvloed door de beoordeling van werkstukken daarvoor. Bijvoorbeeld, een opdracht wordt positiever als het voorafgegaan wordt door zwak gemaakte opdrachten, dan wanneer het wordt voorafgegaan door uitstekend gemaakte opdrachten.
Om dergelijke sequentie-effecten zoveel mogelijk te voorkomen wordt aangeraden om de toetsen vraag voor vraag na te kijken, waarbij tussendoor de antwoordbladen steeds opnieuw in willekeurige volgorde worden gelegd.
Engels: serial question
Een serievraag is een meervoudige vraag waarin antwoorden gevraagd worden die onafhankelijk van elkaar zijn. Dat wil zeggen, het antwoord op deelvraag a is niet nodig voor het oplossen van deelvraag b. Zie verder: samengestelde vraag.
Engels: significant effect
Er is sprake van een signifisch effect als beoordeleraars op verschillende aspecten letten, verschilende criteria hanteren,
of verschillende aspecten/criteria verschillend meewegen.
Zie beoordelaarseffect
Engels: situational judgement test
Een toets waarin werk specifieke situaties worden voorgelegd en men keuzes moet maken over hoe men zou handelen of reageren. Vaak gaat het om generieke competenties zoals samenwerken en stressbestendigheid.
Engels: slack/back limit
De toetsscore die minimaal nodig is om een voldoende te halen.
Engels: key
zie correctiesleutel
Engels: spearman-brown formula
De Spearman-Brown formule is een formule waarmee de betrouwbaarheid van een toets kan worden geschat
indien deze zou worden verlengd of verkort met vergelijkbare items. De Spearman-Brown formule is een handig hulpmiddel
om een inschatting te maken van het aantal items dat extra nodig is om een toets voldoende betrouwbaar te krijgen.
De formule voor het berekenen van de betrouwbaarheidscoëfficiënt bij verlenging of verkorting is
\[ r_{XX'} = { k \times r_{YY'} \over 1 + (k -1) \times r_{YY'}} \]
hierin is \( r_{XX'} \) de betrouwbaarheid van de nieuwe kortere of langer test, \(r_{YY'} \) de betrouwbaarheid van de oorspronkelijke test, en \(k\) de verlengingsfactor
(d.w.z., het aantal items in de nieuwe test gedeeld door het aantal items in de oorspronkelijke test). Wanneer de test verkort wordt, dan is
\(k < 1\), en bij verlenging is \( k>1 \).
Rekenvoorbeeld: Stel een test van 30 items heeft een betrouwbaarheid van .7 en de test wordt verlengd met 10 extra vergelijkbare items,
dan is de verlengingsfactor \( k = 30/40 = 1.25 \). De verwachte betrouwbaarheid van de nieuwe verlengde test is dan
\( {1.25 \times .7 \over 1 + (1.25-1) \times .7} = .745\).
Engels: split half method
De split-half-methode is een interne-consistentie methode om de betrouwbaarheid van een toets te schatten. Van twee toetshelften (opgevat als twee parallelle toetsen) worden de scores van alle leerlingen met elkaar gecorreleerd. De splitsing in twee helften kan bijvoorbeeld plaatsvinden door de even genummerde items in de ene helft te plaatsen en de oneven genummerde items in de andere helft. Omdat we nu de betrouwbaarheid van de halve toets berekend hebben, moeten we vervolgens de betrouwbaarheid van de gehele toets schatten met de Spearman-Brown formule .
Engels: variance
Met de spreiding wordt aangegeven in welke mate waarnemingen, zoals toetsscores, van elkaar verschillen. Maten voor de spreiding zijn bijvoorbeeld de standaarddeviatie , de variantie, en de range .
Engels: stem
Wanneer men spreekt over 'de stam van het item' dan verwijst men naar het deel van het item of opgave dat de inhoudelijke vraagstelling of de uit te voeren opdracht(en) beschrijft.
Engels: standard deviation
Engels: standard deviation
De standaarddeviatie \(S_x\) is een maat voor de spreiding van getallen rondom hun gemiddelde. In het geval
van een toets gaat het om de spreiding van toetsscores rondom de gemiddelde score. De standaarddeviatie wordt als volgt berekend:
\[ S_X = \sqrt{ { \sum_x \left( X- \bar{X} \right)^2 \over N - 1}} \]
hierin is \(X\) de toetsscore, \(\bar{X}\) de gemiddelde score en \(N\) de steekproefgrootte.
Toelichting: De standaarddeviatie is gelijk aan de wortel van de variantie. In bovenstaande formule
wordt gedeeld door \(N-1\), dit levert een zuivere schatter op van de standaarddeviatie in de populatie.
Soms wordt de standaarddeviatie berekend door te delen door \(N\). Men spreekt dan van steekproefstandaarddeviatie.
Engels: standardize
Standaardiseren is het omzetten van een verdeling van verschillende waarnemingen, zoals toetsscores, zodat de verdeling een gewenst gemiddelde en een gewenste standaarddeviatie oplevert. Dit wordt gedaan om toetsscoreverdelingen van verschillende toetsen gemakkelijker met elkaar te kunnen vergelijken. Zo zijn ook de toetsprestaties van een individu op verschillende toetsen gemakkelijker te vergelijken en interpreteren. Bij standaardiseren wordt in tegenstelling tot normaliseren de oorspronkelijke vorm van de verdeling niet aangetast.
Engels: standard measurement error
De standaardmeetfout (SEM) is een indicatie voor de nauwkeurigheid van een meting.
Binnen de klassieke testtheorie (KTT) wordt de SEM berekend als
\[S_e = S_X \sqrt{1-\rho_{XX'}}\]
hierin is \(S_X\) de standaarddeviatie van de toetsscores en \( \rho_{XX'} \) de betrouwbaarheid van de scores. Meestal wordt voor de
betrouwbaarheid coefficient (Cronbach's) alpha gebruikt, maar dat mag ook een andere maat zijn, zoals bijvoorbeeld lambda-2. De uitkomst
\(S_e\) is de geschatte standaardeviatie voor de meetfouten.
Rekenvoorbeeld: Stel \(S_X = 10\) en \( \rho = 0.85\) dan is de SEM = 3.87. Als we ervan uitgaan dat de meetfouten normaal
verdeeld zijn dan kunnen we met (ongeveer) 90% zekerheid concluderen dat iemand's ware score niet meer
dan 6.4 scorepunten boven of onder de waargenomen score ligt. Of dit voldoende nauwkeurig is hangt van de specifieke toepassing af.
Toelichting: Met behulp van de SEM kan worden nagegaan of de toetsscores nauwkeurig genoeg zijn om, bijvoorbeeld, betrouwbare beslissingen op indivdiueel niveau te nemen. De standaardmeetfout kan ook nuttig zijn als men de nauwkeurigheid van een bepaalde toets in verschillende populaties wil onderzoeken, waarbij de populaties verschillen in de mate waarin de vaardigheden onderling verschillen (zie ook betrouwbaarheid). Het is daarbij belangrijk om in het achterhoofd te houden dat de standaardmeetfout in feite de gemiddelde nauwkeurigheid in de populatie weergeeft. De meetfout kan ook per scoreniveau worden geschat. Men spreekt dan over de conditionele standaardmeetfout (CSEM) [!]. De CSEMs geven een nog beter beeld van het functioneren van de toets voor de verschillende vaardigheidsniveaus. Het schatten van de CSEMs is echter niet eenvoudig en dat is mede de reden dat de CSEMS minder vaak worden gebruikt.
Engels: standard-normal distribution
De standaard-normale verdeling is een normale verdeling met een gemiddelde van nul en een standaarddeviatie van één. De standaardnormale verdeling wordt ook wel de \(Z\)-verdeling genoemd, en wordt weergegeven als \( N(0,1) \).
Engels: standard scores
standaardscores zijn de ruwe toetsscores omgerekend in standaardeenheden.
Een veelgebruikte staandaardeenheid is de standaarddeviatie (\(S\)) en de bebehorende standaardscore is gelijk aan de gestaandaardiseerde score (Z)-score.
Z-scores hebben als nadeel dat er ook negatieve scores zijn, wat voor het weergeven van een vaardigheid ongewenst is.
Gelukkig kan men de \(Z\)-scores altijd transformeren naar scores met een vastgesteld gemiddelde en/of spreiding. Een voorbeeld zijn
de scores op een IQ-test, die worden omgerekend zodat het gemiddelde (in de populatie) gelijk is aan 100 en de SD gelijk aan 15.
Merk op dat de verdeling van de \(Z\)-scores dezelfde vorm heeft als de ruwe scores.
In tegenstelling tot wat vaak wordt gedacht zijn \(Z\)-scores niet automatisch normaal (klokvormig) verdeeld zijn. Wil
men de ruwe toetsscore omrekenen naar scores die normaal verdeeld is dan kan men gebruik maken genormaliseerde standaardscores.
Engels: sample
Een steekproef is een verzameling elementen die op aselecte wijze uit de te onderzoeken populatie zijn genomen. Er is sprake van een aselect steekproef als ieder element (persoon, school, klas) in de populatie een vooraf bepaalde kans heeft om in het onderzoek betrokken te worden. De meest eenvoudige manier van steekproef trekken is de enkelvoudige aselecte steekproef (eng: simple random sample ). Hierbij trekt men aselect de eenheden uit de populatie waarbij elke eenheid evenveel kans heeft om in de steekproef terecht te komen. Wanneer er wordt gesproken over een 'steekproef' zonder nadere aanduiding wordt vrijwel uitsluitend een enkelvoudige steekproef bedoeld. Andere vormen van steekproeftrekken zijn de clustersteekproef , gestratificeerde steekproef , systematische steekproef .
Engels: question-question
Een stellingvraag is een bijzondere vorm van een waar/onwaar-vraag. Bij een stellingvraag worden twee met elkaar samenhangende beweringen gecombineerd tot een vierkeuzevraag.
Engels: stimulus
Een stimulus is een middel om een bepaald gedrag van een persoon uit te lokken. Dit is alle informatie die een kandidaat aangeboden krijgt om tot een antwoord te komen.
Engels: standard setting
Standaardbepaling is het vaststellen van de grenzen tussen de verschillende vaardigheidsniveaus. De meest elementaire vorm van
de standaarbepaling is het vaststellen van de slaag-zakgren, maar het kan ook gaan om het vaststellen van grensscores voor, bijvoorbeeld,
Er zijn veel verschillende procedures ontwikkeld. Een aantal veel gebruikte procedures zijn:
Engels: structural incomplete design
Een structureel incompleet design is een afname design voor toetsen waarbij leerlingen volgens een vooropgezet plan een deel van de items maken. Deze items zijn verdeeld over verschillende toetsboekjes. Dit type design wordt bijvoorbeeld toegepast in normhandhavingsonderzoeken . Het wordt ook gebruikt in peilingsonderzoek, waarbij men vooral geinteresseerd is uitspraken op stelselniveau en niet op het niveau van de individuele leerling.
Engels: study credits
Studiepunten worden gegeven als een onderdeel van een opleidingsprogramma met voldoende resultaat is afgesloten.
In het algemeen drukt het aantal studiepunten uit wat de normbetrekking in uren is voor een bepaald studieonderdeel.
Het totale aantal behaalde studiepunten ten opzichte van het totaal aantal mogelijk te behalen punten
is een indicator voor de studievoortgang.
In het hoger onderwijs wordt doorgaans gebruik gemaakt van het European Credit Transfer System (ECTS).
Engels: subkey
Een subtoets is een aantal opgaven uit een toets die volgens een bepaald criterium bij elkaar horen. Vaak worden over subtoetsen ook afzonderlijke toets- en itemanalyses uitgevoerd.
Engels: summative test
Afsluitende toetsing om vast te stellen wat een leerling geleerd heeft, en meestal gericht op het nemen van beslissing (bijv. slagen of zakken)
Engels: subkey
Een subtoets is een aantal opgaven uit een toets die volgens een bepaald criterium bij elkaar horen. Vaak worden over subtoetsen ook afzonderlijke toets- en itemanalyses uitgevoerd.
Engels: systematic sample
Een vorm van steekproeftrekken waarbij men de eerste element willekeurig kiest om vervolgens elke \(k\)-de element te kiezen. Bijvoorbeeld, uit een lijst met 1000 leerlinge trekt men eerst een aselecte leerling uit de eerst 10 (zeg de 7de), en vervolgens selecteert men de 10de leerling die daarop volgt (i.e., de 17de, 27ste, 37st in de rij).
Engels: taxonomy
Een taxonomie van onderwijsdoelstellingen is een classificatieschema waarin de categorieën een hiërarchische relatie vertonen.
De onderwijsdoelstellingen kunnen betrekking hebben op het cognitieve, affectieve or psychomotorische domein .
Een taxonomie is vaak onderdeel van de toetsmatrijs. De taxonomie ondersteunt de ontwikkeling van opgaven op
het beoogde niveau van leerdoelen.
Veelgebruikte taxonomieen zijn:
Engels: teaching to the test
Het onderwijs afstemmen op de toets. Oftewel enkel over datgene lesgeven waar ook vragen over komen op de toets.
Vaak uit angst om, als leerkracht of school, op basis van toetsresultaten van leerlingen te worden afgerekend.
technology enhanced assessment
Engels: technology enhanced assessment
Breed scala aan mogelijkheden om de toetsing met technologie te ondersteunen met als doel de toetsing /assessment efficiënter en effectiever te maken. Dit gaat niet enkel om de toets zelf, maar ook om de beoordeling en management van toetsen (afname, constructie, scoring, feedback, en administratie).
Engels: test
Het begrip test verwijst naar meetinstrumenten voor het meten van niet-schoolse cognitieve of affectieve eigenschappen (psychologische tests). In het Nederlands wordt onderscheid gemaakt tussen het uit het Engels overgenomen woord 'test' en het door A.D. de Groot voorgestelde woord '(studie-)toets'. Onder test verstaan we instrumenten voor het meten van psychologische karakteristieken van mensen. Voorbeelden: (algemene) intelligentietests, tests voor reactievermogen, tests voor afzonderlijke cognitieve functies (bijvoorbeeld geheugen), tests voor gedragswijzen (bijvoorbeeld introversie - extraversie en andere persoonskenmerken in de socio-emotionele sfeer). Ze zijn in de regel bestemd voor gebruik door professioneel geschoolden psychologen.
Engels: test-retest method
De test-hertestmethode is een methode om de betrouwbaarheid te schatten. Dezelfde toets wordt tweemaal afgenomen bij dezelfde kandidaten onder zoveel mogelijk dezelfde omstandigheden. De scores behaald bij de eerste toetsafname worden gecorreleerd met die behaald bij de tweede afname. De correlatiecoefficient is dan een maat voor de betrouwbaarheid.
Engels: TIMSS
TIMSS staat voor Trends in International Mathematics and Science Study TIMSS is een vierjaarlijks internationaal steekproefonderzoek van de International Association for the Evaluation of Educational Achievement ( IEA ) naar de kennis en vaardigheden van leerlingen in groep 6 op het gebied van rekenen en natuuronderwijs.
Engels: test
Een toets is een instrument voor het meten van iemands kennis, vaardigheden en competenties die door middel van studie en/of onderwijs zijn verworven. to
Engels: test analysis
Engels: test-and-item alysis
Een toets- en itemanalyse is een berekening van indices waarmee de psychometrische kwaliteit van de toets en de items kan worden beoordeeld. Een toets- en itemanalyse wordt gemaakt op basis van de resultaten van een groep personen in een bepaalde gebruikssituatie. Door het berekenen van gemiddelde score, standaarddeviatie, betrouwbaarheid en standaardmeetfout wordt informatie verkregen over de kwaliteit van de toets en door het berekenen van p-waarde, a-waarde, r-it waarde, r-ar, r-ir waarden wordt informatie verkregen over de kwaliteit van elk item.
Engels: testing goal
Toetsen kunnen voor verschillende doelstellingen ingezet worden, dit betekent dat toetsen verschillende functies kunnen hebben. Globaal maakt men een onderscheid tussen toetsing die het leren ondersteunen ( formatieve toetsing, diagnostische toets), toetsen waarvan de resultaten worden gebruikt om beslissingen te nemen zoals zakken/slagen, diplomering, plaatsingsadvies voor het voortgezet onderwijs ( summatieve toetsing ), en een evaluatieve functie waarbij de toetsing vooral dient om een breder beeld te krijgen van de ontwikkelingen van de vaardigheid in een bepaalde groep zoals in peilingsonderzoek. Hoewel in principe eenzelfde toets voor verschillende doelen ingezet kan worden, stellen de verschillende doelstellingen verschillende eisen aan toets.
Engels: test matrix
Een toetsmatrijs is een tabel waarin per te toetsen onderwerp/leerdoel wordt aangegeven hoeveel vragen de toets moet bevatten, en hoe de opgaven worden verdeeld over de verschillende
gedrags/kennisniveaus (reproduceren, toepassen, begrijpen). Soms wordt ook aangegeven hoeveel punten deze opgaven kunnen opleveren
en wat voor typen vragen er gebruikt worden. De toetsmatrijs vormt een blauwdruk voor de toetsen.
voor meer praktische informatie zie
Toetsmatrijs in 5 stappen (infographic)
Engels: test scores
Het totaal aantal behaalde punten op de hele toets of examen. Bij een meerkeuzetoets is dat doorgaans het aantal vragen die de leerling goed beantwoord heeft.
Engels: test service system
Een toetsservicesysteem is een digitaal platform waarop verschillende toetsprocessen en toetsinhoudelijke activiteiten kunnen worden uitgevoerd, waaronder bijvoorbeeld:
Engels: total score
Totaal aantal behaalde punten op een toets of examen (zie ook score).
Engels: transformation
Transformatie is het volgens regels omzetten van waarden op de ene schaal in waarden op een andere schaal. Een voorbeeld van een transformatie is het omzetten van ruwe scores van een toets in standaardscores of percentielscore .
Engels: true-false item
zie waar/onwaar-vraag.
Engels: skills
Vaardigheid is het vermogen om bepaalde handelingen en mentale operaties bekwaam uit te voeren.
De professionele kennis, vaardigheden en attitudes die nodig zijn om een bepaald beroep goed uit te oefenen worden competenties genoemd.
Engels: validity
In de breedste zin verwijst de validiteit naar de mate waarin men uit de toetsscores conclusies kan trekken die
men op het oog heeft. Met andere woorden, meet de toets wat de gebruiker voor ogen heeft, gegeven het doel waarvoor
de test wordt ingezet.
Het begrip validiteit heeft in de literatuur geen eenduidige betekenis en is een containerbegrip geworden voor alles
wat raakt aan de accuraatheid, juistheid, zinvolheid van een toets. Aangezien een toets veel en uiteenlopende bedoelingen kan hebben
zijn er verschillende validiteiten te onderscheiden, die een toets in verschillende mate kan bezitten.
In de literatuur worden globaal drie verschillende dimensies in de validiteit onderscheiden:
Bij toetsing in het onderwijs wordt ook belang gehecht aan de indruksvaliditeit (face validity). Dit is de mate waarin een test op het oog,
dus zonder aanvullend onderzoek, lijkt te voldoen aan het doel waarvoor de test wordt ingezet.
Tijdens de constructie van een toets kan men de inhoudsvaliditeit waarborgen door te werken met een toetsmatrijs. Daarnaast
kan men gebruik maken van een bewijsgerichte toetsconstructie
methode (evidence-centered design).
Engels: variable
Variabelen zijn aspecten waarin mensen of objecten kunnen varieren, denk
aan geslacht, leeftijd, het aantal items in een toets. Elke variabele heeft tenminste
twee mogelijke waarden (toestanden). Vaak wordt een onderscheid gemaakt tussen discrete variabelen (geslacht,
aantal vragen goed op een toets), en continue variabelen (leeftijd, lengte, IQ).
Wanneer men getallen toekent aan de mogelijke uitkomsten van
een variabele spreekt men van een geschaalde variabele. De manier waarop schaalwaarden worden toegekend noemt
men de operationalisatie van variabele.
Voorbeeld: Neem het begrip intelligentie. Onder intelligentie verstaat men doorgaans het vermogen om cognitieve problemen op te lossen (begrip zoals bedoeld). Om verschillen in intelligentie zichtbaar te maken heeft men intelligentietesten ontwikkeld. De uitkomsten (IQ-scores) is de operationale variabele voor intelligentie.
Engels: variance
De variantie - meestal aangeduid met \( S^2_x \) - is het kwadraat van de standaarddeviatie en is, net zoals de standaarddeviatie, een maat voor de spreiding van getallen.
Engels: statement
Een verklaring is een geschrift dat aan een leerling wordt uitgereikt wanneer aan de betreffende leerling geen diploma of getuigschrift kan worden gegeven. Op de verklaring staat het tijdstip waarop hij de school verlaten heeft en het leerjaar waarin de school is verlaten.
Engels: vertical equivalent
Verticaal equivaleren is het op één schaal brengen van de scores van twee toetsen die bedoeld zijn voor populaties met een verschillende gemiddelde vaardigheid (bijvoorbeeld de examens Engels voor havo en vwo). Door verticaal te equivaleren kan men beter de verschillen in de vaardigheidsniveaus tussen de populaties vaststellen. Verticaal equivaleren wordt ook gebruikt om de normering van niveautoetsen op elkaar af te stemmen, zoals bijvoorbeeld in het leerlingvolgsystemen.
Engels: predictive value
zie predictieve validiteit .
Engels: progress evaluation
Systematisch verzamelen en interpreteren van gegevens over de voortgang van de leerresultaten tegen het licht van de gewenste einddoelen.
Engels: question)
zie opgave
Engels: differential item functioning
Er is sprake van een onzuivere vraag als de verschillen in de prestaties op het item tussen groepen niet geheel verklaard kunnen worden door verschillen in de (latente) vaardigheid die aan de opgave ten grondslag ligt.
Engels: question type
Vraagtype verwijst naar het onderscheid tussen open vraag of gesloten vraag.
Engels: question form
Vraagvorm is de manier waarop een vraag gesteld wordt. Voorbeelden van vraagvormen zijn: invulvraag , kort-antwoordvraag , meerkeuzevraag , meervoudige vraag .
Engels: open (unstructured) processing task
Een vrije-verwerkingsvraag is een open vraag
waarbij van de kandidaat wordt gevraagd een opgave op te lossen volgens een zelfstandig
gekozen werkwijze of methode. Aangezien het hierbij gaat om de wijze waarop de
kandidaat de opgave in zijn antwoord geïnterpreteerd heeft, is het goede antwoord
niet vooraf te bepalen.
Verwerkingsvragen zijn vragen of opdrachten die leerlingen uitvoeren om de stof eigen te maken.
Engels: true/false item
Een waar/onwaar-vraag is een gesloten vraag waarbij een uitspraak als waar of onwaar gekenmerkt moet worden. zie clustervraag.
Engels: true score
De ware score is een van de basisbegrippen in de klassieke testtheorie
(KTT). De KTT gaat er vanuit dat de toetsscore van elke individu uit twee delen bestaat: de ware score en een toevallige meetfout.
De ware score is gedefinieerd als de gemiddelde geobserveerde score die een persoon
zou behalen in de (denkbeeldige) situatie dat de toets een zeer groot aantal keren wordt afgenomen onder dezelfde condities.
Hierbij gaat men ervan uit dat de vaardigheid steeds constant blijft en dat elke afname onafhankelijk is van de andere afnames.
Deze definitie van de ware score volgt uit de aanname dat de meetfouten geheel toevallig tot stand komen en dat positieve en
negatieve meetfouten elkaar uitmiddelen bij herhaalde afnames. De ware score wordt ook wel de betrouwbare score genoemd.
De standaarddeviatie van de verdeling van dit oneindige aantal metingen is een indicatie van de meetnauwkeurigheid.
Engels: to weigh
Wegen bij een toets is het toekennen van verschillende gewichten aan de verschillende vragen in de eindscore. Toetsvragen kunnen een verschillend gewicht krijgen door het maximaal aantal punten per opgave te varieren, of door een gewogen somscore te nemen (zie gewogen toetsscore)
Engels: z-score
Een \(Z\)-score - ook wel aangeduid met standaardscore - is een
gestandaardiseerde score met een gemiddelde 0 (nul)
en een standaarddeviatie 1. De Z-score geeft aan hoeveel standaarddeviates
de (toets)score boven (\(Z> 0\)) of onder (\(Z < 0\)) het gemiddelde ligt
\(Z\)-scores worden als volgt berekend:
\[ Z = { X - \bar{X} \over S_X} \]
hierin is \(X\) de toetsscore, \(\bar{X}\) het gemiddelde ,
en \(S_X\) de standaarddeviatie.
Engels: self-reflection report
Verslag van een leerling over opgedane leereffecten of ervaringen (bijv. binnen een stage) die persoonlijk zijn en uitsluitend door de betrokkene gerapporteerd kunnen worden. De rapportage geschiedt aan de hand van leereffectzinnen als 'Ik heb geleerd dat (hoe, etc.) ... .'