Terug

Kwaliteit van toetsing

Kwaliteit van toetsing

Als examinator bent u verantwoordelijk voor de kwaliteit van de toetsing. De kwaliteit van de schriftelijke toetsen wordt bepaald door de validiteit, betrouwbaarheid en transparantie. De Commissie Kwaliteitszorg Toetsing (CKT) borgt de kwaliteit van de toetsing in opdracht van de examencommissie.

Commissie Kwaliteitszorg Toetsing (CKT) uitklapper, klik om te openen

De CKT werkt onder verantwoordelijkheid van de examencommissie en heeft als opdracht om haar bevindingen over de kwaliteit van toetsing te rapporteren aan de examencommissie en de examinatoren. De toetsing wordt vanaf april 2018 twee keer per drie jaar geëvalueerd: 

  • Eén keer per drie jaar stelt de CKT de kwaliteit van toetsing vast aan de hand van evaluatieformulieren die zijn ingevuld door de examinator en een beoordelende collega (peer feedback).
  • Eén keer per drie jaar controleert de CKT de kwaliteit van toetsing door zelf de toetsing te evalueren en te controleren.

Het derde jaar wordt de toetsing niet geëvalueerd, maar wordt de toetsing (inclusief alle bijbehorende informatie) wel opgevraagd ter archivering. De volgorde van de driejarige cyclus is per cursus verschillend.

Om de kwaliteit van de toetsing en beoordeling op een goed niveau te houden en mogelijk verder te verbeteren, ondersteunen de leden van de examencommissie en de CKT (op verzoek) de examinatoren en docenten die bij toetsing en beoordeling betrokken zijn. 

De CKT is te bereiken via cktbmw@umcutrecht.nl

Peer feedback

Examinatoren worden in duo's aan elkaar gekoppeld, zodat zij elkaars toetsing voor de totale cursus onder de loep kunnen nemen. Dit doen zij aan de hand van een door de CKT opgestelde checklist. De voordelen hiervan zijn:

  • Voor alle onderwijsonderdelen en alle toetsvormen wordt aandacht besteed aan kwaliteitsborging (niet alleen schriftelijke toetsing);
  • Intercollegiaal overleg stimuleert het delen van good practices en het creëren van een gezamenlijke visie op toetsing.

De opleiding verwacht dat het geven van peer feedback bijdraagt aan de professionalisering van alle examinatoren. Hierbij geldt het gezamenlijke doel om de kwaliteit van toetsing te verbeteren. 

Toetsbeoordelingscyclus 

De cyclus van de toetsbeoordelingen is lang (zeventien weken) en afhankelijk van de medewerking van alle betrokken partijen. Het is daarom belangrijk de gestelde deadlines en afspraken na te komen.

De cyclus verloopt alsvolgt:

  • Week 2: Twee weken na het eind van een cursus ontvangt de examinator een uitnodiging van de ambtelijk secretaris van de examencommissie tot het invullen van het evaluatieformulier via Formdesk. Bij de uitnodiging ontvangt u een code die u toegang geeft tot het formulier. Indien u het formulier met deze code opent en sluit, ontvangt u automatisch een nieuwe code via Formdesk die u een volgende keer nodig heeft om het formulier te openen. Hiermee vervalt de originele code die u van de ambtelijk secretaris heeft ontvangen. De beoordelaar wordt op de hoogte gesteld van de start van de cyclus.
  • Week 2 - 5: De examinator vult het Formdeskformulier in. De ambtelijk secretaris stuurt het ingevulde formulier door naar de beoordelaar. De examinator verstuurt ondersteunende documenten (zoals toetsen, opdrachten, toetsmatrijs, rubrics, toetsanalyse) beveiligd naar de beoordelaar. Om de toetsen en modelantwoorden veilig te versturen kunt u gebruik maken van het instellen van een wachtwoord in Word. De examinator nodigt de beoordelaar uit voor een gesprek.
  • Week 5 - 8: De beoordelaar vult het Formdeskformulier in en bevestigt afspraak met examinator.
  • Week 8 - 10: Het gesprek tussen de examinator en beoordelaar vindt plaats.
  • Week 10 - 12: De examinator en beoordelaar ronden het invullen van het Formdeskformulier af. De ambtelijk secretaris van de examencommissie verstuurt de volledig ingevulde formulieren naar de CKT-leden.
  • Week 12 - 16: De CKT bespreekt de evaluaties en voorziet deze van feedback.
  • Week 17: De CKT verstuurt de evaluaties naar de examinator.  

Voor ondersteuning, inhoudelijke vragen en vragen over (toegang tot) het formulier kunt u mailen naar de ambtelijk secretaris van de examencommissie

Voorafgaand aan toetsing uitklapper, klik om te openen

De volgende zaken zijn vooraf belangrijk voor het borgen van de kwaliteit van een toets:

  • Het opstellen van een toetsmatrijs welke leidend is voor het ontwerp van de toets (transparantie en validiteit);
  • Het ontwerpen van de toetsing, het antwoordmodel, de cesuur en normering;
  • Het informeren van de studenten over de wijze van toetsing, leerdoelen en toetsafname (transparantie vergroten);
  • Het controleren van de toetsing (inclusief antwoordmodel) door bijvoorbeeld toetsvragen in het docententeam te bespreken en te controleren.

Toetsanalyse na toetsing uitklapper, klik om te openen

Er dient altijd een toetsanalyse te worden uitgevoerd om de betrouwbaarheid van de toets te bepalen. De toetsanalyse wordt meegenomen bij het bepalen van de definitieve cesuur. De cijfers worden daarna berekend en gecommuniceerd naar de studenten en docenten. Ook hebben de studenten inzagerecht voor het werk dat zij hebben afgeleverd (binnen twintig werkdagen na uitslag van de toets).

Voor de toetsanalyse kan er gebruik worden gemaakt van één van de volgende hulpmiddelen:

  •  Milius-Koster-tabel (open vragen);
  • Analyse van digitale toetsing;
  • COLUU-analyses (MC vragen).

Milius-Kostertabel (open vragen)

Je kunt een toetsanalyse over open vragen uitvoeren met behulp van de Milius-Koster-tabel. Deze tabel kun je downloaden in de vorm van een Excelbestand. In dit bestand is tevens een toelichting over het gebruik van de tabel te vinden. In onderstaand Excelbestand vind je een reeds ingevulde Milius-Koster-tabel als voorbeeld.

Analyse in TestVision

In deze handout staat uitgelegd hoe je in TestVision een toetsanalyse kunt uitvoeren

COLUU-analyse (MC vragen)

In deze handout van het Centrum van Onderwijs en Leren UU (COLUU) staat uitgelegd hoe je een toets met MC vragen kunt analyseren

Aanpassingen na toetsing uitklapper, klik om te openen

De psychometrische analyses van de toetsanalyse (p-waarden, Rit-waarden en de α) zijn geen directe maat voor de kwaliteit van de toetsing, maar zij geven wel signalen over de kwaliteit van de vragen. Afwijkende waarden kunnen ertoe leiden dat een vraag of het bijhorende antwoord moet worden aangepast: mogelijk moeten er bijvoorbeeld meerdere antwoorden goed worden gerekend. Ook kan het voorkomen dat er vragen moeten worden uitgesloten. In dit soort gevallen moet de uitslag van de toets waarschijnlijk opnieuw worden berekend. Eventueel moet de toetsmatrijs en/of toetsconstructie onder de loep worden genomen. Hier vind je een uitleg van de psychometrische analyses en een stroomschema (bij afwijkende p-waarden/rit-waarden), welke jou als examinator/beoordelaar een advies geeft bij afwijkende psychometrische analyses.

Indien je op basis van de psychometrische analyses besluit een vraag te verwijderen, houd dan rekening met studenten die hiermee worden benadeeld (de studenten die deze vraag goed hadden beantwoord). Vragen die te moeilijk waren, kunnen bijvoorbeeld ook alleen als bonusvraag worden meegerekend. Vragen die fout zijn gebleken moeten worden verwijderd uit de toets. Indien je meer advies of ondersteuning nodig hebt over toetsanalyses en de resultaten die hieruit volgen, kun je contact opnemen met de examencommissie.  

Kwaliteitseisen uitklapper, klik om te openen

Validiteit

Een valide toets is een goede afspiegeling van de leerdoelen en de leeractiviteiten (constructive alignment) van de cursus. De validiteit wordt bepaald door:

  • Relevantie: de toetsing staat in relatie tot de leerdoelen van de cursus;
  • Evenwichtigheid: het aantal vragen/opdrachten per onderwerp is in verhouding met het belang van een onderwerp;
  • Constructvaliditeit: de formulering van de vragen/opdrachten is ondubbelzinnig, zonder het antwoord weg te geven.

Betrouwbaarheid

Het testresultaat van een betrouwbare toets weerspiegelt de daadwerkelijke kennis en vaardigheid van de student en zorgt ervoor dat de student een eerlijke beoordeling krijgt. Een valide toets hoort ook betrouwbaar te zijn. Een betrouwbare toets is objectief en heeft een onderscheidend vermogen.

  • Objectiviteit: de mate waarin de toetsuitslag onafhankelijk is van de beoordeling/ beoordelaar en/of de toetsomstandigheden.
  • Onderscheidend vermogen: de toets(vragen) zijn in staat te differentiëren tussen studenten die de studiestof goed en studenten die de stof minder goed beheersen.

Hoewel de kwaliteit van een toets niet direct kan worden gemeten, zijn de moeilijkheid, het onderscheidend vermogen en de consistentie goede indicatoren voor de kwaliteit van toetsing. Van examinatoren wordt verwacht dat zij een toetsanalyse uitvoeren. Hierbij moet worden opgemerkt dat toetsen met een beperkt aantal deelnemers niet altijd de hieronder genoemde waarden zullen bereiken, maar wel de examinator in staat stellen om de betrouwbaarheid te meten.

Hieronder wordt uitgelegd hoe moeilijkheid, onderscheidend vermogen en consistentie berekend kunnen worden. Met behulp van de volgende hulpmiddelen kan de docent de betrouwbaarheid meten:

  1. De COLUU-analyses van meerkeuzevragen;
  2. De analyse van de digitale toetsing (TestVision of Remindo);
  3. De analyse van de betrouwbaarheid van de open vragen via de Milius-Koster-tabel.

Moeilijkheid

De moeilijkheid van toetsing is in principe afgestemd op het gewenste eindniveau van de cursus. De moeilijkheid kan worden gemeten met de p-waarde. Het is belangrijk om op te merken dat moeilijkheid soms de kwaliteit van het onderwijs kan onderstrepen: een hoge p-waarde kan een te makkelijke vraag betekenen, maar ook dat het onderwijs uitstekend voorbereidt op de gemeten kennis.

De p-waarde kan worden berekend door:

  • p-waarde = gemiddelde score van een vraag / maximaal te behalen punten van een vraag

Een p-waarde ligt tussen 0 en 1, waarbij een p-waarde van 0 betekent dat alle studenten de vraag fout hebben beantwoord en een p-waarde van 1 betekent dat alle studenten de vraag goed hebben beantwoord. Een p-waarde boven de 0,8 (>80% van alle studenten hebben de vraag goed beantwoord) betekent dat een vraag (te) makkelijk is; een p-waarde onder de 0,3 betekent dat een vraag (te) moeilijk is. Het is belangrijk dat een toets een evenwichtige samenstelling van vragen heeft. Afhankelijk van de p-waarde is het mogelijk dat het antwoordmodel aangepast moet worden of dat de vraag moet komen te vervallen. Hiervoor is ook het onderscheidend vermogen (de Rit-waarde) belangrijk.

Onderscheidend vermogen

De score van een onderscheidende vraag draagt bij aan de betrouwbaarheid van de einduitslag: een onderscheidende vraag wordt immers door hoog scorende studenten goed beantwoord en door laag scorende studenten fout. Het onderscheidend vermogen van een vraag is de correlatie tussen de score van een individuele vraag en de eindscore en wordt uitgedrukt als Rit-waarde (item-totaalscore correlatie). Rit-waardes liggen tussen -1 (negatief verband) en +1 (positief verband). Hierbij geldt dat de Rit-waarde van een goed onderscheidende vraag groter dan 0,35 is. De item-restscore correlatie (Rir-waarde) is een zuiverdere maat, omdat de totaalscore minus de score op de vraag zelf in de correlatieberekening wordt gebruikt. Is de Rir-waarde hoog (0,3-0,5), dan hebben goede studenten de vraag goed en slechte studenten de vraag fout.

De vragen (en bijhorende antwoorden) met een negatieve of lage Rit-/Rir-waarde verdienen de aandacht van de examinator. Deze bevatten mogelijk een fout of sluiten niet aan bij de leerdoelen en/of onderwijsvormen van de cursus.

Wil je meer informatie over wat je kunt doen bij een lage Rit-/Rir-waarde? Zie hiervoor de zwarte menuknop 'Toetsanalyse' op deze pagina en scroll naar het subkopje 'Antwoordmodel en normering aanpassen'. Je vindt daar onder andere een handig stroomschema.

Cronbach alpha

Bij toetsen is het niet mogelijk om de betrouwbaarheid te bepalen door de test een tweede keer af te nemen: de student is immers na de eerste keer bekend met de toetsvragen en kan daar zijn/haar voordeel mee doen. Cronbach alpha (α) meet de betrouwbaarheid door de standaarddeviaties (SD) van de vragen te vergelijken met de SD van de totaalscores en kan worden berekend met de volgende formule:

  • α = (aantal vragen / (aantal vragen - 1)) X (1 - (SD vraag2 / SD totaal score2))

Een toets met een waarde tussen 0,6 en 0,8 wordt als betrouwbaar gezien. Is de α lager dan 0,6? Dan behoeft het uw aandacht. Is de α hoger dan 0,8? Dan kan u overwegen of minder toetsvragen ook volstaan. De bepaling van α is vooral relevant bij toetsen met voldoende deelnemers en met veel vragen, die vergelijkbare competenties onder vergelijkbare condities (tijd) meten. Een lagere α (maar groter dan 0,6) is niet direct verontrustend, omdat toetsen met heterogene*, geclusterde**, (zeer) moeilijke*** of weinig vragen α drukken. Indien α kleiner is dan 0,6 (en de toets door een behoorlijk aantal studenten is gemaakt) is dit een reden om kritisch naar de toets te kijken, met nadruk op de vragen met afwijkende Rit-waarden.

* Heterogene vragen: vragen die meerdere competenties toetsen.
** Geclusterde vragen: vragen waarbij studenten moeten doorredeneren (of doorrekenen), waarbij het antwoord op de vraag dus afhankelijk is van een eerder antwoord.
*** (Zeer) moeilijke vragen: vragen om excellente studenten te onderscheiden van de gemiddelde studenten.

Transparantie

Studenten horen (voorafgaand aan de cursus) te weten waar zij aan toe zijn, zodat zij zich zo goed mogelijk kunnen voorbereiden op (de cursus en) de toetsing. Daarom dienen de randvoorwaarden van de toetsing, toetsvormen en de leerdoelen bekend te zijn bij de studenten. Dit kan bijvoorbeeld door de randvoorwaarden te beschrijven in de cursusbeschrijving, het blokboek, de toetsmatrijs en/of het rooster.

De randvoorwaarden van toetsing zijn:

  • Het tijdstip waarop de toets plaatsvindt (staat vermeld in het rooster);
  • Eventuele deadlines voor het aanleveren van opdrachten;
  • De vorm en omvang van de toets;
  • De beschikbare tijd;
  • De beoordelingscriteria;
  • De (normering en) cesuur per toets en het minimumcijfer per toets;
  • De weging van iedere deeltoets en de berekening van het eindcijfer;
  • De controle op fraude en plagiaat.

Bedankt voor uw reactie!

Heeft deze informatie u geholpen?
Graag horen we van u waarom niet, zodat we onze website kunnen verbeteren.

Contact

Deze website maakt gebruik van cookies

Deze website maakt gebruik van cookies Deze website toont video’s van o.a. YouTube. Dergelijke partijen plaatsen cookies (third party cookies). Als u deze cookies niet wilt kunt u dat hier aangeven. Wij plaatsen zelf ook cookies om onze site te verbeteren.

Lees meer over het cookiebeleid

Akkoord Nee, liever niet