Terug

Kwaliteitseisen

Kwaliteitseisen

De kwaliteit van toetsing wordt bepaald door de validiteit, betrouwbaarheid en transparantie. Deze begrippen worden hieronder uitgelegd.

Bekijk de kennisclip over de kwaliteit van toetsing.

Validiteit uitklapper, klik om te openen

Een valide toets is een goede afspiegeling van de leerdoelen en de leeractiviteiten (constructive alignment) van de cursus. De validiteit wordt bepaald door:

  • Relevantie: de toetsing staat in relatie tot de leerdoelen van de cursus;
  • Evenwichtigheid: het aantal vragen/opdrachten per onderwerp is in verhouding met het belang van een onderwerp;
  • Constructvaliditeit: de formulering van de vragen/opdrachten is ondubbelzinnig, zonder het antwoord weg te geven.

Betrouwbaarheid uitklapper, klik om te openen

Het testresultaat van een betrouwbare toets weerspiegelt de daadwerkelijke kennis en vaardigheid van de student en zorgt ervoor dat de student een eerlijke beoordeling krijgt. Een valide toets hoort ook betrouwbaar te zijn. Een betrouwbare toets is objectief en heeft een onderscheidend vermogen.

  • Objectiviteit: de mate waarin de toetsuitslag onafhankelijk is van de beoordeling/ beoordelaar en/of de toetsomstandigheden.
  • Onderscheidend vermogen: de toets(vragen) zijn in staat te differentiëren tussen studenten die de studiestof goed en studenten die de stof minder goed beheersen.

Hoewel de kwaliteit van een toets niet direct kan worden gemeten, zijn de moeilijkheid, het onderscheidend vermogen en de consistentie goede indicatoren voor de kwaliteit van toetsing. Van examinatoren wordt verwacht dat zij een toetsanalyse uitvoeren. Hierbij moet worden opgemerkt dat toetsen met een beperkt aantal deelnemers niet altijd de hieronder genoemde waarden zullen bereiken, maar wel de examinator in staat stellen om de betrouwbaarheid te meten.

Hieronder wordt uitgelegd hoe moeilijkheid, onderscheidend vermogen en consistentie berekend kunnen worden. Met behulp van de volgende hulpmiddelen kan de docent de betrouwbaarheid meten:

  1. De COLUU-analyses van meerkeuzevragen;
  2. De analyse van de digitale toetsing (TestVision of Remindo);
  3. De analyse van de betrouwbaarheid van de open vragen via de Milius-Koster-tabel.

Moeilijkheid

De moeilijkheid van toetsing is in principe afgestemd op het gewenste eindniveau van de cursus. De moeilijkheid kan worden gemeten met de p-waarde. Het is belangrijk om op te merken dat moeilijkheid soms de kwaliteit van het onderwijs kan onderstrepen: een hoge p-waarde kan een te makkelijke vraag betekenen, maar ook dat het onderwijs uitstekend voorbereidt op de gemeten kennis.

De p-waarde kan worden berekend door:

  • p-waarde = gemiddelde score van een vraag / maximaal te behalen punten van een vraag

Een p-waarde ligt tussen 0 en 1, waarbij een p-waarde van 0 betekent dat alle studenten de vraag fout hebben beantwoord en een p-waarde van 1 betekent dat alle studenten de vraag goed hebben beantwoord. Een p-waarde boven de 0,8 (>80% van alle studenten hebben de vraag goed beantwoord) betekent dat een vraag (te) makkelijk is; een p-waarde onder de 0,3 betekent dat een vraag (te) moeilijk is. Het is belangrijk dat een toets een evenwichtige samenstelling van vragen heeft. Afhankelijk van de p-waarde is het mogelijk dat het antwoordmodel aangepast moet worden of dat de vraag moet komen te vervallen. Hiervoor is ook het onderscheidend vermogen (de Rit-waarde) belangrijk.

Onderscheidend vermogen

De score van een onderscheidende vraag draagt bij aan de betrouwbaarheid van de einduitslag: een onderscheidende vraag wordt immers door hoog scorende studenten goed beantwoord en door laag scorende studenten fout. Het onderscheidend vermogen van een vraag is de correlatie tussen de score van een individuele vraag en de eindscore en wordt uitgedrukt als Rit-waarde (item-totaalscore correlatie). Rit-waardes liggen tussen -1 (negatief verband) en +1 (positief verband). Hierbij geldt dat de Rit-waarde van een goed onderscheidende vraag groter dan 0,35 is. De item-restscore correlatie (Rir-waarde) is een zuiverdere maat, omdat de totaalscore minus de score op de vraag zelf in de correlatieberekening wordt gebruikt. Is de Rir-waarde hoog (0,3-0,5), dan hebben goede studenten de vraag goed en slechte studenten de vraag fout.

De vragen (en bijhorende antwoorden) met een negatieve of lage Rit-/Rir-waarde verdienen de aandacht van de examinator. Deze bevatten mogelijk een fout of sluiten niet aan bij de leerdoelen en/of onderwijsvormen van de cursus.

Wil je meer informatie over wat je kunt doen bij een lage Rit-/Rir-waarde? Zie hiervoor de zwarte menuknop 'Toetsanalyse' op deze pagina en scroll naar het subkopje 'Antwoordmodel en normering aanpassen'. Je vindt daar onder andere een handig stroomschema.

Cronbach alpha

Bij toetsen is het niet mogelijk om de betrouwbaarheid te bepalen door de test een tweede keer af te nemen: de student is immers na de eerste keer bekend met de toetsvragen en kan daar zijn/haar voordeel mee doen. Cronbach alpha (α) meet de betrouwbaarheid door de standaarddeviaties (SD) van de vragen te vergelijken met de SD van de totaalscores en kan worden berekend met de volgende formule:

  • α = (aantal vragen / (aantal vragen - 1)) X (1 - (SD vraag2 / SD totaal score2))

Een toets met een waarde tussen 0,6 en 0,8 wordt als betrouwbaar gezien. Is de α lager dan 0,6? Dan behoeft het uw aandacht. Is de α hoger dan 0,8? Dan kan u overwegen of minder toetsvragen ook volstaan. De bepaling van α is vooral relevant bij toetsen met voldoende deelnemers en met veel vragen, die vergelijkbare competenties onder vergelijkbare condities (tijd) meten. Een lagere α (maar groter dan 0,6) is niet direct verontrustend, omdat toetsen met heterogene*, geclusterde**, (zeer) moeilijke*** of weinig vragen α drukken. Indien α kleiner is dan 0,6 (en de toets door een behoorlijk aantal studenten is gemaakt) is dit een reden om kritisch naar de toets te kijken, met nadruk op de vragen met afwijkende Rit-waarden.

* Heterogene vragen: vragen die meerdere competenties toetsen.
** Geclusterde vragen: vragen waarbij studenten moeten doorredeneren (of doorrekenen), waarbij het antwoord op de vraag dus afhankelijk is van een eerder antwoord.
*** (Zeer) moeilijke vragen: vragen om excellente studenten te onderscheiden van de gemiddelde studenten.

Transparantie uitklapper, klik om te openen

Studenten horen (voorafgaand aan de cursus) te weten waar zij aan toe zijn, zodat zij zich zo goed mogelijk kunnen voorbereiden op (de cursus en) de toetsing. Daarom dienen de randvoorwaarden van de toetsing, toetsvormen en de leerdoelen bekend te zijn bij de studenten. Dit kan bijvoorbeeld door de randvoorwaarden te beschrijven in de cursusbeschrijving, het blokboek, de toetsmatrijs en/of het rooster.

De randvoorwaarden van toetsing zijn:

  • Het tijdstip waarop de toets plaatsvindt (staat vermeld in het rooster);
  • Eventuele deadlines voor het aanleveren van opdrachten;
  • De vorm en omvang van de toets;
  • De beschikbare tijd;
  • De beoordelingscriteria;
  • De (normering en) cesuur per toets en het minimumcijfer per toets;
  • De weging van iedere deeltoets en de berekening van het eindcijfer;
  • De controle op fraude en plagiaat.

Bedankt voor uw reactie!

Heeft deze informatie u geholpen?

Graag horen we van u waarom niet, zodat we onze website kunnen verbeteren.

Contact

Deze website maakt gebruik van cookies

Deze website maakt gebruik van cookies Deze website toont video’s van o.a. YouTube. Dergelijke partijen plaatsen cookies (third party cookies). Als u deze cookies niet wilt kunt u dat hier aangeven. Wij plaatsen zelf ook cookies om onze site te verbeteren.

Lees meer over het cookiebeleid

Akkoord Nee, liever niet