Was sind Gütekriterien von Prüfungen?

Gütekriterien von Prüfungen sind Maßstäbe, die zur Beurteilung der Qualität und Aussagekraft von Prüfungen herangezogen werden. Die wichtigsten Gütekriterien sind Objektivität, Reliabilität und Validität. Diese sind auch der Teil der ISO 29992.

Prüfungen stellen den Messvorgang dar, welcher das Erreichen von Lernzielen und den Erwerb von Kompetenzen überprüfen lässt. Wie jede andere Messung, muss eine Prüfung dabei einer Reihe von Gütekriterien genügen, damit ihre Resultate aussagekräftig sind: Die Messgröße darf durch den Messvorgang nicht beeinflusst werden (Objektivität), die Messung muss reproduzierbar und präzise sein (Reliabilität), vor allem aber muss die Messgröße eine inhaltlich korrekte Operationalisierung des zu Messgegenstandes darstellen (Validität). Darüber hinaus gilt es zu gewährleisten, dass Prüfungen fair ablaufen und Betrug unterbunden werden kann. Das Ziel der Prüfungen ist es, ein entsprechendes Sprachniveau gemäß des Europäischen Referenzrahmens für Sprachen zu erreichen. Jede Prüfung hat sich den Kriterien Objektivität, Reliabilität und Validität zu unterwerfen. Eine gute Prüfung erreicht, dass Prüfungsteilnehmer sich den Lernstoff so angeeignet haben, dass dieser später in einer den Anforderungen entsprechenden Weise präsent ist.

Objektivität

Um objektiv zu sein, müssen die Ergebnisse einer Prüfung unabhängig von der durchführenden Person sein und wer die Bewertung durchführt, bewertet oder interpretiert. Prüfungen müssen anhand vereinbarter Kriterien objektiv sein, so dass verschiedene Prüfer bei denselben Antworten auf dasselbe Ergebnis kommen. Das stellt sicher, dass mündliche und schriftliche Leistungen der Prüfungsteilnehmenden so objektiv wie möglich anhand der festgelegten Bewertungskriterien beurteilt werden. Bewertungskriterien und ihre konsistente Anwendung werden in regelmäßigen Abständen überprüft. In der Praxis ermöglichen im Vorfeld verfasste Musterlösungen und/oder Kriterien für die Beurteilung der Antworten eine standardisierte und faire Beurteilung der Leistungen durch verschiedene Prüfer.

Reliabilität

Reliabilität beschäftigt sich mit der Frage, wie genau eine Prüfung etwas misst. Eine Prüfung ist dann reliabel, wenn das geprüfte Merkmal (Wissen und Können in einem bestimmten Fach) mit einem hohen Maß an Genauigkeit gemessen wird. Eine höhere Anzahl mittelschwerer Prüfungsfragen führt in der Regel zu einer höheren Reliabilität. Wenn die Umstände in der Praxis es zulassen, sollen in Parallelgruppen dieselben Fragen (vielleicht in unterschiedlicher Reihenfolge) vorgegeben werden. Eine Prüfung und deren Bewertung ist zuverlässig (reliabel), wenn Prüfungsteilnehmende mit ähnlicher Sprachkompetenz auch ein ähnliches Prüfungsergebnis erzielen. Die Reliabilität einer Prüfung kann durch Einsatz entsprechender Prüfungsmethoden erhöht werden sowie durch eine ausreichende Anzahl von Items, um den gewünschten Inhalt des Tests abzudecken und um genügend reliable Informationen über die Kompetenz der Teilnehmenden zu erhalten. Wenn der Test darauf abzielt, mehrere Aspekte reliabel zu prüfen, so erfordert dies eine ausreichende Anzahl von Items pro Subtest. Man kann dazu andere Testformate zu Rate ziehen und die Reliabilität ermitteln.

Item-Reliabilität

Items sind die spezifischen Eingabeaufforderungen oder Aufgaben in einem Test, die die Prüflinge zur Antwort anregen. Diese können Fragen, Anweisungen oder Aufgabenstellungen sein, die in unterschiedlichen Fragetechniken formuliert werden. Jedes Item zielt darauf ab, eine bestimmte sprachliche Fähigkeit oder Wissen zu testen und sollte mit den Spezifikationen der Bewertung übereinstimmen. Es ist von entscheidender Bedeutung, dass alle Komponenten eines Items, einschließlich der Fragestellung und der erwarteten Antwort, einem gründlichen Überprüfungsprozess unterzogen werden, um die Validität und Zuverlässigkeit der Prüfung zu gewährleisten.

Um die Item-Reliabilität in Deutschprüfungen nach dem europäischen Referenzrahmen für Sprachen nachzuweisen, gibt es verschiedene Methoden und Ansätze:

Test-Retest-Methode: Bei dieser Methode werden dieselben Aufgaben oder Fragen an einer Gruppe von Prüflingen zu zwei verschiedenen Zeitpunkten durchgeführt. Die Ergebnisse der beiden Testdurchführungen werden verglichen, um die Konsistenz der Antworten und die Zuverlässigkeit der Aufgaben zu überprüfen. Eine hohe Korrelation zwischen den Ergebnissen deutet auf eine hohe Item-Reliabilität hin.
Paralleltest-Methode: Bei dieser Methode werden zwei oder mehr Versionen desselben Tests mit ähnlichem Schwierigkeitsgrad erstellt. Diese Versionen werden an unterschiedlichen Gruppen von Prüflingen durchgeführt. Durch den Vergleich der Ergebnisse der verschiedenen Versionen kann die Konsistenz und Zuverlässigkeit der Aufgaben überprüft werden.
Interne Konsistenzanalyse: Diese Methode wird häufig bei Tests mit mehreren Aufgaben oder Fragen angewendet. Sie umfasst die Berechnung von statistischen Maßen wie dem Cronbach’s Alpha, um die innere Konsistenz der Aufgaben zu bestimmen. Ein hoher Wert des Cronbach’s Alpha deutet auf eine hohe Zuverlässigkeit der Aufgaben hin.
Expertenbeurteilung: Bei manuell bewerteten Aufgaben können Experten und Expertinnen zur Bewertung herangezogen werden. Die Bewertungen der Experten und Expertinnen sollten miteinander verglichen werden, um die Konsistenz und Zuverlässigkeit der Bewertungen zu überprüfen. Dies kann durch Berechnung von Inter-Rater-Reliabilitätsmaßen wie dem Kappa-Koeffizienten erfolgen.
Statistische Analyse: Je nach Art der Aufgaben und der verfügbaren Daten können weitere statistische Methoden zur Überprüfung der Item-Reliabilität verwendet werden. Beispielsweise können Item-Response-Theory-Modelle oder Generalisierbarkeitsstudien eingesetzt werden, um die Konsistenz der Aufgaben über verschiedene Gruppen von Prüflingen hinweg zu analysieren.

Es ist wichtig zu beachten, dass die Auswahl der Methoden zur Überprüfung der Item-Reliabilität von verschiedenen Faktoren wie dem Prüfungstyp, der Anzahl der Aufgaben, dem verfügbaren Datenmaterial und den Ressourcen abhängt. Es empfiehlt sich, sich mit Fachleuten für Testentwicklung und Testvalidierung zu beraten, um die geeignete Methode für deine spezifische Deutschprüfung auszuwählen und die Item-Reliabilität nachzuweisen.

Validität

Validität beschäftigt sich mit der Frage, ob die Prüfung das misst, was sie messen soll. Ist dies der Fall, so ist die Prüfung valide (gültig). Folgende Fragen gilt es mit zu betrachten: Deckt eine Prüfung den Umfang der Lernziele repräsentativ ab? Messen die Prüfungsaufgaben das in den Lernzielen (GER-Definitionen) definierte Wissen und Können? Eine Prüfung ist dann gültig (valide), wenn sie genau das überprüft, was sie überprüfen soll.

Vor der Veröffentlichung von Prüfungen sollte ein Experte eine finale Gegenprüfung von Aufgaben und Items gemäß der GER-Skalen durchführen und die Prüfungssätze auf Korrektheit und Genauigkeit testen.

Es gibt folgende Validitätstypen:

Konstruktvalidität: Dies bezieht sich darauf, ob Ihre Prüfungen tatsächlich die sprachlichen Fähigkeiten messen, die sie messen sollen, entsprechend den Niveaus des Gemeinsamen Europäischen Referenzrahmens für Sprachen (GER). Dies umfasst das Messen von Hören, Lesen, Sprechen und Schreiben. Ein geeignetes Instrument zum Messen der Konstruktvalidität ist eine Faktorenanalyse.
Kriteriumsvalidität: Dies bezieht sich darauf, ob die Ergebnisse Ihrer Prüfungen mit anderen etablierten Tests oder Kriterien zur Sprachkompetenz korrelieren. Das bedeutet, dass die Ergebnisse Ihrer Prüfungen vergleichbar sein sollten mit anderen Tests oder Bewertungen, die ähnliche sprachliche Fähigkeiten messen.
Praktische Validität: Dies bezieht sich auf die praktische Anwendbarkeit Ihrer Prüfungen, einschließlich der Fairness gegenüber allen Kandidaten und der praktischen Bedeutung der Ergebnisse. Es ist wichtig sicherzustellen, dass die Nutzung der Bewertungsergebnisse die beabsichtigten Auswirkungen hat, beispielsweise für Bildungseinrichtungen oder berufliche Zertifizierungen