Juristische Klausuren erstellen und bewerten – ein schwieriges Geschäft?

33. Frage

Juristische Klausuren erstellen und bewerten – ein schwieriges Geschäft?

Ja! Und die wenigsten Dozenten machen sich immer wieder aufs Neue klar, dass man mit der gestellten und benoteten Klausur über Scheitern, Demotivation, Abbruch oder Aufbruch, Erfolg und Motivation seiner Studenten entscheidet. Und damit über Lebenszeit und Lebenschancen seiner ihm anvertrauten Schützlinge. Klausuren sind die Umformung der studentischen Qualität, d.h. Ihres Könnens und Wissens, in Quantität, d.h. in Zahlen und messbare Größen und vergleichbare Noten.

Klausuren erstellen, korrigieren, benoten und … schreiben – das sind, wie das Lehren und Lernen auch, zwei Seiten derselben Medaille! Der Dozent erstellt, korrigiert und benotet „sie“ – der Student schreibt „sie“. Klausuren, ihre Erstellung, ihre Korrekturen, ihre Benotung sowie das erbärmliche Notenniveau unter Juristen müssten in die Rechtsdidaktik einbezogen werden! Sie stellen eine Black-Box im Jurastudium dar mit quälenden Unsicherheiten und Ängsten für die Studenten. Diese beginnen bereits mit den ersten Semesterabschlussklausuren und ziehen sich hin bis ins Examen. Der Diskurs über dieses sträflich vernachlässigte Themenfeld muss beginnen unter den Studenten ebenso wie in der Rechtsdidaktik.

Anlage, Planung, Korrektur und Benotung von Klausuren wollen gekonnt sein, wenn sie denn einen Erfolg haben sollen, und den sollten sie doch für alle haben. Eine Klausur kann mit einer schönen, bunt gestickten Decke verglichen werden. Der Student sieht regelmäßig nur die Vorderseite dieses dozentischen „Kunstwerkes“, erst ganz allmählich richtet sich sein hoffentlich durch Falltraining geübteres Auge auch auf die Rückseite der Decke, dort wo die fachlichen und methodischen Zusammenhänge der Fäden sichtbar werden, die vorne das schöne, geheimnisvolle Bild zusammenhalten. Man sollte seine Studenten lehren, sich „bezaubern“ zu lassen von dem Produkt des dozentischen „Zauberers“, der die juristischen Problem-Kaninchen in seinem Klausuren-Zauberhut versteckt hat und zugleich ihnen ernöglichen, mit Staunen dem Handwerk dieses „Zauberers“ beim Erstellen, Korrigieren und Benoten zusehen zu können.

An erster Stelle steht das Konzipieren der Klausur.

Dabei sollte die Auswahl des Klausurenstoffes für den Lehrstoff Abbildcharakter haben.

Da der Dozent unmöglich alle behandelten Vorlesungs- und Unterrichtsinhalte zum Gegenstand der Klausurarbeit machen kann, ist er notgedrungen gezwungen, sich auf kleine Teile des Stoffes zu beschränken. Er muss sich darüber klar sein, dass jede Klausur eine Stichprobe ist. Nur darf diese Stichprobe nicht zum Glücksspiel für die Studenten werden, sondern muss einen fairen Wettkampf ermöglichen. Eine Arbeit ist völlig fehlgeplant, wenn der Student, der über kein Basiswissen verfügt, sich aber am Tage vor der Klausur zufällig die Probleme der exotischen Vormerkung (vgl. §§ 883, 885 BGB) angesehen hat, eine Benotung im oberen Bereich der Notenskala erzielt, während derjenige, der über breites und solides Basiswissen verfügt, sich aber nicht mit dem zufälligen kleinen aber feinen Klausurenstoff „Vormerkung“ beschäftigt hat, die Arbeit mangelhaft schreibt. Mangelhaft hat dann nicht der Student, sondern der Dozent gearbeitet, der den Daumen für „zufällig“ vorhandenes oder nichtvorhandenes Spezialwissen hebt oder senkt.

Die Auswahl des Klausurenstoffes darf eben nicht zufällig und willkürlich erfolgen, sondern muss systematisch und begründet vorgenommen werden. Die Aufgabenstichprobe der Klausur muss im Idealfall repräsentativ für die Gesamtmenge der stofflichen, methodischen, stilistischen und klausurentechnischen Kompetenzen sein (Abbildfunktion). Was in der Vorlesung breiten Raum einnahm, muss auch bei der Auswahl des Klausurenstoffes besonders stark berücksichtigt werden. Manchmal hat man den Eindruck, die Studenten sollten mit „Exoten“ hereingelegt werden. Bedeutsame Inhalte sind weniger bedeutsamen vorzuziehen, wobei sich die Bedeutung am Vorlesungsschwerpunkt und an der Praxisrelevanz misst. Lernbedeutende Inhalte haben Vorrang vor lernunbedeutenden Inhalten, d.h. je häufiger künftige juristische Lehr- und Lernprozesse sie wieder aufnehmen, je stärker erfolgreiche Anwendung im künftigen juristischen Berufsleben sie voraussetzen, desto gewichtiger müssen die Inhalte proportionale Abbildungen in den Klausurenaufgaben finden.

Es müsste für jeden Klausurenersteller zum beruflichen Selbstverständnis und zur dozentischen Verantwortung gehören – die Erfahrung lehrt, dass es leider nicht immer so ist –, dass die Prüfungsinhalte Abbilder der vorangegangenen Studieninhalte sind. Juristisches Verständnis kann man nur abprüfen, wenn der Unterricht juristisches Verständnis angebahnt hat; Praxisfragen darf man nur dann verlangen, wenn Praxis vermittelt und geschult worden ist; Transfer und Kreativität müssen geübt worden sein, bevor man sie Studenten in Leistungsnachweisen abverlangt. Hat sich „meine“ Lehre nur auf der Ebene der reinen Informationsvermittlung bewegt (alles wissen – nichts kennen), dann ist keine ausreichende Basis für juristische Problemlösungen gegeben. Sind in den Lehreinheiten gar keine oder nur kleine Fälle und Einzelkomponenten besprochen worden, so darf man nicht erstaunt sein, wenn der Student nicht in der Lage ist, plötzlich umfängliche und komplexe Fall-Aufgaben zu einer gutachtlichen Analyse und schlussfolgernden Synthese zu bringen. Auch müssen juristische Methodik und Arbeitsweise gekonnt sein, bevor man in die Klausur geht. Das Handwerklich-Technische des Klausurenschreibens muss verinnerlicht sein.

Vereinfacht gesagt muss folgende Maxime gelten: Der Student muss Gelegenheit gehabt haben, bei seinem Dozenten zu lernen, was er in der Klausur können muss. Er soll beweisen, was er kann – nicht, was er nicht kann!

Bewusste Über- oder Fehlanforderungen mögen für Selektionszwecke beim beruflichen Einstellungsgespräch willkommen sein. Für eine didaktisch sinnvolle Leistungsüberprüfung für Studenten, gerade am Anfang oder am Ende der Ausbildung, sind sie untragbar. Zu den Fehlanforderungen zählt auch die Stoffquantität auf Kosten der Qualität. Die zu bearbeitenden Mengen sind nicht selten gar nicht zu schaffen (Stichwort: Rennfahrer-Klausuren). Man hat manchmal auch den Eindruck, der Dozent stellt die Klausur gar nicht für die Studenten, sondern mehr für die Kollegen.

Auch darf sich bei Studenten nicht die Auffassung breitmachen, dass es ohnehin nicht viel bringe, vorzuarbeiten, mitzuarbeiten, nachzuarbeiten, weil in der Klausur immer andere, „unfaire“ Aufgaben verlangt würden, mit denen man auch dann nicht zurechtkomme, wenn man zuvor fleißig gearbeitet habe. Schlimmer kann man Studenten kaum demotivieren!

Zur Konzeption einer Klausur zählt schließlich die Abfassung des Klausurentextes.

Bei der Formulierung des Sachverhaltes sollte man das Sprachniveau eher einfach als kompliziert wählen. Man sollte sich einer gut verständlichen, ausbildungsgerechten Sprache bedienen, nichtgeläufige Begriffe, Fachtermini und Fremdwörter tunlichst vermeiden und um Schlichtheit und Klarheit bemüht sein. Man sollte Fehlinterpretationen und Auslegungsproblemen sorgfältigst vorbeugen. Man sollte die Fragestellung unmissverständlich und präzise, jede Nachfrage ausschließend, ausformulieren. Komplizierte Satzkonstruktionen in verschachtelten Aufgabenstellungen, die noch wesentliche Informationen enthalten, haben zu unterbleiben.

Es gibt nicht wenige Fälle, in denen die Mehrzahl der Studenten nach mehrfachem Lesen von Sachverhalts- und Aufgabenteil völlig verständnislos in chaotischer Wirrnis umherblickt und auch nach einer Stunde kostbarer Prüfungszeit, mit angsterfülltem Blick, federhalterkauend über das leere Blatt gebeugt, nichts mit der Arbeit anzufangen weiß. Gut, es mag Fälle geben, in denen man gezielt verwirrende Einstiege oder Sachverhalte mit Personen in Fußballmannschaftstärke wählt, um auch einmal zu überprüfen, ob der Student mit einem ungewohnten Aufhänger oder einer komplexen personellen Verflechtung zurechtkommt. Das muss aber die absolute Ausnahme sein und bleiben und darf niemals für Anfängerklausuren gelten. Es hat sich gut bewährt, nicht gleich mit exotischen Anspruchsgrundlagen oder Straftatbeständen zu beginnen, die dem Studenten unbekannt sind, die ihm Überlegungen abverlangen, die er nicht geübt hat. Die Studenten sollten vielmehr das Gefühl haben, mit der ersten Anspruchsgrundlage, dem ersten strafrechtlich zu prüfenden Tatbestand oder dem ersten prozessualen Prüfungspunkt eines Prüfungsschemas ganz gut zurechtzukommen – also Wege zu gehen, die ihnen vertraut sind, und nicht gleich in tiefster Wildnis verwirrenden Problemen ausgesetzt werden. Wird die Klausur sofort mit einem höchst anspruchsvollen Aufhänger begonnen, entstehen blockierende Ängste, die manchmal bis zum Ende nicht mehr abgebaut werden können. Es schadet gar nichts, zunächst die Zuständigkeiten abzufragen und nicht zu sagen: „Die kann er doch sowieso! Das sind doch Selbstverständlichkeiten!“ Sei’s drum! Die schwierigen Passagen wird man eher im Mittelteil der Klausur platzieren, nachdem der Student sich „warm“ geschrieben hat (warm-up) und somit Sicherheit und Vertrauen zu sich selbst und zu der emotional stark besetzten Situation, die nun einmal eine Klausur immer ist, gefunden hat. Auch am Ende der Arbeit sollten die Anforderungen wieder gesenkt werden, weil dann bei einer vier- oder fünfstündigen Klausur Ermüdungserscheinungen und Konzentrationsmängel einsetzen. Schließlich will man ja vorwiegend und überwiegend die Fachkompetenz und nicht die psychische und physische Robustheit der Studenten beurteilen (obwohl auch sie gefordert ist).

An zweiter Stelle steht die Bewertung der Klausur.

Korrektoren korrigieren oft unbewusst nach völlig verschiedenen Benotungsmodellen, was jeder erfahrene Prüfer und Dozent wissen müsste, aber nur selten weiß:

Bei den einen erfolgt die Benotung überwiegend „ergebnisbezogen“: Richtig oder falsch.
Bei den anderen erfolgt die Benotung überwiegend „kompetenzbezogen“: Argumentation und Form gut, auch wenn gewünschtes Ergebnis nicht genau getroffen wird oder gar falsch ist.
Bei den Dritten erfolgt die Benotung überwiegend „häkchenbezogen“: Ist der Punkt da oder nicht da, und das alles wegen der Mathematisierung.

Auch haben Korrektoren ganz unterschiedliche Erfahrungshorizonte, je nachdem ob es sich um einen Anfänger oder einen Examensprüfer handelt. Wenn Leistungen aber in einer juristischen Klausur – von nicht selten schicksalsentscheidender Bedeutung – einigermaßen vernünftig und substanziiert überprüft und beurteilt werden sollen, dann müssen bei den dozentischen Korrektoren

konkrete Vorstellungen über die Beurteilung und Bewertung einer Klausur als „Messvorgang“ vorherrschen,
die Kriterien für die „Messung der Klausur“ bestimmten Minimalanforderungen genügen und als Anforderungsprofil den Klausurenschreibern kommuniziert werden,
Sensibilitäten über mögliche Urteilsfehler bei Leistungsbewertungen zu finden sein,
Feinfühligkeiten über die eigene Voreingenommenheit bestehen,
die Bezugsnormen der Leistungsbeurteilung und die Kriterienbildung für die Noten nicht verschleiert, sondern offengelegt werden,
die Frage nach der rationalen Begründetheit von Noten gestellt werden,
die Benotungsmodelle hinterfragt worden sein,
Klarheit über die Verständlichkeit der Noten gefunden werden,
die bei jeder Messung unvermeidlichen Messfehler korrigiert werden können,

um nur die wichtigsten Problemfelder zu nennen.

Die Sensibilisierung für diese Wertmesser ist für den Dozenten von großer Bedeutung, da er schnell als „Täter“ von Bewertungsfehlern, Voreingenommenheiten, fehlender oder untauglicher Benotungsmodelle angeprangert werden könnte. Hinzu kommt, dass es sich bei der Benotung um eine Gerechtigkeitsfrage handelt, um die Jura ja kreist und die deshalb sehr ernst genommen werden müsste. Es gibt ganz erhebliche Abweichungen, was jeder erfahrene Prüfer und Benoter weiß. Zwar werden sich die Top-Studenten immer klar absetzen, ebenso wie sich völlig ungeeignete offenbaren. Aber dazwischen gibt es von „vollbefriedigend 12“ bis „ausreichend 4“ eine Grauzone von Abstufungen, die spätestens im Examen über Lebenschancen, vorher im Studium über Scheitern, Abbruch und Motivation entscheiden.

Einige Gedanken möchte ich zu dieser Gerechtigkeitsfrage(-lücke) beitragen.

1. Gedanke: Die Beurteilung einer Klausur ist ein Messvorgang

Springen die drei Weitspringer Müller, Meier, Schneider 3,10 m, 6,20 m und 1,55 m weit, so hat man die jeweilige Weite zunächst aufgrund eines technischen Messvorgangs mittels eines Bandmaßes oder elektronisch festgestellt, also (Mess-)Zahlen einer (Sprung-)Eigenschaft der Sportler Müller, Meier und Schneider zugeordnet. Viele meinen nun, bei einer Klausurenbenotung handele es sich um den gleichen Messvorgang. Der Dozent ordne eine (Noten-)Zahl einer (Fach- und Sach-)Eigenschaft der Studenten Müller, Meier und Schneider zu. Das stimmt aber nicht, wie wir gleich sehen werden.

Rangniveau

Will man lediglich feststellen, wer Erster, Zweiter oder Dritter geworden ist, so werden die Messzahlen (im engeren Sinne) in eine Rangordnung gebracht (ranking). Meier: Erster; Müller: Zweiter; Schneider: Dritter. Es wird auf Rangniveau gemessen.

Intervallniveau

Will man dagegen feststellen, welche Abstände zwischen den Weiten stehen, wird auf Intervallniveau gemessen. Gleichgroßen Unterschieden der gemessenen (Sprung-) Eigenschaft entsprechen gleichgroße Unterschiede in den (Mess-)Zahlen. Meier ist 3,10 m weiter als Müller und 4,65 m weiter als Schneider gesprungen; Müller ist 3,10 m kürzer als Meier, aber 1,55 m weiter als Schneider gesprungen; Schneider ist 4,65 m kürzer als Meier und 1,55 m kürzer als Müller gesprungen.

Verhältnisniveau

Will man feststellen, welche Abstände bei den gemessenen Weiten von einem definierten Nullpunkt bestehen, messen wir auf Verhältnisniveau. Beim Weitsprung haben wir einen Nullpunkt: 0,0 m, die Weite, die wir dem Sportler eintragen, wenn er übergetreten ist. Jetzt erst besteht die Möglichkeit, Aussagen über Größenverhältnisse zu machen: Meier ist doppelt so weit wie Müller und viermal so weit wie Schneider gesprungen; Müller ist halb so weit wie Meier, aber doppelt so weit wie Schneider gesprungen; Schneider ist halb so weit wie Müller gesprungen, hat aber nur ein Viertel der Weite des Meier erreicht.

Auf welchem Skalenniveau „messen“ nunmehr die Korrektoren die juristischen Klausurenleistungen?

Den verbalisierten Ziffernoten sehr gut, gut, vollbefriedigend, befriedigend, ausreichend, mangelhaft, ungenügend, präzisiert in den Rangpunkten 0-18, werden Objekteigenschaften, nämlich bestimmte Klausurenqualitäten zugeordnet (zu den Kriterien gleich mehr). Aber auf welchem Zahlenniveau bewerten Sie?

Bringen Ihre juristischen Noten auf Rangniveau eine Rangfolge innerhalb einer bestimmten Studentengruppe zum Ausdruck?

Dokumentieren Ihre juristischen Noten auf Intervallniveau die Abstände (Intervalle) der Studenten untereinander?

Definieren Sie auf Verhältnisniveau einen bestimmten „Nullpunkt“ und treffen von diesem Punkt aus Aussagen über Abstandsverhältnisse?

Ihre Rolle als Klausurenkorrektor verkompliziert sich aber ganz entscheidend dadurch, dass Sie die „Leistungsmessung“ auch noch zu bewerten haben. Es wird zwar formal gemessen, inhaltlich aber bewertet. Es genügt ja nicht, festzustellen, dass Meier in der Klausur 60 Punkte, Müller 30 Punkte und Schneider 15 Punkte erzielt haben. Verlangt wird eine Entscheidung darüber, ob das nun eine „sehr gute“ oder „vollbefriedigende“ oder „mangelhafte“ Leistung gewesen ist. Die „Note“ sieht nach außen so aus, als wäre sie das Resultat eines exakten Messvorgangs, während sie tatsächlich das Produkt eines mehr oder weniger verdeckten Bewertungsvorgangs darstellt auf dem Bewertungsstrahl von 18 Punkten „sehr gut“ bis 0 Punkte „ungenügend“.

Wenn man aber bewertet, dann kann man das nur in Bezug auf eine Norm tun. Von welcher Norm her bestimmt sich aber, was Sie als „sehr gut“, „vollbefriedigend“ oder „mangelhaft“ ansehen?

Zwei Bezugsnormen kommen in Betracht:

Zum einen die innere Bezugsnorm. Man beurteilt die Leistung des individuellen Studenten nach ihrem Verhältnis zur Leistung innerhalb der Studentengruppe, welche die Klausur geschrieben hat. Die Klausur ist „sehr gut“, wenn sie die Gruppenleistung weit übertrifft, „gut“, wenn sie die Gruppenleistung erheblich übertrifft, „befriedigend“, wenn sie der Gruppenleistung entspricht, „mangelhaft“, wenn sie hinter dieser Gruppenleistung erheblich oder ganz erheblich zurückbleibt.
Zum anderen die äußere Bezugsnorm. Man kann sich von der Gruppenleistung gänzlich lösen und die Klausur nach objektiven, fachlich-juristischen Anforderungen ‑ Qualitätskriterien – bewerten, die unabhängig von der Gruppenleistung formuliert werden. „Sehr gut“ ist dann die Klausur, welche diese Anforderungen weit übertrifft, „gut“, wenn sie die Anforderungen erheblich übertrifft, usw.

2. Gedanke: An welcher Bezugsnorm justieren juristische Korrektoren nun ihre Werturteile?

Suchen sie letzte Orientierung am „Gruppendurchschnitt“ oder an außerhalb der Gruppe gelegenen Kriterien, gewissermaßen an einem überindividuellen, allgemeinen, „metaphysischen“ Erfahrungsdurchschnitt?

Wie immer sollte ein Blick ins Gesetz unnötige Schwierigkeiten ersparen. Aber auch dieser Blick hilft nicht weiter. In den Prüfungsordnungen werden für die Noten zwar verbindliche Wortbedeutungen festgelegt, sie orientieren sich aber für nahezu sämtliche Notenbeschreibungen an sogenannten „durchschnittlichen Anforderungen“.

Ist durch diese stereotype Wendung die innere oder die äußere Bezugsnorm intendiert? Da die innere Bezugsnorm keine generelle Vergleichbarkeit zulässt, muss wohl die äußere Bezugsnorm gemeint sein. Wer gibt aber – insbesondere jungen –Korrektoren die Qualitätskriterien für diese anonymen, vorgeblich an sachlichen Erfordernissen orientierten „durchschnittlichen Anforderungen“ vor?

Ich kann an dieser Stelle die Fragen nur stellen. Es muss hier genügen, Dozenten wenigstens mit den Fragestellungen zu konfrontieren, damit die jungen Kollegen für diese Problematik sensibilisiert werden. Vielleicht ergibt sich ja gelegentlich eine Diskussion darüber mit einem Alt-Kollegen.

3. Gedanke: Was sind die Minimalanforderungen an den Bewertungsvorgang?

Welchen Gütekriterien müssen die „Messungen“ und „Bewertungen“nun genügen, um die Ergebnisse objektiv, d.h. unabhängig vom korrigierenden Bewusstsein, sachlich und vorurteilsfrei verwertbar zu machen?

Zunächst die Objektivität

Die Objektivität bezeichnet den Grad, in welchem die Ergebnisse unabhängig von der Person des messenden Bewertenden sind; Objektivität bedeutet beobachtende Unabhängigkeit. Die Objektivität einer Klausurbeurteilung müsste sich darin zeigen, dass verschiedene Dozenten dieselbe Klausurleistung unter gleichen Umständen gleich beurteilen und mögliche Beurteilungsdifferenzen äußerst gering ausfallen. Allgemein bekannt sind aber die enormen Schwankungsbreiten in der Beurteilung schulischer wie akademischer Leistungen. Um diese Breiten schmal zu halten, muss man sich als korrigierender Dozent bei der Beurteilung der Klausur folgende Fragen stellen:

Sind meine Ergebnisse unabhängig von meiner Person?
Bin ich sicher, dass auch andere Kollegen zu denselben Ergebnissen gekommen wären?
Habe ich die Klausur für alle Studenten in der gleichen Weise gewertet?
Habe ich die Klausur für alle Studenten unter den gleichen Bedingungen schreiben lassen?
Bin ich sicher, dass auch andere Dozenten die Bedingungen gleich gestalten würden?
Habe ich die Bewertung sämtlicher Klausuren nach demselben Punkte-Schema vorgenommen? (Was voraussetzt, dass ich ein solches Schema überhaupt erstellt habe!)
Bin ich sicher, dass auch andere Dozenten nach einem solchen Schema auswerten und zu den gleichen Ergebnissen kämen?
Habe ich alle Klausurarbeiten bei gleicher Fehlerintensität und Fehlerhäufigkeit der gleichen Note zugeordnet?
Bin ich sicher, dass auch andere Dozenten das Ergebnis der Klausur unter die gleiche Notendefinition subsumieren würden?

Sodann die Zuverlässigkeit (Reliabilität)

Die Reliabilität bezeichnet die Zuverlässigkeit einer Messung und des Bewertungskatalogs, ihre Genauigkeit und ihre Sicherheit. Ein Messinstrument ist so zu konzipieren, dass es zum Zeitpunkt Z1 ein gleiches Ergebnis zeigt wie zum Zeitpunkt Z2 (sog. Retest-Reliabilität). Auf die Situation der Klausuren bezogen lauten die Grundfragen der Reliabilität:

Repräsentiert meine Note den wahren Ausprägungsgrad der Klausurleistung?
Wird mein Ergebnis von Messfehlern verfälscht?
Habe ich die Schwerpunkte im Benotungsmodell richtig gesetzt?

Schließlich die Gültigkeit (Validität)

Validität bezeichnet die Gültigkeit einer Messung und ihrer Bewertung. Sie ist dann gegeben, wenn gewährleistet ist, dass tatsächlich das gemessen wird, was man auch messen will. Ein „valider“ Intelligenztest etwa erhebt Intelligenz und keine anderen Variablen, wie z.B. Schulleistung oder Wissen. Bezogen auf die hochschulische Leistungsüberprüfung einer Klausur lautet die Grundfrage der Validität: Misst meine Leistungsprüfung wirklich vor allem jene Fachkompetenzen, die ich bei einer Klausur auch messen will und soll und nicht etwa andere wissenschaftliche Leistungen, wie etwa die einer Hausarbeit? Eine völlig isolierte Messung einzelner Fachkompetenzen ist freilich nicht möglich. In einem gewissen Umfang werden in einer juristischen Klausur immer auch sprachliche Kompetenz, klausuren-technische Kompetenz, Rhetorik, Methodik, Logik, Abstraktionsfähigkeit, juristisches Grundwissen, Lebenserfahrung, Gutachtenstil und Gedächtnis mitgeprüft. Man sollte aber Klausurenbeurteilungen anstreben, bei denen mitgemessene Komponenten aus anderen Kompetenzbereichen das Leistungsbild der Klausur nicht allzusehr dominieren oder verfälschen.

Die Fragen, die man sich als der korrigierende Dozent bei der Validität (Gültigkeit) stellen sollten, lauten in etwa:

Werden wirklich vor allem diejenigen juristischen Fachkompetenzen gemessen, die eine solche juristische Klausur messen will und soll?
Werden meine Ergebnisse zu stark von mitgemessenen Komponenten aus anderen Bereichen oder aufgrund meiner „ Steckenpferde“ mitbeeinflusst?
Bin ich sicher, dass andere Dozenten die gleichen „Steckenpferde“ reiten?
Bin ich nicht zu stark an den Formalien, der Sprachkompetenz, dem Gutachtenstil oder der Orthographie orientiert?
Misst meine Klausur auch wirklich Kompetenzen, die der Student in meiner Vorlesung erwerben konnte? (Vorlesungszusammenhang!)
Spiegelt meine Note zutreffend die gemessene Klausurenqualität wider? Ist sie ein Abbild der Leistung?
Habe ich bei studienbegleitenden Klausuren genügend Gewicht auf das gelegt, was für den weiteren Lernprozess bedeutsam ist? (Grundlagenzusammenhang)
Stimmen meine Ergebnisse auch mit anderen gewonnenen Resultaten überein? (mündliche Leistung, praktische Leistung, erzielte Ergebnisse in anderen Fächern)
Warum fällt meine Note gegen andere ab oder sticht hervor?

4. Gedanke: Vorurteile hat jeder Dozent!

Von jedem Korrektor muss eine hohe Feinfühligkeit gegen Vorurteile und für die eigene Unvoreingenommenheit verlangt werden. Das ist recht schwer!

Ach, Sie glauben, Dozenten haben gar keine Vorurteile? Sehen Sie, schon das ist ein Vorurteil, dass Sie glauben, Sie hätten kein Vorurteil. Zum Beweis möchte ich Ihnen folgende kleine Geschichte erzählen:

Nehmen wir an, Sie landen in einer fernen Zukunft mit einem Raumschiff in einer fremden Galaxie auf einem unwirtlichen Planeten. Zwei Gestalten erscheinen an der ängstlich ausgefahrenen Rolltreppe. Die eine ist rund, knuffig und wolkig und stellt sich in tiefem Bass mit dem Namen „Modula“ vor. Die andere ist eckig, zackig und spitz in ihrer Gestalt und erklärt mit gepresster Stakkato-Stimme, sie heiße „Stakete“. Beide bieten Ihnen an, Sie zu ihrem König zu bringen. Na, wem von beiden vertrauen Sie sich an? – Richtig! Sie gehen selbstverständlich mit „Modula“, obwohl nichts, aber auch gar nichts dafür spricht, dass es sich bei „Modula“ um den guten und bei „Stakete“ um den schlechten Boten handelt. Genau umgekehrt könnten die Dinge liegen. Sie gehen nicht aufgrund irgendeines rationalen Grundes mit „Modula“, sondern als Gefangener Ihrer Vorurteile. Bei der weichen, runden Person mit dem aus vielen Vokalen zusammengesetzten Namen vermuten wir – durch nichts begründbar – Vertrauenswürdigkeit und Gutmütigkeit. Der eckige und spitze, konsonantenbesetzte Name „Stakete“ flößt hingegen Misstrauen ein und lässt Verschlagenheit vermuten.

Sie haben also doch Vorurteile! Warum nun sollten Sie als korrigierender Dozent solche Vorurteile nicht haben? Das Vorurteil ist aber das Urteil des Narren – es muss in engen Schranken gehalten werden; es muss besonders bei Klausuren an die didaktische Kette.

Folgende Fragen muss man sich als Korrektor immer wieder aufs Neue stellen, wenn man Vorurteilen nicht aufsitzen will:

Lasse ich mich von Alter, Aussehen, Geschlecht, Herkunft oder Vorbildung der Studenten zu stark (oder überhaupt) beeinflussen?
Lasse ich meine Auffassung über meine eigene Rolle als Korrektor (Machtposition), über meinen augenblicklichen Status (Dozent, der noch etwas beweisen muss; Dozent, der niemandem mehr etwas beweisen muss) oder über meine schon vor der Korrektur existierende Vorstellung über die Studenten in die Bewertung einfließen?
Habe ich den „ersten Eindruck“, der mehr aus dem Bauch als aus dem Verstand kommt, zu stark berücksichtigt?
Habe ich bei der Korrektur diejenigen Aspekte zu stark gewichtet, die für mich selbst besonders leicht zu erfassen waren?
Bin ich einem Reihungsfehler aufgesessen?
Habe ich eine durchschnittliche Arbeit nur deshalb besser bewertet, weil unmittelbar vorher eine schlechte Arbeit zu bewerten war?
Habe ich eine durchschnittliche Arbeit nur deshalb schlechter bewertet, weil unmittelbar vorher eine sehr gute Arbeit zu bewerten war?
Habe ich eine sehr gute Arbeit nur deshalb schlechter bewertet, weil zwei unmittelbar vorher benotete Arbeiten schon sehr gut waren und ich unbewusst dem unausgesprochenen Dogma anheim gefallen bin, dass es so viele gute Arbeiten hintereinander gar nicht geben kann?
Habe ich eine mangelhafte Arbeit nur deshalb ausreichend genannt, weil zwei unmittelbar vorher beurteilte Arbeiten schon mangelhaft waren und ich dem gleichen Dogma aufsaß?
Habe ich einzelne Arbeiten „gehoben“ oder „abgesenkt“, weil es schon zu viele gute oder schlechte Arbeiten gegeben hatte?
Habe ich mich nicht zu sehr von der juristisch abgewandelten Gaußschen Normalverteilung (ver-)leiten lassen? (Note 1: 0 %; Note 2: 12 %; Note 3: 13 %; Note 4: 20 %; Note 5: 30 %; Note 6: 25 %; Note 7: 0 %). Dagegen sei hier die normale Gaußsche Verteilung notiert: Note 1: 2,3 %; Note 2: 13,6 %; Note 3: 34,1 %; Note 4: 34,1 %; Note 5: 13,6 %; Note 6: 2,3 %)
Habe ich voreilige Schlussfolgerungen daraus gezogen, dass mich ein Kollege vorher über einen Studenten „geimpft“ hat (Dozentenklatsch!)?
Habe ich aus den hervorragenden Leistungen im Fach BGB unzulässige Rückschlüsse auf das Fach ZPO gezogen? Wer im Fach BGB gut ist, ist ja eo ipso auch im Fach ZPO gut – und umgekehrt!
Bin ich mir eigentlich über den sogenannten Halo-Effekt im Klaren? Unter Halo-Effekt versteht man eine positive oder negative Beeinflussung bei der Beurteilung durch den ersten pauschalen Gesamteindruck oder (wichtiger!) die bereits vorhandene Erkenntnis von anderen Eigenschaften der zu beurteilenden Person (halo, englisch: Hof um eine Lichtquelle). Kann ich ausschließen (und das muss ich können!), dass der vorauseilende Ruf eines Studenten als Durchfaller, Problemfall, Aufsässiger, Chaot, dass sein Auftreten, seine Kleidung, sein Herkommen, seine Sprachkompetenz, sein Sozialverhalten, seine Ordentlichkeit oder Unordentlichkeit mich bei meiner Beurteilung beeinflussen – umgekehrt beim Überflieger, beim „Star der Truppe“ das vorgeprägte positive Gesamtbild auch Schwächen überstrahlt? Die Gefahr des Halo-Effekts lauert insbesondere bei positiv oder negativ stark auffälligen Studenten. Ich laufe eher meiner Voreingenommenheit bei Leistungen auf, die im Überlappungsbereich zweier Noten liegen. Hier muss ich mich jeweils prüfen, in welches Notenlager ich mich bei welchem Studenten ziehen lasse.

5. Gedanke: Die Vermeidung von Beurteilungsfehlern muss bei jedem Korrektor oberste Priorität genießen. Deshalb sollte er sich folgende Fragen stellen:

Sind meine persönlichen Vorlieben und Abneigungen in die Bewertung eingeflossen?
Habe ich genügend Pausen bei der Klausurenbewertung eingelegt? Bei längeren Korrekturen treten Ermüdungserscheinungen auf!! Die Pausen beugen rhythmischen Korrekturschwankungen vor und dienen der Abschwächung von Reihungsfehlern. Die stolze, nach Lob heischende Fanfare des Kollegen „Habe 20 Klausuren an einem Tag erledigt“, darf nicht beklatscht, sondern muss ausgepfiffen werden.
Verfärben meine persönlichen Eigenschaften, meine „Macken“, (Stilist, Dogmatiker, Rechtsprechungsfanatiker, Pragmatiker, Wissenschaftstyp, Ordnungsliebender, Formalist, Methodiker, Mindermeinungsprediger, Narziss, Erbsenzähler) meine Ergebnisse?
Sind die Studenten zu sehr Opfer oder Gewinner meines individuellen Beurteilertypus?

Die vier individuellen „Beurteilertypen“

Jeder korrigierende Dozent sollte sich möglichst schnell Klarheit darüber verschaffen, zu welcher Tendenz er neigt und dieser Neigung bewusst entgegensteuern. Denn: Durch persönliche „Macken“, durch Differenzierungsdefizite in den Beurteilungen und ungleichmäßige Ausschöpfung der Notenpalette werden die Studenten im horizontalen wie vertikalen Notenspektrum benachteiligt. Dieser Tendenz muss man als Korrektor entgegenwirken.

6. Gedanke: Wichtig ist, dass man den Studenten Klarheit über die Genealogie einer Note verschafft.

Die Studenten sollten wissen, wie der Dozent bei der Beurteilung einer Klausur verfahren wird, vor allem, wie seine Note entsteht und welche Kriterien dabei für ihn Verwendung finden. Wissen die Studenten nämlich nicht um die Kriterien, die unterscheidenden und vor allem entscheidenden Kennzeichen und Grundlagen bei der Benotung, so gleicht ihre Klausurarbeit einer Fahrt ins Blaue, da man keine realistische Einschätzung gewinnen kann. Man sollte sie den Studenten zur Vorbereitung der Klausur austeilen. Nur wer weiß, welche Kriterien für gelungene Klausuren maßgebend sind, wird sich um diese Maßstäbe auch bemühen. Die Bekanntgabe dieses Wissens müsste in der Lehre zum selbstverständlichen Ethos der Dozenten werden.

Hier nun die gängigsten Qualitätskriterien für die Bewertung unserer juristischen Klausuren, egal aus welchem Fachgebiet. Man sollte sie den Studenten vor der Klausur anvertrauen:

Vollständige Erfassung des Sachverhalts und richtiges Sezieren der Aufgabenstellung
Herausstanzen der konkreten Probleme und deren richtige Gewichtung
Begriffliche Klärungen
Beherrschung der Definitionen
Subsumtionstechnik, Auffinden der einschlägigen Gesetze
Gutachtenstil/Urteilsstil und saubere Subsumtion
Stimmen die Proportionen innerhalb des Gutachtens?
Emanzipation gegenüber Rechtsprechung und Literatur?
Gelingt es, die zentralen Probleme auszuschöpfen, zu fokussieren, vertretbar zu lösen und zu begründen? Werden die erkannten Probleme einer tragfähigen und praktisch brauchbaren Lösung zugeführt?
Gelingt es sprachlich, das Gutachten so darzulegen, dass ein fachkundiger, nichtspezialisierter Leser zufriedenstellend informiert wird?
Vermeidung von Weitschweifigkeit, von überladenen, auf Vollständigkeit abzielenden Aufbauschemata
Konsequente Anwendung der juristischen Methodik – ehrlicher: des juristischen Handwerkzeugs
Ist der Aufbau formal-logisch in Ordnung, werden Unterpunkte übergeordneten Gliederungspunkten richtig zugeordnet, wird konsistent ausgelegt?

Entwickeln sich die Ausführungen schlüssig aus der Darlegung der Gesetze und Problemstellungen?

Drückt der Verfasser sich klar und verständlich aus?
Versteckt sich der Verfasser hinter dem BGH ohne eigene Kritik?
Werden eigene Gedanken zu den Problemen entwickelt oder werden nur mehr oder weniger auswendig gelernte Theorien reproduziert?
Bringt die Arbeit gegebenenfalls neue Erkenntnisse?
Sind Widersprüche, Brüche, Lücken, Wiederholungen oder Unklarheiten vorhanden? – Keine unzusammenhängenden Textbausteine?
Beherrscht der Verfasser die juristische Diktion und das terminologisch-juristische Instrumentarium?
Werden Behauptungen aufgestellt, die gesetzlich nicht unterlegt sind? – Wird stimmig unter Konzentration auf die Schwerpunkte des Falles argumentiert?
Entsprechen Aufbau, äußere Form und Gestaltung den üblichen Anforderungen?
Ist die Klausur im wesentlichen frei von sprachlichen Mängeln in Interpunktion, Orthographie und Grammatik? – Gekonnte Sprache?
Ist die Darstellung vollständig?

Dabei muss jeder Dozent, um sich nicht in der Bewertung zu verlieren, die Kriterien bündeln.

Erfassen des Sachverhalts, Beschreibung und Erkennung der Probleme
Aufbau und Gliederung der Klausur

Inhaltliche Ausführungen zu den Problemen und deren Lösung und Begründung

Formale Gestaltung
Stil und Methodik

Da der Dozent unterschiedlich gewichtige Kriterien verwendet hat, ergibt sich als abschließendes Problem die Zuordnung eines Gewichtungsfaktors zu den Qualitätskriterien.

Nur als Beispiel für Sie soll folgendes Modell der Notenermittlung gelten:

Dabei sollte immer der Satz gelten: In dubio pro studioso.

Die inhaltlichen Erörterungen zu den „Star-Problemen“ – den „Kaninchen im Klausurenzylinder“ – müssten als gewichtigster Teil der Klausurarbeit einer gesonderten Punkteskala unterzogen werden. Dabei wird die Zuordnung der für dieses Kriterium „Inhaltliche Ausführungen zu den Problemen und deren Lösungen und Begründungen“ zu ermittelnden Note nach logisch isolierbaren Einzelleistungen wie Anzahl der richtigen Denkansätze, Problemlösungen, bewältigte Teilleistungen und der darauf gegebenen Punkte vorgenommen. Die Denkansätze, Problemlösungen und Teilleistungen sind differenziert je nach Schwierigkeitsgrad zu gewichten und zu wägen, wobei man sich vor „Atomisierungen“ hüten sollte.

Die Anlage eines Punkteschemas setzt denknotwendig die Ausarbeitung einer Musterlösung voraus. Da der Klausurenersteller im Gegensatz zu anderen „Testern“ nicht in der Lage ist, seine Klausur vorzutesten, ist der eigentliche Vorlauf des Dozenten ausschließlich seine selbst angefertigte Musterlösung. Nur so entdeckt er Sachverhaltsschwächen, Ungereimtheiten, ungewollte Schwierigkeiten und Möglichkeiten von Missverständnissen. Bei diesem „Test“ sollte man auch die den Studenten zur Verfügung stehende Zeit im Auge behalten und nochmals daran denken, dass ihnen, im Gegensatz zum kommentarwälzenden Klausurenersteller, keine Hilfsmittel mit Ausnahme von Gesetzessammlungen (Schönfelder) zugänglich sind. Die auszuhändigenden Lösungshinweise sollten die Studenten nicht „erschlagen“ und mutlos machen. Musterlösungen mit den ausgefeiltesten Argumenten und noch der hundertsten Mindermeinung sind wenig motivierend.

Es stellt sich abschließend noch die Frage, wie die zusammenfassende Beurteilung der Klausur im Hinblick auf die aufgezeigten Relevanzen zu erfolgen hat.

Dazu gibt es zwei Modelle:

die Ziffernote und
das Wortgutachten.

Obwohl das Wortgutachten für die Studentendiagnose sowie für die Entwicklung eines autonomen Lernverhaltens sehr viel besser geeignet ist, da es individuelle Angaben enthält, welche den Leistungsstand und die spezifischen Fehler und Vorzüge widerspiegeln, kommt es für die Juraausbildung – mit Ausnahme von Anfängerübungen – nicht in Betracht. Hier sind Leistungsdaten erforderlich, die man vergleichen kann. Allerdings ist bei vielen Ziffernoten zu bemängeln, dass die Korrektoren den dargestellten Funktionen von Klausuren durch eine „nackte“ Ziffernote nur ziemlich formal und oberflächlich nachkommen. Ein paar Haken und Schlangenlinien, Fragezeichen und Ausrufezeichen geben den Studenten Steine statt Brot. Zwischen nackter Ziffernote und einem Wortgutachten sollte man den Kompromiss suchen: Um mehr den didaktischen Effekten zu nutzen, sollte man zumindest durch lesbare und hilfreiche Randvermerke den Studenten auf Schwächen (negative Verstärker) und Stärken (positive Verstärker) aufmerksam machen, statt durch eine bloße Ziffer den außerdidaktischen Funktionen Priorität einzuräumen. Am schlimmsten ist es, durch Bemerkungen wie „vgl. Besprechung“ sich der eigenen Stellungnahme zu entsagen und diese Besprechung dann schlicht entfallen zu lassen oder einem gutgläubigen Werkzeug, dem Kollegen oder Assistenten, zu überantworten. Dann hat der Dozent sein kostbarstes Kapital, sein Vertrauen, verspielt!

Zu wünschen ist Ihnen nun, dass Sie häufig unter die Klausuren Ihrer Studenten den Satz schreiben können: „Verfasser präsentiert eine fehlerfreie Arbeit in Inhalt, Stil und Aufbau!“. Denn: Ob Sie gut oder schlecht gelehrt haben, ob Sie von Rechtsdidaktik etwas begriffen haben oder nicht, können Sie eigentlich erst wissen, wenn Sie die Klausuren Ihrer Studenten gelesen und korrigiert haben.