Schlagwörter des Wissenschaftssystems…
iFQ - Bewertung wissenschaftlicher Qualität durch Gutachtergruppen (Meike Olbrecht)

Bewertung wissenschaftlicher Qualität durch Gutachtergruppen
Meike Olbrecht © April 2009

Methoden zur Evidenzfindung und Qualitätssicherung in der Wissenschaft sind traditionell Peer Review-Verfahren, das heißt, die Bewertung wissenschaftlicher Qualität durch Fachkolleginnen und -kollegen (Peers).
Im Bereich der Antragsbegutachtung lassen sich zwei Vorgehensweisen bei der Bewertung von Forschungsannoncen unterscheiden: die Einzel- und die Panelbegutachtung. Bei der Einzelbegutachtung nehmen Gutachterinnen und Gutachter unabhängig von einander die Bewertung von Anträgen vor und halten diese jeweils in einem Gutachten fest. Bei der Panelbegutachtung erfolgt die Bewertung in Gutachtergruppen über einen gemeinsamen Beratungs- und Entscheidungsprozess.
Obwohl inzwischen Forschungsgelder in erheblichem Umfang über Gutachtergruppen vergeben werden, ist über die Mechanismen der Konsensfindung und Leistungsfähigkeit sowie potentielle Bias-Faktoren bei dieser Form der Begutachtung wenig bekannt.
Im Folgenden soll die Bewertung wissenschaftlicher Anträge in Gruppen als zunehmend wichtiger werdender Form der Begutachtung vorgestellt und von der Einzelbegutachtung abgegrenzt werden. Ziel ist es, zu zeigen, dass in der Peer Review-Forschung zur Panelbegutachtung Forschungsbedarf besteht.

Die Gruppenbegutachtung – das dominierende Peer Review-Verfahren
Lange Zeit war die Einzelbegutachtung die vorherrschende Form zur Bewertung von Anträgen. Inzwischen gewinnt die Begutachtung in Gruppen auch international immer mehr an Bedeutung. Im European Research Council (ERC), dem jährlich etwa eine Milliarde Euro Fördermittel zur Verfügung stehen, erfolgt die Bewertung von Anträgen zum Beispiel ausnahmslos über Panelbegutachtungen. In der Deutschen Forschungsgemeinschaft (DFG) fließen nur noch rund 29 Prozent des Gesamtbudgets in die Einzelförderung, in der Gutachterinnen und Gutachter unabhängig von einander die Qualität eines wissenschaftlichen Antrags bewerten. Mehr als die Hälfte des Budgets steht inzwischen für Förderprogramme bereit (DFG Jahresbericht 2007: 136), in denen wissenschaftliche Anträge durch Gruppen wissenschaftlicher Expertinnen und Experten bewertet werden.

Die Bewertung wissenschaftlicher Leistungen in Gruppen
Die Art und Weise, wie Panelgruppen arbeiten, kann je nach Programm und Forschungsförderungsinstitution variieren. In manchen Sitzungen besteht zum Beispiel der Druck zur Konsensfindung, bei wieder anderen entscheidet die Mehrheit. Manche Verfahren arbeiten mit so genannten Berichterstattermodellen, bei dem sich ein oder mehrere ausgewählte Gutachterinnen beziehungsweise Gutachter im Vorfeld intensiv mit einem Antrag beschäftigen und diesen während der Sitzung den übrigen anwesenden Gutachterinnen und Gutachtern vorstellen. Die Gruppengröße kann dabei sehr unterschiedlich sein. In der Literatur finden sich Beschreibungen von Gruppen, die sich aus lediglich drei Personen zusammensetzen, andere berichten von 24 Mitgliedern (Pagano 2006, Langfeldt 2001, Green et al 1989). Die Beratungsgruppen können international zusammengesetzt sein und/oder Wissenschaftlerinnen und Wissenschaftler verschiedener Disziplinen vereinen. Ebenso variiert die Anzahl an Anträgen, die pro Sitzung bearbeitet werden und damit die Zeit die pro zu bewertendem Antrag zur Verfügung steht. Je mehr Anträge pro Sitzung verhandelt werden, desto sinnvoller erscheinen Berichterstattermodelle, da es mit zunehmender Antragsanzahl immer unwahrscheinlicher wird, dass jede Gutachterin beziehungsweise jeder Gutachter auch jeden Antrag intensiv gelesen hat.

Gruppenbegutachtung versus Einzelbegutachtung
Die Gruppenbegutachtung unterscheidet sich von der anonymen, schriftlichen Begutachtung im Einzelverfahren insbesondere dadurch, dass am Ende des Reviewprozesses ein einheitliches Votum steht, die Entscheidungen durch offene Kommunikationsprozesse zu Stande kommen und Gutachtende und Antragstellende meist von einander wissen – Anonymität ist also gar nicht oder nur sehr eingeschränkt gewährleistet. Teilweise ist es sogar so, dass die Antragstellenden im Vorfeld der Panelsitzung den Gutachterinnen und Gutachtern ihr Vorhaben präsentieren und die Peers im Anschluss an die Präsentationen die Möglichkeit haben, Fragen zu stellen.

Vorteile von Panelbegutachtungen im Gegensatz zur Einzelbegutachtung bestehen darin, dass eine Reihe von Argumenten für oder gegen ein Forschungsvorhaben zusammengetragen und Meinungen durch Kommunikationsprozesse revidiert werden können, so dass im Idealfall am Ende ein solide begründetes Ergebnis steht, welches deutlich mehr Facetten berücksichtigt als ein Einzelgutachten. Bei Unklarheiten können sich die Gutachtenden – je nach Verfahren – mit ihren Fragen direkt an die Antragstellenden wenden. Eine solche Feedbackschleife ist bei der Einzelbegutachtung nicht möglich.
Nachteile der Panelbegutachtung sind, dass sie viel zeit- und kostenintensiver ist als die Einzelbegutachtung. Je nach Zusammensetzung der Gutachtergruppe können zusätzlich sprachliche und/oder disziplinspezifische Verständigungsprobleme entstehen. Zudem kann insbesondere bei einem Berichterstattermodell die Diskussion über einen Antrag sehr stark abhängig sein von der vortragenden Person.Überzeugende und charismatische Gutachtende dürften gegenüber Personen, die rhetorisch weniger stark sind, einen Vorteil haben. Ebenfalls kann vermutet werden, dass die Ausführlichkeit des vorgestellten Antrags, die Schwerpunktsetzung in der Darstellung und die Details, die neben den rein wissenschaftlichen Kriterien zum Beispiel zur Person des Antragstellers mitgeliefert werden, einen Einfluss auf die Entscheidung haben können.

Ausgewählte Ergebnisse der Forschung zur Panelbegutachtung
Bisher sind Fragen danach, wie Entscheidungsverläufe in Panelsitzungen von statten gehen oder welche spezifischen Effekte hier wirken, im Rahmen der Peer Review-Forschung kaum untersucht worden. Gründe für die geringe Zahl empirischer Studien im Bereich der Panelbegutachtung könnten die methodischen Schwierigkeiten und die problematischen Feldzugänge sein. Methodisch ist die Untersuchung von Entscheidungsfindungsprozessen in Panelsitzungen eine Herausforderung, da sie ein Erhebungsinstrumentarium erfordert, dass einerseits valide und reliabel ist, anderseits jedoch störende Einflüsse auf den Beurteilungsprozess soweit wie möglich minimiert. Aber auch über die Grenzen der Peer Review-Forschung hinaus sind detaillierte Arbeiten, in denen reale Verhandlungsprozesse auf Ebene einzelner Sitzungen analysiert werden, eher selten. Der Politikwissenschaftler Achim Wiesner erklärt dies damit, dass sich solche Studien der Mikroebene des Verhandelns in die Gefahr begeben, „durch die große Nähe zum Gegenstand zwar sehr instruktive, gleichwohl aber höchst idiosynkratische Erkenntnisse hervorzubringen“ (Wiesner 2006: 9).
Untersucht wurden Entscheidungsprozesse in Gruppen bisher vor allem in der (sozial)psychologischen Forschung über Entscheidungsprozesse in Gruppen (vgl. z.B. Übersicht: Kerr/Tindale 2004, Linneweber 2004), in der spieltheoretisch inspirierten – meist experimentellen – ökonomischen Forschung (vgl. z.B. Grimm/Mengel 2008, Luhan/Kocher/Sutter 2007) und neuerdings im Rahmen empirischer Politikwissenschaft im Hinblick auf Gremienentscheidungen als Feldforschung (vgl. Nullmeier et. al. 2008).

Im Folgenden sollen zwei ausgewählte Forschungsergebnisse aus dem Bereich der Peer Review-Forschung zur Panelbegutachtung skizziert werden, beide Studien gehören zu den wenigen, die Entscheidungsprozesse von Gutachtergruppen untersucht haben:

Liv Langfeldt untersuchte in den Jahren 1997/98 sechs verschiedene Panelsitzungen des Norwegischen Research Councils. Das Ziel ihrer Studie war es zu zeigen, welche Faktoren die Entscheidungsfindung von Expertenpanels beeinflussen. Konkret fragte sie „What effects decision-making processes when research programmes, research institutions and research fields are evaluated by expert panels?” (Langfeldt 2004: 52). Die Datenbasis bildeten die Unterlagen des Research Councils und Leitfadeninterviews mit den Gutachtenden der Panels. Teilweise standen ihr zusätzlich die privaten Sitzungsaufzeichnungen der Gutachterinnen und Gutachter zur Verfügung.
Besonders interessant ist ihre Feststellung, dass die Entscheidungsfindung maßgeblich von der Zusammensetzung der Gutachtergruppe geprägt werde, da diese darüber entscheide, ob bestimmte Schulen bzw. wissenschaftliche Sichtweisen besondere Aufmerksamkeit erführen. Zusätzlich spiele eine große Rolle, wie viel Zeit zur Bewertung eines Antrags zur Verfügung stehe.
Langfeldt stellte zudem fest, dass offen ausgetragene Meinungsverschiedenheiten eine Seltenheit darstellten und generell die Bereitschaft der Panelmitglieder, Zeit und Sorgfalt in die Begutachtung zu investieren, gering gewesen sei (Langfeld 2004).

Michael Obrecht, Karl Tibelius und Guy D’Aloisio (2007) fragten danach, ob Gutachterdiskussionen von Anträgen die Fairness des Review-Prozesses im Vergleich zur Einzelbegutachtung erhöhen. Sie untersuchten in den Jahren 2003/2004 das Begutachtungsverfahren eines Nachwuchsförderungsprogramms des Canadian Institutes of Health Research (CIHR). Der Peer Review-Prozess dieses Programms sah vor, dass jeder Antrag im Vorfeld der Gutachtersitzung zur eingehenden Bewertung an zwei Gutachter versand wurde, die diesen mit Hilfe von gewichteten Skalen bewerteten. Auf der Sitzung präsentierten sie ihre Gutachten, worauf Fragen und Kommentare der Kollegen folgten. Anschließend vergab jedes Mitglied der Gutachtergruppe eine Gesamtnote.
Die Wissenschaftler beobachteten die Arbeit der Panelgruppe, analysierten die Notenvergabe vor und nach der Diskussion, interviewten die beteiligten Gutachtenden und analysierten administrative Dokumente. Sie kamen zu dem Ergebnis, dass die Panelsitzungen in dem untersuchten Fall zu keinem Mehrwert hinsichtlich der Fairness oder Effektivität im Vergleich zur Einzelbewertung führten, sofern sich beide an vorher eindeutig festgelegten Kriterien orientierten. Ihrer Meinung nach stellt die Gruppenbegutachtung einen ineffizienten Einsatz von Gutachterzeit dar (Obrecht et. al. 2007: 79).

Fazit
Die Panelbegutachtung avanciert zunehmend zur dominierenden Bewertungsform. Die Effekte unterscheiden sich von denen der Einzelbegutachtung. In der Peer Review-Forschung ist über Gruppenbegutachtung wenig bekannt; dass auf diesem Gebiet so wenige empirische Studien existieren ist jedoch – wie oben dargestellt – durch die methodischen Schwierigkeiten und problematischen Feldzugänge erklärlich.

Literatur

Deutsche Forschungsgemeinschaft (DFG), 2008: Jahresbericht 2007. Aufgaben und Ergebnisse. Bonn.
Green, J. G. / Calhoun, F. / Nierzwicki, I. / Brackett, J. / Meier, P., 1989: Rating intervals: an experiment in peer review. FASEB Journal, 3, 1987–1992.
Grimm, V. / Mengel, F., 2008: Cooperation in Viscous Populations – Experimental Evidence. Games and Economic Behavior. Working Paper.
Kerr, N. L. / Tindale, R. Scott, 2004: Group Performance and Decision Making. Annual Review of Psychology 55, 623-655.
Langfeldt, L., 2001: The Decision-Making Constraints and Processes of Grant Peer Review, and their Effects on the Review Outcome. Social Studies of Science 31/6, December.
Langfeldt, L., 2004: Expert panels evaluating research: decision-making and sources of bias. Research Evaluation. Volume 13, Number 1, April, 51-62.
Linneweber, V., 2004: Was weiß die Sozialpsychologie über Gruppen und Teams? in: C.O. Velmerig / Schattenhofer, C. / Schrapper, C. (Hrsg.): Teamarbeit: Konzepte und Erfahrungen – eine gruppendynamische Zwischenbilanz. Weinheim/München: Juventa, 19-34.
Luhan, W. / Kocher, M. / Sutter, M., 2007: Group polarization in the team dictator game reconsidered. Working Papers in Economics and Statistics. University of Innsbruck.
Münch, R., 2007: Die akademische Elite. Zur sozialen Konstruktion wissenschaftlicher Exzellenz. Frankfurt a.M.: Suhrkamp.
Obrecht, M. / Tibelius, K. / D’Aloisio, G., 2007: Examining the value added by committee discussion in the review of applications for research awards. Research Evaluation, 16(2), June 2007, 79-91.
Pagano, M., 2006: American Idol and NIH review. Cell, 126, 25 August, 637–638.
Wiesner, A., 2006: Politik unter Einigungszwang. Eine Analyse föderaler Verhandlungsprozesse. Frankfurt am Main: Campus Verlag.