Peer Review
Martin Reinhart © Oktober 2006
 

Mit Peer Review wird ein Verfahren zur Überprüfung und Beurteilung wissenschaftlicher Arbeit bezeichnet. Es wird hauptsächlich eingesetzt bei Manuskripten, die zur Publikation eingereicht werden, und bei Forschungsvorhaben, für die eine Förderung beantragt wird. Peer Review wird auch häufig für Evaluationen sowohl von einzelnen WissenschaftlerInnen wie auch von ganzen Institutionen eingesetzt. Mit der Begutachtung (review) werden unabhängige Expertinnen und Experten (peers) beauftragt, die beurteilen sollen, ob das Manuskript oder der Antrag den Qualitätsstandards der Disziplin und der Förderorganisation resp. Zeitschrift entspricht.

 
1. Geschichtlicher Hintergrund

Erste Formen des Peer Review entstanden im Zusammenhang mit der Gründung wissenschaftlicher Gesellschaften im 17. Jahrhundert insbesondere mit der Royal Society in England. Die Royal Society war mit dem Problem konfrontiert, dass eine große Zahl von Beobachtungen und Experimenten an sie heran getragen wurden, aber wenig Klarheit über deren Zuverlässigkeit bestand. Für die Resultate, die durch Mitglieder der Royal Society berichtet wurden, war selbstverständlich, dass sie vertrauenswürdig waren. Diese "Naturphilosophen" waren schließlich noble Herren (peers), die sich dem Ethos des Gentleman verpflichtet fühlten, das von ihnen verlangte, wahrhaftig zu sein. Entsprechend galt die selbstfinanzierte Forschung der adligen Herren auch als glaubwürdig. Bei unbekannten Personen oder Personen niederen Ranges musste mit zusätzlichen Mitteln sichergestellt werden, dass deren Mitteilungen zuverlässig sind. Eine Möglichkeit der Bestätigung war, dass ein Mitglied der Society für die Richtigkeit bürgte. Es war auch möglich, dass das Experiment vor den Mitgliedern wiederholt wurde, so dass diese die Beobachtung bezeugen konnten. So musste sogar Robert Hooke, bevor er Mitglied der Royal Society werden durfte, zahlreiche seiner Experimente vor den Peers wiederholen. Die so gesicherten Erkenntnisse wurden dann in den "Philosophical Transactions of the Royal Society" publiziert. Damit könnte man sagen, dass schon die zweite wissenschaftliche Zeitschrift - die erste war das französische "Journal des sçavans" - ein Verfahren zur Qualitätssicherung in der Form eines Peer Review hatte. Ein explizites Peer Review Verfahren wurde in den "Philosophical Transactions" selbst jedoch erst 1750 eingeführt. Der offizielle Grund dafür war, dass eine Selektion aus der großen Menge von Zusendungen nötig wurde, der inoffizielle, dass die Royal Society zu dieser Zeit unter starken politischen Druck geraten war. Zuvor hatte aber schon die "Académie Royale des Sciences" in Paris für das "Journal des Sçavans" ein rigoroses Peer-Review-Verfahren etabliert als Zugeständnis an den französischen König, damit die Académie unabhängig publizieren durfte. Die Einführung des Peer Review war also nicht nur dem Wunsch nach wissenschaftlicher Qualitätskontrolle geschuldet. Es handelte sich auch um einen politischen Kompromiss, der eine Selbstkontrolle im Interesse der damaligen Obrigkeiten gewährleisten sollte.

Obwohl Peer Review bei der Entstehung der modernen Wissenschaft eine wichtige Rolle gespielt hatte, kam es im weiteren Verlauf nur punktuell zum Einsatz. Wissenschaft wurde vornehmlich privat finanziert und so gab es keine staatlichen Förderungsorganisationen, die Bedarf an einem Begutachtungsverfahren gehabt hätten. Gleichzeitig waren die meisten wissenschaftlichen Zeitschriften in der Hand eines einzelnen Herausgebers, der bestimmte, welche Beiträge publiziert wurden und welche nicht. Erst nach dem Zweiten Weltkrieg kam es zu einer massiven Expansion des Wissenschaftssystems, die zum flächendeckenden Einsatz von Peer Review zur Begutachtung und Selbststeuerung von Wissenschaft führte.Heute ist es in den meisten wissenschaftlichen Disziplinen selbstverständlich, dass Manuskripte und Anträge an zwei oder mehr anonyme Fachkolleginnen und -kollegen geschickt werden, die mit ihrem Gutachten dann die Grundlage für die Entscheidung über Annahme oder Ablehnung liefern.

 
2. Kritik am Peer Review / Forschung zum Peer Review

Peer Review ist ein zentraler Mechanismus der Steuerung innerhalb des Wissenschaftssystems. Über ihn wird bestimmt, welche Artikel in welchen Zeitschriften erscheinen und welche Projekte tatsächlich durchgeführt werden können. Weil es WissenschaftlerInnen und nicht z.B. PolitikerInnen oder RichterInnen sind, die darüber entscheiden, was ein interessantes Forschungsresultat oder ein viel versprechendes Projekt ist, handelt es sich dabei um einen Mechanismus der Selbststeuerung. Die Fähigkeit zur Selbststeuerung kann als eine grundlegende Voraussetzung für die Autonomie  des Wissenschaftssystems betrachtet werden.

National Intitutes of Health (NIH)
National Science Foundation (NSF)
Schweizerischer Nationalfonds (SNF)
Deutsche Forschungsgemeinschaft (DFG)

Das Verhältnis von bewilligten und abgelehnten Projekten (Erfolgsquote) kann bei verschiedenen Förderorganisationen höchst unterschiedlich sein. Bei den meisten lässt sich in den letzten Jahren jedoch eine abnehmende Tendenz feststellen. Dadurch werden die Peer-Review-Verfahren noch wichtiger und damit auch stärker diskussionsbedürftig.

Wann genau von einem Peer-Review-Verfahren gesprochen werden kann ist nicht eindeutig. So lässt sich auf verschiedene Arten definieren, was ein Peer ist. Am einen Ende des Spektrums zählt man dazu nur WissenschaftlerInnen, die im selben Spezialgebiet - das beliebig klein und spezialisiert sein kann - aktiv forschen. Ist man großzügiger, können auch alle WissenschaftlerInnen aus einer Disziplin (z.B. der Biologie) als Peers betrachtet werden. Neuere Modelle aus der Wissenschaftsphilosophie schreiben sogar Nicht-WissenschaftlerInnen wie z.B. PolitikerInnen oder Laien Expertise zu, die zur Beurteilung von Wissenschaft herangezogen werden kann (Partizipations- und Transdisziplinaritätsmodelle).  Aber auch die Art des Verfahrens ist nicht standardisiert. GutachterInnen können anonym urteilen oder auch nicht, Angaben über die Begutachteten können anonymisiert werden oder nicht ("blind" vs. "double-blind"). Das ganze Verfahren kann öffentlich einsehbar oder vertraulich sein und die Urteile der GutachterInnen können definitiv oder nur als Vorschlag für eine nachfolgende Entscheidungsinstanz gedacht sein. Was davon noch als Peer Review bezeichnet wird, kann dann auch noch vom lokalen und disziplinären Umfeld abhängig sein.

Da Peer Reviews als Entscheidungsgrundlage für die Verteilung von Geld und öffentlicher Aufmerksamkeit eine solch wichtige Rolle spielen, entscheiden Peers maßgeblich über den Verlauf von Wissenschaft und den Karriereerfolg von WissenschaftlerInnen mit. Angesichts dieser mit dem Peer Review verbundenen Macht wurden in den letzten dreißig Jahren auch immer wieder kritische Stimmen laut. Häufig geäußerte Kritikpunkte dabei sind (neben zahlreichen anderen):

  • Peer Review ist zu langsam und zu teuer.
  • Peer Review ist ungerecht, weil es Frauen und junge ForscherInnen benachteiligt und bekannte Persönlichkeiten bevorzugt
    (Matthäus-Effekt).
  • Peer Review ist innovationsfeindlich, weil es etablierte Methoden und Denkweisen bevorzugt.
  • Peer Review ist unzuverlässig, weil sich GutachterInnen häufig gegenseitig widersprechen.
  • Peer Review ermöglicht Vetternwirtschaft, indem sich die etablierten Wissenschaftler in der Gutachteranonymität gegenseitig bevorzugen (Old-Boys-Network).

Im Zusammenhang mit dieser Kritik hat sich ein ganzes Forschungsfeld etabliert, an dessen Anfang eine Untersuchung über die amerikanische National Science Foundation (NSF) aus dem Jahr 1978 stand. Die Autoren kamen in dieser Studie zum Schluss, dass der Erfolg eines Antrages zu 50 Prozent von zufälligen Faktoren bestimmt ist, die mit der Gutachterauswahl zusammenhängen. Der größte Teil der Peer-Review-Forschung hat sich in der Zwischenzeit aber nicht auf Förderorganisationen sondern auf Zeitschriften konzentriert. Dabei ist man vor allem auf drei Fragen eingegangen:

  • Wie gerecht sind die Verfahren (Bias)?
  • Wie groß ist die Übereinstimmung zwischen den Gutachtern (Reliabilität)?
  • Ist die akzeptierte Forschung tatsächlich besser als die abgelehnte (Validität)?

Auf alle drei Fragen haben sich bis jetzt keine allgemein anerkannten Antworten herausgebildet. In gewissen Studien konnte man zwar einen Bias nachweisen, aber es bleibt unklar, ob dieser auf das Peer Review zurückzuführen ist oder auf schon vorangegangene Benachteiligungen. Bei der Reliabilität ist man sich zwar einig, dass die ermittelten numerischen Werte meistens als tief einzuordnen sind. Über die Bedeutung dieser Werte und die Frage, ob höhere Werte wünschenswert wären, ist man sich aber uneinig. Auch bei der wohl wichtigsten Frage nach der Validität gibt es Differenzen. Hier steht hauptsächlich die methodische Frage im Mittelpunkt, wie sich abgelehnte und angenommene Arbeiten oder Projekte überhaupt vergleichen lassen, da gerade die Annahme oder Ablehnung selbst entscheidend für den weiteren Erfolg sind. Auffällig ist, dass ein großer Teil dieser Studien aus der Medizin und der Biologie stammen und hauptsächlich mit quantitativen Methoden arbeiten. Studien, die sich mit dem Inhalt von Gutachten oder Verfahrens- und Sitzungsprotokollen befassen, sind äußerst selten, vermutlich weil sowohl Zeitschriften als auch Förderorganisationen äußerst selten Zugang zu ihren Archiven gewähren. Inwiefern die Kritik am Peer Review berechtigt ist, bleibt somit vorerst unklar.

 
3. Alternativen des Peer Review

Jenseits der Frage, wie zuverlässig Peer-Review-Verfahren tatsächlich sind, gibt es immer wieder mehr oder weniger erfolgreiche Vorschläge und Versuche für veränderte oder alternative Begutachtungs- und Steuerungsverfahren. Viele davon sind eine Reaktion auf die zunehmende Überlastung der meistens unentgeltlich arbeitenden Gutachter. Aber auch die elektronischen Kommunikationstechnologien haben einen Innovationsschub ausgelöst, der mehr als nur die Beschleunigung der Verfahren ermöglicht.

Durch die elektronischen Möglichkeiten der Publikation reduziert sich beispielsweise der Druck eine starke Selektion zu betreiben, da prinzipiell genug Publikationsfläche für alle vorhanden ist. Gewisse Teilbereiche aus der Physik, die auf schnelle Kommunikation angewiesen sind, haben deshalb eine öffentlich zugängliche Datenbank (www.arxiv.org) geschaffen, in der jeder Wissenschaftler seine Vorabdrucke (preprints) veröffentlichen kann, ohne dass diese begutachtet werden müssen. Daran hat sich ein Bewertungsmodell angeschlossen, das erst nach der Publikation einsetzt. Nutzer der Datenbank können die Artikel benoten und eine ausführliche Bewertung für alle sichtbar platzieren (www.naboj.com). Andere Zeitschriften haben auch begonnen, Manuskripte vor der Begutachtung elektronisch zur Verfügung zu stellen. Die Begutachtung findet dann öffentlich auf der Website statt und bestimmt, ob der Artikel permanent verfügbar bleibt oder nicht. Ein Beispiel dafür ist die Zeitschrift "Atmospheric Chemistry and Physics", die ein zweistufiges elektronisches Verfahren anwendet, in dem GutachterInnen, AutorInnen und die interessierte Öffentlichkeit jeden Beitrag diskutieren können.

Auch auf der Seite der Förderorganisationen gibt es Innovationen. Die meisten haben begonnen, das Begutachtungsverfahren komplett elektronisch abzuwickeln, was wie erwähnt zur Beschleunigung führt. Einige praktizieren komplett transparente Verfahren, die Teil einer Anstrengung sind, die öffentliche Verwaltung so transparent wie möglich zu machen. Die Deutsche Forschungsgemeinschaft (DFG) hat ein neues Verfahren etabliert, in dem Begutachtung und Bewertung getrennt werden. Dabei wird in einer ersten Instanz ein gewöhnliches Peer Review durchgeführt. Danach überprüfen andere Peers, ob das Verfahren in dem Sinn befriedigend verlaufen ist, dass die Auswahl der GutachterInnen angemessen und die Qualität der Gutachten zufriedenstellend war.

Einige dieser Modelle haben sich schon fest etabliert, so etwa das erwähnte Beispiel der offenen Kommunikation mit Vorabdrucken in der Physik. Die meisten Alternativen sind jedoch im Vergleich zum "klassischen" Peer Review noch neu und werden erst lokal eingesetzt, so dass sich kaum abschätzen lässt, welchen Erfolg und welche Auswirkungen sie haben werden.

 
Literatur

Cole, Stephen / Rubin, Leonard / Cole, Jonathan R., 1978:
Peer Review in the National Science Foundation. Phase I of a Study. Washington, DC: National Academy of Sciences.
Kronick, David A., 1962:
A History of Scientific and Technical Periodicals. The Origins and Development of the Scientific and Technological Press. New York: Scarecrow Press,
Merton, Robert K., 1968:
The Matthew Effect in Science. Science 159, No. 3810 (5. Jan. 1968), 56-63.
Online: http://www.garfield.library.upenn.edu/merton/matthew1.pdf [Stand: 31.10.2006]
Merton, Robert K., 1988:
The Matthew Effect in Science, II. Cumulative Advantage and the Symbolism of Intellectual Property. Isis, Vol. 79, Issue 4, 606-623.
Online: http://www.garfield.library.upenn.edu/merton/matthewii.pdf [Stand: 31.10.2006]
Neidhardt, Friedhelm, 1988:
Selbststeuerung in der Forschungsförderung. Das Gutachterwesen der DFG. Opladen: Westdeutscher Verlag.
Shapin, Steven, 1994:
The Social History of Truth. Civility and Science in Seventeenth-Century England. Chicago: University of Chicago Press.
Weller, Anne C., 2001:
Editorial Peer Review. It's Strengths and Weaknesses. New Jersey: Information Today Inc.
Bezeichnungen, die in der männlichen oder weiblichen Sprachform verwendet werden, schließen die jeweils andere Sprachform ein.
Robert Hooke (1635-1703)
Robert Hooke war ein Universalgelehrter, der mit seinen empirischen und theoretischen Arbeiten einen wichtigen Beitrag zur wissenschaftlichen Revolution im 17. Jahrhundert geleistet hat. Bevor er Mitglied der Royal Society wurde und dort mit der Durchführung der Experimente beauftragt wurde, war er der Assistent von Robert Boyle. Man vermutet, dass er es war, der das Boyle'sche Gesetz formuliert hat, da Boyle im Gegensatz zu ihm kein Mathematiker war. Seine Interessen waren breit gestreut und reichten über Biologie, Chemie, Physik, Mathematik, Astronomie bis zur Architektur. Er sprach als Erster von biologischen Zellen, schrieb das erste Buch über Mikroskopie (Micrographia) und postulierte für die Schwerkraft einen umgekehrt proportional quadratischen Zusammenhang. Daneben war er auch entscheidend an der Planung und Umsetzung des Wiederaufbaus von London nach dem großen Feuer von 1666 beteiligt.
Matthäus-Effekt
"Denn wer da hat, dem wird gegeben werden, und er wird die Fülle haben; wer aber nicht hat, dem wird auch, was er hat, genommen werden." (Matthäus, XXV, 29)
Ausgehend von diesem Bibelzitat aus dem Matthäus-Evangelium benannte Robert K. Merton einen Zusammenhang in der Zuteilung von Aufmerksamkeit und Belohnung in der Wissenschaft als "Matthew-effect". Dieser besteht darin, dass renommierte ForscherInnen für gleichwertige Arbeit mehr Aufmerksamkeit erhalten als unbekannte ForscherInnen. Prägnant zeigt sich dieser Effekt bei Prioritätsstreitigkeiten, indem die umstrittene Entdeckung meist der bekannteren Person zugesprochen wird. Auch werden Texte mit mehreren Autorinnen und Autoren meist den Bekanntesten zugeschrieben. Dies führt dazu, dass Aufmerksamkeit und Belohnung - dem Zitat entsprechend - im Wissenschaftssystem angehäuft werden, so dass sich schichtspezifische Vor- und Nachteile herausbilden und verstärken können. Der Matthäus-Effekt konnte auch in empirischen Untersuchungen nachgewiesen werden.