1 Standardisierung ist der Erfolgstreiber im Interview

Die aus Sicht der Praxis wohl wichtigsten Ergebnisse der Interviewforschung beziehen sich auf die psychometrische Qualität von Jobinterviews – also auf ihre Fähigkeit, Bewerber-Merkmale akkurat zu messen und Personalentscheidungen solide zu begründen – sowie auf Maßnahmen zur Verbesserung der psychometrischen Qualität von Interviews. Diese Ergebnisse lassen sich in zwei Aussagen zusammenfassen:

  1. 1.

    Je stärker ein Interview strukturiert ist, desto besser fällt seine Reliabilität aus – mit anderen Worten: desto geringer ist der Einfluss von Störgrößen, die das Urteil des Interviewers verfälschen.

  2. 2.

    Je stärker ein Interview strukturiert ist, desto besser fällt auch seine prognostische Validität aus, d. h. seine Fähigkeit, die zukünftige Leistung eines Bewerbers in einer gedachten Zielposition treffend vorherzusagen.

Dies lässt sich durch zahlreiche Metaanalysen bestätigen (siehe Tab. 8.1 für eine Übersicht). Auch die jüngsten dieser Metaanalysen – die Arbeit von Huffcutt et al. (2013) zur Interrater-Reliabilität und die Arbeit von Huffcutt et al. (2014) zur prognostischen Validität von Interviews – unterstreichen das skizzierte Fazit deutlich (mehr dazu in Kap. 9).

Tab. 8.1 Übersicht über Metaanalysen zur psychometrischen Qualität von Interviews

Damit kommt der Strukturierung von Interviews eine entscheidende Bedeutung zu – sie ist Treiber der psychometrischen Qualität von Interviews. Strukturierung bedeutet, dass der Interviewer bestimmten Vorgaben folgen muss, die seine Freiheit im Prozess des Fragens und Auswertens mehr oder weniger stark einschränken (Huffcutt und Arthur 1994; Campion 2014). Je größer die Strukturiertheit, desto geringer die Möglichkeiten des Interviewers, Befragung und Auswertung frei zu gestalten und damit eigenen Vorlieben oder den spezifischen Gegebenheiten der Gesprächssituation zu folgen.

Den bislang umfangreichsten Katalog zur Strukturierung von Interviews haben Campion et al. (1997) vorgelegt. Sie unterscheiden zwei große Gestaltungsbereiche – Strukturierung oder Standardisierung der Befragungsprozedur und Strukturierung oder Standardisierung der Auswertungsprozedur mit insgesamt 15 Dimensionen. Diesem Katalog haben Levashina und Kollegen (2014) kürzlich drei weitere Dimensionen hinzugefügt. Tab. 8.2 fasst alle Aspekte zusammen.

Tab. 8.2 Dimensionen der Strukturiertheit von Interviews. Anmerkungen: Die Darstellung folgt der Arbeit von Campion et al. (1997); *von Levashina et al. (2014) hinzugefügt

Anstelle von Strukturiertheit ließe sich auch von Objektivität sprechen, ein Begriff, der in der Testtheorie Verwendung findet. Dort wird zwischen Durchführungs- und Auswertungsobjektivität unterschieden (Lienert und Raatz 1994). Durchführungsobjektivität ist die Unabhängigkeit der Testergebnisse vom Durchführer eines Testverfahrens, Auswertungsobjektivität ist die Unabhängigkeit der Testergebnisse vom Auswerter des Verfahrens. Die eben erwähnte Unterscheidung von Campion et al. (1997) – Strukturierung der Befragungsprozedur vs. Strukturierung der Auswertungsprozedur – entspricht der Unterscheidung von Durchführungs- und Auswertungsobjektivität.

Sechs Maßnahmen werden in der Literatur besonders hervorgehoben und entsprechend häufig in Forschungsstudien, aber auch in der Praxis realisiert (Levashina et al. 2014):

  • anforderungsanalytische Fundierung der Fragen,

  • Einsatz derselben Fragen für alle Kandidaten,

  • Einsatz situativer und biografischer Fragen,

  • Punkt-für-Punkt-Auswertung des Interviews auf der Ebene der Einzelfragen, mindestens aber auf der Ebene spezifischer Beurteilungsdimensionen,

  • Nutzung von Ratingskalen mit Verhaltensankern,

  • Durchführung eines Trainings für die Interviewer.

Die von Campion bzw. Levashina und Kollegen (Campion et al. 1997; Levashina et al. 2014) erörterten Gestaltungsfelder zur Strukturierung von Interviews werden nachfolgend ausführlicher dargestellt.

2 Strukturierung der Befragungsprozedur

2.1 Anforderungsanalytische Fundierung

Das Kriterium der anforderungsanalytischen Fundierung verlangt, dass die im Interview gestellten Fragen aus den Ergebnissen einer Anforderungsanalyse abgeleitet werden (siehe Kap. 1 für die praktische Umsetzung). Damit sind alle Verfahren gemeint, die dazu dienen, die Verhaltens- bzw. Kompetenzanforderungen zu beschreiben, die ein Positionsinhaber erfüllen muss, um in der fraglichen Position erfolgreich zu sein. Auswahlverfahren anforderungsanalytisch zu fundieren, ist eine zentrale Vorgabe aller bekannten Regelwerke oder Normenkataloge zur Personalauswahl, in Deutschland beispielsweise der DIN 33439 (DIN, 2002: Kersting, 2006) oder der Assessment-Center-Standards des Arbeitskreises Assessment Center e. V. (www.arbeitskreis-ac.de).

Primärziel der Anforderungsanalyse ist es, die sog. Kontentvalidität des diagnostischen Verfahrens abzusichern, also dafür zu sorgen, dass es die relevanten Leistungsanforderungen der Zielposition an einen Stelleninhaber möglichst umfassend repräsentiert (Lienert und Raatz 1994). Je größer die Kontentvalidität, desto größer aber zugleich auch die kriterienbezogene Validität des Verfahrens. Denn die Vorhersage beruflicher Leistung wird umso besser gelingen, wie die erfolgskritischen Leistungsanforderungen der Zielposition möglichst umfassend berücksichtigt werden.

Mit Blick auf die anforderungsanalytische Fundierung eines Interviews unterscheiden Campion und Kollegen (1997) drei Ausprägungsstufen:

  1. 1.

    Die im Interview gestellten Fragen sind aus einer positionsspezifischen Anforderungsanalyse abgeleitet.

  2. 2.

    Die im Interview gestellten Fragen beziehen sich auf Persönlichkeitsaspekte, die für Arbeitsleistung und beruflichen Erfolg als bedeutsam gelten, sind aber nicht aus einer positionsspezifischen Anforderungsanalyse abgeleitet.

  3. 3.

    Der Interviewer stellt traditionelle Fragen („Was sind Ihre Stärken, was Ihre Schwächen?“).

Aus wissenschaftlicher Sicht sollte im Sinne einer erfolgreichen Eignungsdiagnose unbedingt die erste Ausprägungsstufe gewählt werden. In ihrer Metaanalyse konnten McDaniel et al. (1994) zeigen, dass die anforderungsanalytische Fundierung zur prognostischen Validität von Interviews beiträgt. Hierfür unterschieden die Autoren zunächst drei Ausprägungsstufen anforderungsanalytischer Fundierung:

  1. 1.

    situative Fragen,

  2. 2.

    positions- oder aufgabenspezifische Fragen,

  3. 3.

    persönlichkeitsbezogene Frage.

In die erste Kategorie – situative Fragen – fielen Interviews, in denen eine tätigkeitsspezifische Anforderungssituation skizziert und die Bewerber im Anschluss gebeten wurden anzugeben, wie sie in der skizzierten Situation reagieren würden. Dieser Kategorie konnten McDaniel und Kollegen eine Reihe von Studien zuordnen, in denen sich die Bewerber im Anschluss an die Frage „Wie würden Sie hier reagieren?“ für jeweils eine von immer zwei dargebotenen Verhaltensalternativen entscheiden sollten (auf den ersten Blick machen die Alternativen den Eindruck, gleichermaßen effektiv und mithin wünschbar zu sein); die „richtige“ Verhaltensalternative war zuvor über eine Anforderungsanalyse definiert worden. In die zweite Kategorie fielen Interviews, in denen – ohne die Vorgabe von Verhaltensalternativen – positions- und aufgabenspezifische Fragen gestellt wurden. In die dritte Kategorie fielen Interviews, in denen allgemeine persönlichkeitsbezogene Fragen gestellt wurden. McDaniel und Kollegen (1994) konnten folgende Werte für die prognostische Validität ermitteln: .50, .39 und .29 (korrigierte durchschnittliche Korrelationen). Diese Ergebnisse zeigen, dass eine anforderungsanalytische Fundierung die prognostische Validität eines Interviews deutlich erhöht.

Das in der Praxis am häufigsten eingesetzte anforderungsanalytische Verfahren ist die ursprünglich auf Flanagan (1954) zurückgehende Methode der kritischen Ereignisse (Critical Incident Technique; vgl. auch Marelli 2005; Schluter et al. 2008). Das Vorgehen ist schnell erklärt: Personen, die mit den Herausforderungen der Zielposition vertraut sind (Positionsinhaber, Vorgesetzte, Mitarbeiter), werden gebeten, erfolgskritische Anforderungssituationen zu beschreiben und für jede einzelne dieser Anforderungssituationen exzellente Verhaltensweisen eines Positionsinhabers (gelegentlich auch exzellente Verhaltensweisen einerseits und unzureichende Verhaltensweisen andererseits) zu definieren. Es gilt, je Zielposition etwa 40 kritische Anforderungssituationen zu definieren und zu beschreiben entlang der Leitfragen „Was würde ein Experte tun?“ bzw. „Was würde ein Anfänger tun?“. Das konkrete Vorgehen der CIT sowie weitere Hinweise zur Durchführung einer Anforderungsanalyse in der Praxis finden Sie in Kap. 1.

2.1 Sind Sie an der praktischen Umsetzung interessiert?

Kap. 1 Erstellung eines Anforderungsprofils

Der durch eine Anforderungsanalyse entstehende Katalog von Anforderungen lässt sich jedoch nicht nur für die Konzeption eines Einstellungsinterviews nutzen. Darüber hinaus bietet er folgende Vorteile:

  • Er definiert Lernziele für Kompetenzentwicklungsmaßnahmen.

  • Er liefert Kriterien für die Auswahl und Beurteilung von Mitarbeitern.

  • Er liefert Hinweise für konstruktives Feedback („Wie es besser geht“).

  • Er lässt sich nutzen, um neue Mitarbeiter einzuarbeiten.

CIT-Workshops bieten außerdem Gelegenheit zu Strategie- und Leitbild-Diskussionen. Bekanntlich hat es in den letzten 25 Jahren eine Hinwendung zum kompetenzbasierten Personalmanagement gegeben. In diesem Sinne dienen sie nicht bloß der Beschreibung verhaltensnaher Leistungsanforderungen – sie leisten auch einen Beitrag zur Organisationsentwicklung.

2.2 Festlegung der Fragen für alle Kandidaten

Im Sinne dieses Kriteriums ist zu fordern, dass allen Kandidaten dieselben Fragen gestellt werden. Dieses vielleicht grundlegendste und zugleich trivialste aller Kriterien der Strukturierung von Interviews ist bereits in den 1930er Jahren formuliert worden (Hovland und Wonderlic 1939). Nach Campion et al. (1997) lassen sich vier Ausprägungsgrade der Strukturiertheit im Sinne dieses Merkmals unterscheiden:

  1. 1.

    Alle Kandidaten erhalten dieselben Fragen in immer derselben Reihenfolge.

  2. 2.

    Es liegt ein umfangreicher Fragenkatalog vor, der relativ flexibel genutzt und spontan ergänzt werden kann.

  3. 3.

    Hier existiert kein Fragenkatalog. Es wird aber eine Themenliste oder eine Liste erwünschter Merkmale des Bewerbers bzw. Beurteilungskriterien vorgegeben. Es steht dem Interviewer frei, die Fragen in der gegebenen Situation zu formulieren, wie er will.

  4. 4.

    Es liegen weder Fragen noch Themenkataloge oder Listen erwünschter Merkmalsbereiche bzw. Beurteilungskriterien vor. Der Interviewer darf im Sinne seiner Vorerfahrungen und Präferenzen ganz frei agieren.

2.3 Verzicht auf Folgefragen oder Standardisierung der Nachfragen

Oft lässt die erste Reaktion eines Bewerbers auf eine gestellte Frage keine treffsichere Einschätzung seiner Kompetenzen zu – die Antwort fällt zu knapp oder unscharf aus, oder sie geht an der eigentlichen Fragestellung vorbei. Dann liegt es nahe, Folgefragen zu stellen, um das Antwortverhalten des Gesprächspartners weiter zu stimulieren, und so lange fokussierend nachzufragen, bis eine zufriedenstellende Einschätzung der infrage stehenden Kompetenz möglich ist. In der Forschungsliteratur wird dies als Probing (engl. nachbohren, nachforschen) bezeichnet (Levashina et al. 2014).

Der im Praxisteil dargestellte STAR-Ansatz (vgl. Kap. 4; Hoevemeyer 2006) stellt eine strukturierte Form des Probings dar. In einer strengen Variante dieses Ansatzes sind Folgefragen vorgegeben, die sich auf folgende Bereiche beziehen:

  • Situation = Ausgangssituation / Rahmenbedingungen

  • Task oder Target = Aufgabe bzw. Ziele des Bewerbers in der skizzierten Situation

  • Actions = konkretes Vorgehen des Bewerbers

  • Results = Ergebnisse, die aus dem Vorgehen des Bewerbers resultierten

2.3 Sind Sie an der praktischen Umsetzung interessiert?

Kap. 4 Mit der STAR-Methode nachhaken

Gelegentlich fügen wir einen fünften Bereich hinzu, nämlich den Transfer. Gemeint sind die wichtigsten Lernerfahrungen, die der Bewerber aus der skizzierten Episode mitnehmen konnte. Aus STAR wird dann STAR-T.

Campion et al. (1997) unterscheiden vier Ebenen des strukturierten Umgangs mit Folgefragen:

  1. 1.

    Jede Form des Folgefragens ist untersagt. Erlaubt ist lediglich eine Wiederholung der ursprünglichen Frage.

  2. 2.

    Folgefragen sind zulässig. Sie müssen aber in einer festgelegten Art und Weise formuliert sein. Hier ist von Planned Probing (Levashina et al. 2014), also dem geplanten oder „programmierten“ Einsatz von Folgefragen, die Rede. Der oben geschilderte Einsatz des STAR- oder STAR-T-Schemas stellt eine solche Form des programmierten Gebrauchs von Folgefragen dar. Eine strengere Variante würde darin bestehen, das Antwortverhalten des Bewerbers lediglich durch immer dieselbe Folgefrage zu stimulieren: „Gibt es noch etwas, das Sie hinzufügen möchten?“

  3. 3.

    Interviewer werden ermutigt, aktiv und flexibel Folgefragen zu nutzen, um beispielsweise Hypothesen zu testen, vage Antworten zu präzisieren, negative Antworten zu explorieren oder den Kandidaten zu steuern, wenn er offensichtlich versucht, unbequemen Fragen aus dem Weg zu gehen.

  4. 4.

    Es existieren keinerlei Handlungsempfehlungen, die den Gebrauch von Folgefragen irgendwie strukturieren.

Für viele Praktiker liegt der besondere Reiz eines Interviews im dynamischen Zusammenspiel von Frage und Antwort, Folgefrage und Folgeantwort, erneuter Folgefragen und Folgeantwort. Auch wird argumentiert, dass erst das geschickte Nachfassen zu unverfälschten und hinreichend präzisen Aussagen von Seiten des Bewerbers führe (Schmidt und Conway 1999). Auf der anderen Seite kann das Nachfragen dazu verleiten, Antworten zu geben, die immer weniger dem eigenen Erleben und Verhalten und immer stärker den mutmaßlichen Erwartungen des Interviewers entsprechen. Es besteht mithin die Gefahr, dass die Reaktionen des Bewerbers zunehmend durch taktische Überlegungen geleitet werden („Was will der Interviewer hören? Was ist die gewünschte Antwort?“) und die Gesprächspartner das Antwortverhalten „kofabrizieren“, indem der Bewerber durch das Nachfassen auf eine – oftmals die richtige – Fährte gesetzt wird. So konnten Levashina und Campion (2007) zeigen, dass „Probing“ bei situativen Fragen und ebenso bei biografischen Fragen das taktische Selbstdarstellungsverhalten der Bewerber stimuliert.

2.4 Nutzung situativer und biografischer Fragen

Nachfolgend geht es darum, Fragetypen zu verwenden, die sich als diagnostisch sinnvoll – d. h. als prognostisch valide – erwiesen haben. In der Forschungsliteratur werden im Wesentlichen zwei Typen diskutiert, nämlich situative und biografische Fragen (vgl. Abschn. 2.3 und 2.5):

  • Situative Fragen: Hier wird dem Bewerber – oftmals in einem einzigen Satz – eine Anforderungssituation skizziert, die für die Zielposition repräsentativ ist. Er wird gebeten zu schildern, wie er in der beschriebenen Situation agieren würde (Latham et al. 1980). Es wird quasi eine ‚mentale‘ Arbeitsprobe erhoben, die sich auf eine hypothetische Situation bezieht („Was wäre wenn?“). Diesem Fragentypus liegt die Idee zugrunde, dass geschilderte Verhaltensabsichten gute Prädiktoren für zukünftiges Verhalten sind (Latham 1989; Locke und Latham 1990).

  • Biografische Fragen: Hier wird der Bewerber gebeten, über eine Anforderungssituation Auskunft zu geben, die er in der Vergangenheit zu bewältigen hatte, und darzulegen, wie er in der fraglichen Situation tatsächlich vorgegangen ist (Janz, 1982). Hier wird also das reale Verhalten in einer wirklich durchlebten Situation erfragt. Diesem Fragentypus liegt die Idee zugrunde, dass vergangenes Verhalten zukünftiges Verhalten vorhersagen kann.

2.4 Sind Sie an der praktischen Umsetzung interessiert?

Abschn. 2.3 und 2.5 Erstellung biografischer und situativer Fragen

Für beide Fragetypen ist zu fordern, dass sich die vom Bewerber zu erörternden Situationen im Zuge einer Anforderungsanalyse als relevant – d. h. als typisch und zugleich erfolgskritisch für die Zielaufgabe oder Zielposition – erwiesen haben sollten (siehe Abschn. 1.1 sowie 8.2.1 zum Thema der anforderungsanalytischen Fundierung).

Die beiden Fragentypen sind in diversen Studien miteinander verglichen worden. Die entsprechende Forschung lässt sich wie folgt zusammenfassen:

  • Taylor und Small (2002) konnten in ihrer Metaanalyse recht ähnliche Kennwerte für die Interrater-Reliabilität beider Fragetypen ermitteln, nämlich .79 für situative und .76 für biografische Fragen.

  • Während situative Fragen eher aufgabenrelevantes fachliches Wissen und kognitive Fähigkeit erfassen, messen biografische Fragen eher die einschlägige Arbeitserfahrung (u. a. Conway und Peneno 1999; Day und Carroll 2003; Motowidlo 1999).

  • Beide Fragetypen verfügen über ein solides Maß an kriterienbezogener Validität, wobei die Validitätskoeffizienten für biografische Fragen günstiger ausfallen. Taylor und Small (2002) beispielsweise berichten durchschnittliche nicht-korrigierte Validitäten von .25 für situative Fragen und von .31 für biografische Fragen. Huffcutt et al. (2004) kommen in ihrer Metaanalyse zu ganz ähnlichen Einschätzungen: .26 für situative und .31 für biografische Fragen.

  • Die kriterienbezogene Validität beider Fragetypen variiert in Abhängigkeit von der Komplexität der Zielaufgabe bzw. -position. Bei komplexen Aufgaben oder Positionen fällt die Validität geringer aus. Zugleich erweist sich die Validität der biografischen Fragen als robuster auch bei hochkomplexen Anforderungssituationen (Huffcutt et al. 2004; Krajewski et al. 2006; Taylor und Small 2002).

  • Oft wird argumentiert, dass biografische Fragen einschlägige Berufserfahrungen auf Seiten des Bewerbers voraussetzen würden. Erste Studien zeigen jedoch, dass die berufliche Erfahrung keinen nennenswerten Einfluss auf die kriteriumsorientierte Validität dieses Fragentypus hat (Gibb & Taylor, 2003). Bewerber aufzufordern, gegebenenfalls auf außerberufliche Erfahrungen Bezug zu nehmen, gefährdet die Validität biografischer Fragen nicht.

  • Die Interviewtypen unterscheiden sich nicht in der von Bewerbern wahrgenommenen prozeduralen Fairness (Day und Carroll 2003).

Mit Blick auf obige Forschungsergebnisse empfiehlt es sich, vor allem auf biografische Fragen zu setzen und diese durch situative Fragen zu ergänzen, um über die Erfassung unterschiedlicher Konstrukte – einschlägige Erfahrung einerseits, aufgabenrelevantes Fachwissen und kognitive Fähigkeiten andererseits – die Gesamtvalidität des Interviews zu erhöhen. Für ein hohes Maß an Strukturiertheit im Befragungsprozess wäre ein solches Vorgehen zu fordern bzw. zu empfehlen.

2.5 Nutzung multipler Fragen pro Dimension und Einsatz von genügend Zeit je Frage

Campion et al. (1997) erörtern außerdem zwei Strukturierungsaspekte, die sich auf die Länge von Interviews beziehen:

  1. 1.

    den Einsatz einer größeren Fragenanzahl je Beurteilungsdimension; und

  2. 2.

    den Einsatz von genügend Explorationszeit je Einzelfrage.

Je länger ein Interview, desto besser seine psychometrische Qualität, zumindest innerhalb gewisser Grenzen. Hierzu einige Argumente: Je mehr Fragen zur Erfassung einer Beurteilungsdimension gestellt werden, desto besser fällt die interne Konsistenz des verwendeten Fragensets aus. Mit zunehmender Fragenanzahl und Explorationszeit nimmt außerdem die sog. Defizienz des Interviews ab. Mit Defizienz sind die Aspekte eines Konstrukts – einer Beurteilungsdimension bzw. des Konstrukts Eignung – gemeint, die bei der Nutzung eines diagnostischen Instruments außer Acht gelassen werden.

Zugleich jedoch kann Länge möglicherweise auch nachteilig wirken: Bei übermäßig langen Interviews mag ein Übermaß an Informationen entstehen, das nicht mehr sauber verarbeitet werden kann. Mithin kann extreme Länge die psychometrische Qualität auch verschlechtern (Marchese und Muchinsky 1993).

2.6 Verzicht auf die Nutzung von Zusatzinformationen oder Standardisierung des Vorgehens

Nach Campion und Kollegen (1997) kann die unkontrollierte Nutzung von Zusatzinformationen über den Bewerber – die Verwendung von Lebensläufen, Zeugnissen, Empfehlungsschreiben, Testergebnissen etc. – die Reliabilität und Validität eines Interviews gefährden (vgl. Kap. 9). „Unkontrolliert“ bedeutet hier, dass keine Vorgaben definiert sind, die einheitlich regeln, welche Informationen genutzt werden sollen und wie diese Informationen zu interpretieren und gewichten sind. Dann werden die Zusatzinformationen von Interviewer zu Interviewer ganz unterschiedlich genutzt und beurteilt, und in der Folge verlieren auch die Durchführung und Auswertung des Interviews an Objektivität.

Campion et al. (1997) beschreiben zwei Ansätze zur Standardisierung des Umgangs mit Zusatzinformationen:

  1. 1.

    Sämtliche Unterlagen, die über einen Bewerber vorliegen (Lebenslauf, Zeugnisse, Empfehlungsschreiben, Testergebnisse etc.), werden bis zum Abschluss des Interviews zurückgehalten. Selbstverständlich können die Zusatzinformationen trotzdem in den Bewertungs- und Entscheidungsprozess eingehen – sie sollten aber als separate Größen oder Prädiktoren einfließen.

  2. 2.

    Die Unterlagen werden im Interview genutzt. Für die Nutzung sind aber Vorgaben definiert, die dafür sorgen, dass alle Bewerber gleich behandelt werden und die Nutzung insgesamt auf eine standardisierte Art und Weise erfolgt.

2.7 Verzicht auf Fragen von Seiten des Kandidaten oder Standardisierung des Vorgehens

In freien Bewerbungsgesprächen und vielfach auch in strukturierten Interviews dürfen die Bewerber spontan Fragen stellen. Dahinter steht die Idee, den Bewerber mit Informationen über das Unternehmen und die Zielposition zu versorgen. Die Schwierigkeit eines solchen Vorgehens besteht aber darin, dass eine solche Dialogisierung des Ablaufs den Befragungs- und Auswertungsprozess „kontaminieren“ kann – in den diagnostischen Prozess wirken unkontrolliert Einflüsse hinein, die die Einheitlichkeit des Vorgehens und folglich die psychometrische Qualität des Interviews beeinträchtigen können. In dem Maße, wie das Interview in einem festen Zeitfenster stattfindet, steht jeder Moment, der für die Beantwortung der Bewerberfragen genutzt wird, nicht mehr für die Erhebung und Vertiefung diagnostischer Informationen zur Verfügung. Auch besteht das Risiko, dass der Interviewer Informationen preisgibt, die dem Bewerber bei der Beantwortung von Fragen helfen. Ferner evoziert die Art und Weise, wie der Bewerber Fragen stellt (eloquent vs. hölzern, gut vorinformiert vs. schlecht vorbereitet), Einschätzungen auf Seiten des Interviewers, die den Fortgang des Interviews und schließlich die Bewertung deutlich beeinflussen können.

Campion et al. (1997) beschreiben zwei prinzipielle Möglichkeiten, mit dem skizzierten Problem umzugehen:

  1. 1.

    Das Stellen irgendwelcher Fragen ist prinzipiell untersagt.

  2. 2.

    Für das Stellen von Fragen wird eine Gesprächsphase reserviert, die nicht diagnostisch ausgewertet wird; idealerweise befindet sich die Gesprächsphase am Schluss des Gesprächs, sodass die Informationserhebung nicht beeinträchtigt wird. Das Problem hierbei: Die Beschäftigung mit den Fragen des Bewerbers wird im Anschluss an die Erhebung, in aller Regel aber vor der Auswertung stattfinden. Diagnostisch sauberer wäre es, zuerst auch die Auswertung abzuschließen und sich erst dann den Fragen des Bewerbers zu widmen (dieser müsste gegebenenfalls eine Wartezeit in Kauf nehmen).

Wie in Abschn. 5.6 diskutiert, ist es aus praktischer Sicht wichtig, ein professionelles Interview zu führen, ohne den guten Kontakt zwischen Interviewer und Bewerber zu gefährden. Aus wissenschaftlicher bzw. rein diagnostischer Perspektive sollte jedoch darauf geachtet werden, nicht von einer standardisierten Interview- in eine nicht-standardisierte Dialogsituation zu gelangen.

2.8 Einschränkung von Aktivitäten zur Gestaltung von Rapport

Vielen Interviewern erscheint es schlicht aus Gründen der Höflichkeit geboten, vor Beginn des Interviews mit den Bewerbern zu plaudern und ein wenig Small Talk zu machen. Andere betonen, dass der informelle Kontakt eine erste Möglichkeit biete, affektive Bindung zu schaffen (vgl. Abschn. 5.6).

Nach Levashina und Kollegen (2014) besteht die Gefahr informeller Kontakte vor Durchführung und Auswertung des Interviews jedoch darin, dass hier auf unkontrollierte Art und Weise erste Eindrücke und in der Folge Sympathie oder Ablehnung entstehen, die den anschließenden Bewertungsprozess beeinflussen und „verunreinigen“ können – verunreinigen, weil sie die Objektivität der Bewertung im Sinne der gesetzten Beurteilungskriterien reduzieren. In der Tat konnten Barrick et al. (2010) einen Zusammenhang nachweisen zwischen dem in der Kontaktphase entstandenen ersten Eindruck und der finalen Beurteilung bzw. der Wahrscheinlichkeit, dem Bewerber ein Job-Angebot zu machen.

Folglich empfehlen Levashina et al. (2014) eine Einschränkung des informellen Kontakts. Sie unterscheiden vier Ebenen der Strukturierung:

  1. 1.

    Jede Form des Beziehungsaufbaus durch Small Talk wird streng untersagt.

  2. 2.

    Es werden Themen oder Fragen vorgegeben, die in der Phase des Beziehungsaufbaus erörtert werden; ferner wird eine zeitliche Limitierung festgelegt.

  3. 3.

    Die Dauer des informellen Kontakts wird zeitlich begrenzt. Es werden aber keine Themen oder Fragen definiert.

  4. 4.

    Der beziehungsgestaltende Kontakt wird weder zeitlich noch thematisch durch Regeln eingeschränkt oder standardisiert.

2.8 Sind Sie an der praktischen Umsetzung interessiert?

Abschn. 5.6 Der feine Unterschied zwischen Gespräch und Verhör

2.9 Schaffung von Transparenz bezüglich der Beurteilungsdimensionen und der gestellten Fragen

Levashina und Kollegen (2014) erörtern einen Aspekt von Strukturierung, der von Campion et al. (1997) nicht berücksichtigt wurde: das Offenlegen der Beurteilungsdimensionen bzw. der gestellten Fragen. Sie unterscheiden auch hier vier Ausprägungsgrade:

  1. 1.

    Der Bewerber erhält keinerlei Informationen über die Beurteilungsdimensionen und keinerlei Hinweise zu den Fragen, die gestellt werden.

  2. 2.

    Der Bewerber erhält Hinweise zu den Beurteilungsdimensionen, aber keinerlei Hinweise zu den gestellten Fragen.

  3. 3.

    Der Bewerber erhält eine Liste der Fragen, die im Interview gestellt werden.

  4. 4.

    Der Bewerber erhält eine Liste der im Interview gestellten Fragen und zusätzlich Informationen zu den Beurteilungsdimensionen, die mithilfe der Fragen erfasst werden sollen.

Dieser Aspekt unterscheidet sich von den anderen Strukturierungskriterien, weil die genannten vier Stufen, nicht unterschiedliche Ausmaße, sondern unterschiedliche Strategien der Strukturierung beschreiben. Entscheidend ist in jedem Fall, dass die gewählte Strategie konsistent zum Einsatz kommt – hierfür bedarf es einer klaren Regelung.

Aus den Studien, die sich mit den Konsequenzen von Transparenz beschäftigt haben (Day und Carroll 2003; Klehe et al. 2008; Maurer et al. 2008), ergibt sich aber das folgende Bild:

  • Die Offenlegung hat positivere Einschätzungen auf Seiten der Interviewer zur Folge.

  • Die Schaffung von Transparenz führt zu einer besseren Reliabilität, und sie hat ein größeres Ausmaß an prognostischer Validität und Konstruktvalidität zur Folge.

  • Ferner beeinflusst die Offenlegung das Erleben von Fairness und also die Akzeptanz des Verfahrens von Seiten der Bewerber positiv.

Anders verhält es sich, wenn die Offenlegung der Beurteilungsdimensionen und insbesondere der Fragen unsystematisch erfolgt, nämlich in Form einer Indiskretion, die nicht allen Bewerbern gleichermaßen, sondern nur einer eingeweihten Gruppe zuteil wird. Im World Wide Web existieren mehrere Seiten, auf denen die üblichen Interviewfragen diverser Wirtschaftsunternehmen enthüllt und offen diskutiert werden (siehe etwa www.glassdoor.com oder www.vault.com) – wer diese Seiten kennt oder auf andere Art und Weise Zugang erhält, ist klar im Vorteil. Er kann sich gezielter vorbereiten und profitiert von einer Chancenungleichheit, die die Validität des Interviews gefährden kann. Die Crux ist, dass die Gefahr eines „Leaks“ – einer ungewollten Veröffentlichung – und damit einer Validitätsgefährdung umso größer wird, je konsequenter ein Interview im Interesse der Validitätsoptimierung strukturiert wird – denn dann sind sehr viele Bewerber mit der immer gleichen Fragenroutine konfrontiert. Ein Ausweg könnte darin bestehen, Interviews stärker biografiebezogen durchzuführen und um konkrete Belege für Geleistetes zu bitten.

2.10 Live-Aufzeichnung des Interviews

Der Vorteil eines strukturierten Interviews kann selbstverständlich nur dann wirksam werden, wenn sich die Interviewer auch an das vorgegebene Format halten. Lievens und De Paepe (2004) konnten aber zeigen, dass die Bereitschaft, den Spielregeln zu folgen, die der Standardisierung dienen, abhängig ist (a) vom Freiheitsbedürfnis des Interviewers, (b) von seinem Wunsch, auch informell mit Bewerbern in Kontakt zu kommen, und (c) von seinem Wunsch, möglichst wenig Zeit und Aufwand mit der Vorbereitung des Interviews zu verbringen.

An dieser Stelle greift die Idee der Live-Aufzeichnung von Interviews. Ihr Zweck besteht nicht nur darin, die Antworten des Bewerbers für eine spätere Bewertung zu dokumentieren (etwa weil ein wichtiger Mitentscheider nicht anwesend sein konnte), sondern auch darin, „Rechenschaftsverpflichtung“ auf Seiten der Interviewer zu erzeugen (Sedikides et al. 2002). Gemeint ist das Bewusstsein, die Missachtung der Vorgaben erklären und rechtfertigen zu müssen. Brtek und Motowidlo (2002) konnten zeigen, dass aus der Aufzeichnung von Interviews und der so erzeugten Rechenschaftsverpflichtung eine Verbesserung der Validität des Interviews resultiert.

Levashina und Kollegen (2014) unterscheiden drei Ausprägungsgrade:

  1. 1.

    Das Interview muss per Video – in Bild und Ton – aufgezeichnet werden.

  2. 2.

    Es muss eine Audio-Aufzeichnung erstellt werden.

  3. 3.

    Es existieren keinerlei Vorgaben für die Aufzeichnung des Interviews.

3 Strukturierung der Auswertungsprozedur

3.1 Analytische Beurteilung

Beurteilungen können analytisch oder summarisch zustande kommen. „Summarisch“ bedeutet, dass nach einer umfangreichen Informationserhebung ein zusammenfassendes Gesamturteil getroffen wird. „Analytisch“ bedeutet, dass vorab unterschiedliche Kriterien oder Beurteilungsdimensionen definiert und die Ausprägungsgrade auf den unterschiedlichen Beurteilungsdimensionen bestimmt werden; erst danach folgt ein Gesamturteil. Aus diagnostischer oder psychometrischer Sicht ist ein analytischer Beurteilungsprozess klar zu bevorzugen (für die konkrete Umsetzung siehe Abschn. 3.3).

Campion und Kollegen (1997) unterscheiden drei Ausprägungsstufen dieses Merkmals:

  1. 1.

    Jede einzelne Antwort wird separat beurteilt. Mithin gibt es ebenso viele Bewertungen, wie es Fragen und also Antworten gibt.

  2. 2.

    Es sind diverse Beurteilungsdimensionen definiert. Zugleich übersteigt die Anzahl der Fragen die Anzahl der Beurteilungsdimensionen. Im Anschluss an die Befragungsphase werden die Bewerber auf diesen Beurteilungsdimensionen bewertet. Die geschieht auf Basis einer Zusammenschau der Antworten zu jeweils mehreren Fragen, die unterschiedliche Facetten der Beurteilungsdimension repräsentieren.

  3. 3.

    Nach Beendigung der Fragephase wird ein summarisches oder globales Urteil gefällt. Dieses Urteil fasst den Gesamteindruck zusammen, der nach Beantwortung aller Fragen entstanden ist.

3.1 Sind Sie an der praktischen Umsetzung interessiert?

Abschn. 3.3 Entscheidungsregel vorbereiten

3.2 Nutzung von Ratingskalen mit Verhaltensankern

Ein zweiter zentraler Ansatzpunkt zur Strukturierung der Auswertungsprozedur besteht in der Nutzung verhaltensverankerter Ratingskalen (in der Forschungsliteratur ist häufig von sog. BARS die Rede, d. h. von “Behaviorally Anchored Rating Scales”). In ihrer Metaanalyse zur psychometrischen Qualität biografischer Fragen konnten Taylor und Small (2002) zeigen, dass sich der Einsatz verhaltensverankerter Ratingskalen günstig auf die Beurteiler-Übereinstimmung (Interrater-Reliabilität) und auf die kriterienbezogene Validität dieser Fragen auswirkt: Die Interrater-Reliabilität steigt von .73 auf .77, die kriterienbezogene Validität von .26 auf .35 (durchschnittliche nicht-korrigierte Validität). Maurer (2002) konnte außerdem zeigen, dass naive Beurteiler ebenso akkurate Urteile fällen wie Job-Experten, wenn verhaltensverankerte Ratingskalen zum Einsatz kommen. Zugleich trafen beide Gruppen, Experten wie naive Beurteiler, signifikant bessere (akkuratere) Urteile, wenn Ratingskalen und Verhaltensanker verwendet wurden. Ferner war auch die Übereinstimmung – die Interrater-Reliabilität – der Urteile deutlich höher. Und schließlich: Die Bewertungen der naiven Beurteiler, die verhaltensverankerte Ratingskalen nutzen konnten, waren signifikant akkurater und homogener als die Bewertungen von Experten, die keine Skalen zur Hand hatten (Maurer, 2002).

Für den Einsatz von Verhaltensankern spricht aber nicht nur die Verbesserung psychometrischer Kennwerte. Durch spezifische Verhaltensanker gelingt es außerdem, den spezifischen Anforderungsbezug des Interviews deutlich zu erhöhen. Die Fragen als solche können vergleichsweise generisch formuliert sein – der konkrete Anforderungsbezug wird durch die Verhaltensanker hergestellt, wenn diese organisations-, tätigkeits- bzw. aufgabenspezifisch formuliert sind.

Verhaltensverankerte Ratingskalen können in ganz unterschiedlichen Formaten zum Einsatz kommen. Zunächst lässt sich mit Blick auf die Formulierung der Anker selbst zwischen Verhaltensbeispielen und Verhaltensbeschreibungen unterscheiden. Verhaltensbeispiele sind in der Sprache potenzieller Bewerber formuliert („Ich mache schnellstmöglich Termine, um mit allen Beteiligten zu sprechen“), Verhaltensbeschreibungen sind im Wording abstrakt („Bittet den Gesprächspartners um eine Einschätzung der Situation“).

Ferner können sich Verhaltensanker in ihrer Länge bzw. Ausführlichkeit unterscheiden. Es liegen keine Studien vor, die die Vorteile und Nachteile unterschiedlicher Längen empirisch untersucht hätten. Es lassen sich aber folgende Vorteile denken: Je ausführlicher ein Anker formuliert ist, desto größer die Wahrscheinlichkeit, dass er alle möglichen Antworten eines Bewerbers abdeckt – dies vermindert Kontamination und reduziert Defizienz. Zugleich ist es weniger nötig, Notizen zu machen; es genügt, die passende Antwortalternative im Bewertungsbogen zu markieren. Die Nachteile liegen gleichwohl auch auf der Hand: Je ausführlicher die Formulierung der Anker, desto komplexer der Beobachtungs- und Bewertungsbogen; im Prozess gilt es dann, eine sehr große Menge an Informationen im Auge zu behalten. Dies könnte zu Widerstand bei den Interviewern bzw. Beobachtern führen, mindestens bei denen, die nicht allzu viel Zeit mit Vorbereitung verbringen wollen (Lievens und De Paepe 2004).

Ein dritter Unterschied betrifft die Anzahl der Anker je Ratingskala. Hier finden sich drei Varianten:

  • Alle Skalenpunkte werden mit einem Anker versehen.

  • Es werden lediglich die Skalenpole geankert (bei einer 5-stufigen Skala die Stufen 1 und 5).

  • Zusätzlich zu den Skalenpolen wird bei einer ungeraden Stufenanzahl auch die Mitte über einen Anker spezifiziert (bei einer 5-stufigen Skala zusätzlich die Stufe 3).

Studien zeigen, dass Ratingskalen, bei denen nur die Pole durch Anker spezifiziert wurden, anfälliger sind für Urteilsverzerrungen (z. B. Reilly et al. 2006). Denn dort existiert ein großer Interpretations- und Bewertungsspielraum für die Beurteiler. Der Nachteil gleichmäßig verankerter Ratingskalen liegt aber deutlich auf der Hand: Der Konstruktionsaufwand ist groß. Wie im Praxisteil in Abschn. 3.2 nachzulesen, empfehlen wir die Arbeit mit einer 5er-Skala, bei der die Skalenpunkte 1, 3 und 5 inhaltlich durch Verhaltensanker definiert sind.

3.2 Sind Sie an der praktischen Umsetzung interessiert?

Abschn. 3.2 Wie erstellt man die 4. Ebene?

3.3 Detailliertes Interviewprotokoll (Notizen)

Campion und Kollegen (1997) unterscheiden drei Ausprägungsstufen dieses Merkmals (von hoch strukturiert zu niedrig strukturiert):

  1. 1.

    Die Interviewer sind verpflichtet, Protokolle zu führen und die Antworten der Teilnehmer detailliert zu dokumentieren.

  2. 2.

    Den Interviewern wird empfohlen, zusammenfassende Notizen zu machen.

  3. 3.

    Die Interviewer erhalten keinerlei Hinweise oder Empfehlungen zur Dokumentation des Interviews.

Das Anfertigen von Notizen kann u. a. dem sog. Primacy-Recency-Effekt entgegenwirken. Er besteht – bezogen auf das Interview – darin, Dinge, die zu einem sehr frühen oder sehr späten Zeitpunkt passieren, gut in Erinnerung zu behalten, Dinge jedoch, die in der mittleren Phase des Interviews geschehen, weniger gut im Gedächtnis zu behalten und deshalb in der Beurteilung schwächer zu gewichten. Middendorf and Macan (2002) konnten zeigen, dass das Aufschreiben von Beobachtungen in der Tat Erinnerungsprozesse fördert. Zugleich jedoch konnten sie auch zeigen, dass das Anfertigen von Notizen nicht zu einer Verbesserung der Akkuratheit von Urteilen beiträgt.

Ein Problem des Anfertigen-Müssens von Notizen könnte darin bestehen, dass das Protokollieren Arbeitsgedächtniskapazität verbraucht, die nicht mehr für andere Prozesse zur Verfügung stehen kann – gerade dann, wenn der das Gespräch führende Interviewer zugleich als Protokollant fungieren muss (Middendorf und Macan 2002).

3.4 Einsatz mehrerer Interviewer statt nur einer Person

Für den Einsatz multipler Interviewer kann es unterschiedliche Varianten geben, nämlich Durchführung (a) eines einzelnen Interviews im Team oder (b) einer Folge von Interviews mit wechselnden Interviewern. In der Literatur ist mit Blick auf die erste Variante von sog. Panel- oder Board-Interviews und mit Blick auf die zweite Variante von sog. seriellen Interviews die Rede.

Der Einsatz mehrerer Interviewer hat vor allem den generellen Vorteil, dass durch die Aggregation der einzelnen Urteile – durch die Bildung eines Mittelwerts über die individuellen Bewertungen hinweg – individuelle Urteilsverzerrungen neutralisiert werden. Aber Achtung: Das kann in Panel-Interviews nur dann funktionieren, wenn die Interviewer nicht miteinander diskutieren, bevor sie ihre Urteile abgeben (siehe dazu auch das nächste Abschn. 8.3.5)!

Die Frage nach der psychometrischen Qualität von Panel- vs. seriellen Interviews lässt sich wie folgt beantworten: Bei Panel-Interviews erleben alle Interviewer dieselbe Gesprächssituation. Zwar kann es auf diese Weise zu einem Ausgleich der subjektiven Urteilsverzerrungen kommen. Zugleich jedoch sind alle Interviewer denselben situationsspezifischen Störeinflüssen ausgesetzt, nämlich den akuten Schwankungen im Erleben und Verhalten eines Bewerbers, die nichts mit den Merkmalen zu tun haben, die im Interview beurteilt werden sollen, sondern damit, dass das Erleben und Verhalten des Bewerbers auch beeinflusst wird, durch akute Motivationslagen, durch situationsspezifische Schwankungen in der mentalen Kapazität, durch situationsspezifische Störungen von außen etc. Bei seriellen Interviews jedoch erleben die Interviewer unterschiedliche Gesprächssituationen. So kann es nicht nur zu einem Ausgleich der subjektiven Urteilsverzerrungen kommen, sondern auch zu einer Neutralisierung der situationsspezifischen Störeinflüsse, denn diese variieren von Gesprächssituation zu Gesprächssituation. Mit Blick auf das Kriterium der Reliabilität empfiehlt es sich deshalb, seriellen Interviews den Vorzug zu geben (vgl. dazu Huffcutt et al. 2013; mehr im Abschn. 3.1 zur Reliabilität von Interviews).

Zur prognostischen Validität von Panel- vs. seriellen Interviews liegen einige metaanalytische Befunde vor: McDaniel und Kollegen (1994) konnten keine Unterschiede zwischen Panel- und seriellen Interviews feststellen, wenn der Strukturiertheitsgrad der Interviews insgesamt niedrig war (durchschnittliche Korrelationen: .33 zu .34). Bei hoch strukturierten Interviews ergab sich jedoch ein gewisser Vorteil für die seriellen Formate (durchschnittliche Korrelationen: .38 zu .46).

Damit lassen sich – in der Reihenfolge von hoch zu niedrig – drei Ausprägungsgrade des Merkmals „multiple Interviewer“ unterscheiden:

  1. 1.

    Durchführung eines seriellen Interviews,

  2. 2.

    Durchführung eines Panel-Interviews,

  3. 3.

    Durchführung eines einzelnen Gesprächs mit einem einzelnen Interviewer.

3.5 Einsatz desselben Interviewers bzw. Interviewer-Teams für alle Kandidaten

Immer denselben Interviewer oder dasselbe Interviewer-Team für Panel- bzw. serielle Interviews zu nutzen, ist insbesondere dann wichtig, wenn andere Dimensionen der Strukturierung von Interviews schwach ausgeprägt sind. Denn ohne weitere Vorgaben zur Befragung stellen unterschiedliche Interviewer unterschiedliche Fragen, und ohne weitere Vorgaben zur Auswertung kommen unterschiedliche Interviewer zu unterschiedlichen Einschätzungen, obwohl ihnen dieselben Antworten vorliegen.

In vielen Fällen dürfte es schwierig sein, ein komplettes Interviewer-Team stabil zu halten. Hier ließe sich mit der Faustregel arbeiten, dass mindestens ein Interviewer alle Interviews durchführt oder begleitet (Campion et al. 1997).

3.6 Verzicht auf Meinungsaustausch zwischen Interviewern

In Panel-Interviews – also dort, wo mehrere Interviewer gemeinsam das Gespräch führen – stellt der Verzicht auf einen Meinungsaustausch vor Durchführung der Bewertungen eine weitere Maßnahme zur Standardisierung dar. Die Wirkungen einer solchen Vorgabe sind allerdings nicht eindeutig.

Zunächst sollte die Vorgabe, Diskussionen zu vermeiden, zur Verschlechterung der Interrater-Reliabilität (Übereinstimmung mehrerer Beurteiler) führen, denn schließlich werden konsensbildende Prozesse unterdrückt. Die Metaanalyse von Huffcutt und Kollegen (2013) zeigt dies auch sehr deutlich: Bei stark strukturierten Interviews sinkt die durchschnittliche Interrater-Reliabilität von .98 für Panel-Interviews mit Diskussion auf .78 für Panel-Interviews ohne Diskussion. Noch größer ist der Unterschied bei schwach strukturierten Interviews: Hier sinkt die durchschnittliche Interrater-Reliabilität von .88 auf .55.

Zugleich jedoch könnte die Vermeidung von Meinungsaustausch zur Verbesserung der Test-Retest-Reliabilität (Übereinstimmung der Ergebnisse aus mehreren Interviews, die nacheinander durchgeführt werden) beitragen. Denn der Meinungsaustausch kann dazu führen, dass die Interviewer ihre Bewertungskriterien oder die Gewichtung ihrer Bewertungskriterien über die Zeit verändern (gemeinsamer Kriterien-Drift) – insbesondere dann, wenn zwischen den Durchführungen ein längerer Zeitraum liegt.

Auf die prognostische Validität könnte sich die Vorgabe, Diskussionen zu vermeiden, dann positiv auswirken, wenn irrelevante Urteilseinflüsse reduziert würden, beispielsweise der Einfluss einer besonders mächtigen oder dominant auftretenden Person im Interviewer-Team.

Campion und Kollegen (1997) definieren zwei Ausprägungsgrade:

  1. 1.

    Die Interviewer werden angewiesen, Austausch und Diskussion zu vermeiden.

  2. 2.

    Es existiert keine Vorgabe, die den Austausch untersagt.

Im Sinne einer hohen Standardisierung ist es wichtig, dass die Art und Weise des Meinungsaustauschs über die verschiedenen Interviews und Bewerber gleich bleibt. Ist ein Austausch zwischen den Interviewern erwünscht, so sollte er zumindest konsequent bei jedem Teilnehmer und in immer der gleichen Weise erfolgen.

3.7 Durchführung von Interviewer-Trainings

Dem Strukturierungskriterium ‚Durchführung von Trainings‘ kommt eine besondere Bedeutung zu. Denn Ziel von Interviewer-Trainings ist es, dafür zu sorgen, dass alle anderen Kriterien zur Strukturierung angemessen umgesetzt oder befolgt werden. Um sicherzustellen, dass Interviewer adäquate Fertigkeiten für das Führen eines Interveiws aufweisen, sollten nach Whetten und Cameron (2002) die folgenden fünf Fragestellungen bearbeitet werden: Wie erstelle ich effektive Interviewfragen, die die benötigten Informationen ermitteln können? Wie schaffe ich eine angemessene Interview-Atmosphäre für den Informationsaustausch? Wie kontrolliere ich den Ablauf eines Interviews? Wie nutze und interpretiere ich körpersprachliche und andere nonverbale Signale? Wie sollte ich nachhaken und kritisch hinterfragen, falls es nötig ist?

Typische Inhalte von Interviewer-Trainings sind:

  • Durchführung einer Anforderungsanalyse

  • Fragen formulieren

  • Beziehungsgestaltung im Interview

  • Arbeit mit Folgefragen (Probing; z. B. Nutzung des STAR-Schemas)

  • Ablauf des Interviews steuern

  • Nonverbale Signale nutzen und interpretieren

  • Typische Beobachterfehler vermeiden

Studien zeigen, dass Interviewer-Trainings einen positiven Einfluss auf die Interviewqualität haben (z. B. Conway et al. 1995). Einerseits beeinflussen sie die Umsetzung und Befolgung von Kriterien zur Strukturierung positiv, andererseits können Trainings typische Beobachterfehler minimieren. Beispielsweise kann der sogenannte Ähnlichkeitsfehler deutlich eingegrenzt werden. Ein Ähnlichkeitsfehler ist dadurch charakterisiert, dass der Interviewer dazu neigt, dem Interviewten besonders solche Eigenschaften oder Charaktermerkmale zuzuschreiben, die er selbst aufweist.

Aguinis und Kollegen (2009) zeigten in einem Feldversuch, dass ein webbasiertes Training die Akkuratesse einer persönlichkeitsbasierten Jobanalyse deutlich verbessern konnte, indem der Ähnlichkeitsfehler minimiert wurde. In einem Feldversuch reduzierte das Training die durchschnittliche Korrelation zwischen den Werten der persönlichkeitsbasierten Jobanalyse und der eigenen Persönlichkeit des Analysten von .27 auf .07.

Andererseits spielt neben der Durchführung von Trainings auch die Erfahrung der Interviewer einer Rolle. In einem Quasi-Experiment von Lievens und Sanchez (2007) zeigten sich für die trainierte Gruppe deutlich höhere Kennzahlen für die diskriminante Validität und die Interrater-Reliabilität als für die Kontrollgruppe, welche kein Interviewertraining erhielt. Die höchsten Werte besaßen solche Interviewer, die das Training durchliefen und zusätzlich bereits Erfahrung gesammelt hatten.

3.8 Statistische, nicht klinische Urteilsbildung

Nach Auswertung der einzelnen Interviewdimensionen (z. B. Gewissenhaftigkeit oder Vertriebskompetenz) wird eine Regel zur standardisierten Entscheidungsfindung benötigt. Das letzte Kriterium „Statistische, nicht klinische Urteilsbildung“ fordert diesbezüglich eine mathematische Berechnung: Um den Bewerbern individuelle Gesamtscores zuzuweisen, werden die Bewertungen je Frage bzw. Urteilsdimension über eine Berechnungsvorschrift (z. B. Bildung eines Mittelwerts; sog. statistische Urteilsbildung), nicht aber per Diskussion und Konsensbildung zusammengefasst (sog. klinische Urteilsbildung). Dazu synonym werden in der Forschungsliteratur gelegentlich die Begriffe mechanische versus qualitative Urteilsbildung verwendet.

Eine Metaanalyse von Conway et al. (1995), die die Ergebnisse von 111 Einzelstudien zusammenfasst, zeigt einen signifikanten, positiven Zusammenhang zwischen der Reliabilität von Interviews und der Verwendung einer statistischen Urteilsbildung. Die Ergebnisse der Metaanalyse zeigen, dass die Kombination einer analytischen Beurteilung (also einer Bewertung auf Dimensions- bzw. Fragenebene, siehe Abschn. 8.3.1) mit einer statistischen Urteilsbildung die effektivste Vorgehensweise ist.

Bei der Festlegung von Berechnungsvorschriften ist darauf zu achten, welche Daten integriert werden sollten. Dabei lassen sich drei Ebenen unterscheiden:

  1. 1.

    Integration von Daten über Fragen oder Beurteilungsdimensionen hinweg

  2. 2.

    Integration von Daten über Interviewer hinweg

  3. 3.

    Integration von Daten über diagnostische Instrumente hinweg, von denen eines das Interview ist

In der Anwendungspraxis der statistischen Vorgehensweise gibt es verschiedene Varianten. So kann die Entscheidung auf einer Mittelwertbildung der verschiedenen Fragen oder Dimensionen beruhen. Dies hat den Nachteil, dass sich extreme Ausprägungen in einzelnen Dimensionen kompensieren könnten (z. B. sehr niedriger Wert in Empathie und sehr hoher Wert in Dominanz). Kontrollieren lässt sich dies, indem Mindestwerte für eine oder eine bestimmte Anzahl von Dimensionen festgelegt werden.

Eine weitere Variante wäre es, Differenzwerte von einem Sollprofil zu berechnen, sodass eine Übererfüllung in einzelnen Dimensionen (z. B. Dominanz) nicht mehr schwache andere Werte kompensieren könnte. Schließlich könnten die einzelnen Dimensionswerte gewichtet werden, z. B. auf einer empirisch-statistischen Basis danach, welche der Dimensionen sich als valide in Bezug auf das Gesamturteil oder auch auf Berufserfolgskriterien außerhalb des Interviews erwiesen haben.