Advertisement

Zusammenfassung

Für einen ersten, hypothesenheischenden Überblick über das Material wird unser Text zunächst in diejenigen Bestandteile zerlegt, die dem Alltagsverstand wie dem Computer am leichtesten unterscheidbar sind. Das sind die Wörter im einfachen Sinne orthographisch zusammenhängender Buchstabenketten. Daß bei diesem verläßlichsten1 aller Einteilungsverfahren Sinnzusammenhänge zerstört werden, welche durch den grammatischen Zusammenhang der Wörter teils garantiert, teils erst hergestellt werden, markiert die methodische Beschränkung dieses und des nächsten Kapitels.2 Auf dem Wege zu den hieroglyphen Rätseln unseres Textes, deren magischer3 Kraft wir bei oberflächlicher Wahrnehmung blindlings erliegen, wählen wir zunächst die plattesten und sichersten Vermessungstechniken4 — wohl wissend, daß Angst vor dem einzig Gewissen, dem Ungewissen, unsere Methode bestimmt.5 Solange wir bei unserer Erkundung den Ariadnefaden positivistischer Methode, die Worte in Zahlen verwandelt,6 bewußt entrollen, müßten wir jedenfalls den Weg stets wieder zurückgehen können. Vielleicht wissen wir beim zweiten Gang dann mehr.7

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Literatur

  1. 2.
    ich habe zuviel damit zu tun, zuzuhören, um verstehen zu können“ (Sartre 1965:19).Google Scholar
  2. 3.
    Vgl. Benjamin 1977 samt seinen anderen einschlägigen und bei Menninghaus 1980 kommentierten Schriften.Google Scholar
  3. 4.
    the solution may be wrong but never vague or ambivalent“ (Brandt Corstius 1970:3).Google Scholar
  4. 5.
    Mithilfe von Methoden versucht man, den dank subjektiver Erfahrung immer schon bestehenden Zusammenhang zwischen Beobachter und Gegenstand in den Griff zu bekommen. (Für die Verhaltenswissenschaften vgl. Devereux o.J.) Wir versuchen zu zeigen, daß zwischen “Wahrheit und Methode” (Gadamer 1972; vgl. bes. 439, 451) kein unüberbrückbarer Gegensatz, sondern ein reflexives Verhältnis besteht (vgl. oben Kap. 1.5). Methoden können also die von Rieger (1972:19) kritisierte “wechselseitige Vermengung der externen Beobachterposition mit der internen Perzipientenhaltung” nicht aufheben, aber regulieren.Google Scholar
  5. 6.
    Wörter sind mächtiger, flinker sind Zahlen. Als Zeichen leisten beide “Indication auf unendliche Fülle” (Schlegel (1981:119 [über die Leistung des arabesken Witzes]); vgl. Peirce 1973:135 [=CP 5.104]). Doch Zahlen sind enger spezialisiert: alles, was man in Zahlen ausdrücken kann, läßt sich, wenn auch nur umständlich, auch in Worten sagen, nicht aber umgekehrt. Cassirer (1953/1954,II: 101) faßt die entwickelten Begriffe von Raum, Zeit und Zahl “nicht sowohl als konkrete Inhalte des Bewußtseins, denn als seine universellen Ordnungsformen.” Vom Bereich der Zahl gehe alle “exakte Begriffsbildung” aus (ebd.III:398). “Die Form der Zahl und des Zählens ist daher das eigentliche Bindeglied, an welchem man sich den Zusammenhang zwischen sprachlichem und wissenschaftlichem Denken, wie den charakteristischen Gegensatz zwischen beiden am deutlichsten vergegenwärtigen kann.” (ebd.III:399; vgl. ebd.I:210f). Vgl. Ifrah 1986:42 et passim.Google Scholar
  6. 7.
    Freund, sieh her, am Anfang soll es noch ganz exakt zugehen, dir zur Freude, denn später kommt’s schlimm genug.- (Ayren 1982:10)Google Scholar
  7. 8.
    Denn “speech is a series of nearly impossible events” (Geffroy et al.1973:129).Google Scholar
  8. 9.
    Bei den exakten Wissenschaftlern pflegt mit zunehmender Isolierung ihrer Interessen die Naivität der Lösungen in krassem Mißverhältnis zur Differenziertheit ihres wissenschaftlichen Verfahrens zu stehen.“ (Horkheimer 1968:85)Google Scholar
  9. 13.
    Z.B. die bei Harkin 1957 genannten, später etwa Krallmann 1966,1968, Meier 1967 (dazu Müller 1971) und Nail 1981, weitgehend auch die (mit psychometrischen und frequenzstatistischen Methoden arbeitenden) syntaktisch-stilistischen Untersuchungen von Rohrmann 1974.Google Scholar
  10. 14.
    D.h. Texte dienen als Beispiele/samples; etwa Beöthy/Altmann 1982, Boot 1986, Brainerd 1971, Grotjahn 1982, Guiter/Arapov (eds.1982), Herdan 1956,1960,1962,1964 (“statistical linguistics is essentially the quantification of de Saussure’s theory of language”; S.3), 1966, Menzerath 1954, Zipf 1932, 1935, 1949.Google Scholar
  11. 15.
    Überblick bei Hoffmann/Piotrowski (1979:148–156); später Pieper 1979.Google Scholar
  12. 16.
    Neben Menzerath 1954 besonders die Arbeiten am Bonner Zeitungskorpus, vgl. etwa Schaeder 1979a (mit Literatur) und Hellmann (Hg.1984).Google Scholar
  13. 17.
    Z.B. Aitken et al. (eds.1973), Johansson 1982, auch Hellmann (Hg.1984). Lehrbücher für linguistische Statistik beschränken sich dementsprechend in der Regel auf Einführungen in die Grundlagen der allgemeinen Statistik und geben höchstens mehr oder minder interessante sprachbezogene Anwendungsbeispiele (Altmann 1980, Muller 1972, Nikitopoulos 1973; ähnlich auch Guiraud 1959). Hoffmann/Piotrowski 1979 bieten einen ebenso vielfältigen wie heterogenen Überblick über Gegenstand, Methoden und Anwendungen der Sprachstatistik. Vgl. auch Alexejew u.a. ( Hg. 1973 ).Google Scholar
  14. 18.
    Eine Ausnahme bilden Orlov u.a. 1982, deren Forderung wir aufgreifen: “Mit quantitativen Methoden soll man vor allen Dingen den individuellen Text untersuchen, d.h. ein solches Gebilde, das durch einen einzigen Akt der ‘Redeschöpfung’ erzeugt wurde und für einen einzigen Akt der Rezeption bestimmt ist.” (Orlov 1982:20)Google Scholar
  15. 19.
    Wo nicht anders angegeben, arbeiten wir mit der am Regionalen Rechenzentrum der Universität zu Köln implementierten Version von SPSS 8.0, dessen uns interessierende Möglichkeiten denen anderer Programmsysteme (z.B. BMDP) zum Untersuchungszeitpunkt ebenbürtig oder überlegen waren (vgl. RZK-Benutzerhandbuch 1980, Teil 6.5: Statistik-Software (Version 2.80), und RZK-Benutzerinformation Nr.191 vom 16. 9. 80 ).Google Scholar
  16. 20.
    Insbesondere auch auf die Untersuchung von Kollokation und Kookkurrenz, die vor allem bei nicht sehr großen Texten auch mit allerlei methodischen Problemen belastet wäre; vgl. etwa Berry-Rogghe 1973 sowie Geffroy et al.1973.Google Scholar
  17. 22.
    Auch Kümmel (1972:3–7), der die Inhaltsordnung diskutiert, mißt zunächst Ausdrücke. - Wir werden vorläufig nur Ausdrucksformen untersuchen, bevor ab Kap. 4.8 deren Bedeutungen in ihrer jeweiligen Lesart berücksichtigt werden (zu diesem Unterschied vgl. etwa Ballmer/Brennenstuhl 1983:181). 23Sollte eine mehr oder minder vollständige Projektion sprachlicher Formen auf eine nicht einzelsprachabhängige ‘Welt’ von Inhalten gegen Humboldts und des späten Wittgensteins Auffassung überhaupt möglich sein, so fehlen dafür zumindest ausreichende theoretische Grundlagen.Google Scholar
  18. 24.
    Dietrich 1973 diskutiert die erheblichen Probleme; vgl. Bruckner 1986, Eggers 1972, Hahn/ Hoeppner 1975, Raht 1971, Thurmair 1986. Willée 1979 charakterisiert die drei bestentwickelten Programmsysteme zur Lemmatisierung deutscher Texte und gibt für den Bonner Algorithmus, der Homographe nicht analysiert oder nicht disambiguiert (ebd.49), außerdem noch eine Fehlerquote von ca. 6,5% (bezogen auf Kaeding/Ortmanns häufigste deutsche Wortformen) an (ebd.58). - Das von uns benutzte NNPT (Kirsch 1978) kann nur in einer alphabetisch geordneten Liste aufeinanderfolgende Wortformen mit vorab zu definierenden, unterschiedlichen Endungen zusammenfassen, ein sehr beschränktes, hier aber ad hoc gelegentlich ausgenutztes Instrument.Google Scholar
  19. 25.
    Der erhebliche Aufwand einer konsequenten manuellen Lemmatisierung - etwa nach den überzeugenden Prinzipien von Rosengren (1972/1977,Bd.II:S.IX-XIX) - erbrächte darüber hinaus keine oder nur wenige neue semantisch verwertbare Einsichten.Google Scholar
  20. 26.
    Mit anderen Worten: die kumulierte Häufigkeitsverteilung, die sich aus der fortschreitenden Addition des Vorkommens der häufigsten mit dem der zweithäufigsten usw. bis zur seltensten Wortform ergibt, hat eine logarithmische Form (vgl. Bortz 1979:232ff, Kurvenform ebd.237 Abb. d). Für 34 ausgewählte Datenpunkte ergaben sich folgende - zur Prognose über größere Texte ungeeignete - Formeln: y = -4071,6 + 6111,62 In x, bzw.: log x = 0,2926254 + 0,00007094 y. Die Korrelation ist mit jeweils r = 0,9991 noch höher als bei der besten Potenzfunktion (r = 0,970; alles errechnet gemäß Programmsammlung Statistik (1978:5–10 bzw. 5f).Google Scholar
  21. Nach weniger ausgefeilten Versionen (Zipf 1932:24; 1935:39–48) unterstellt Zipf (1949:19–55 et passim) eine Potenzfunktion: zwischen dem Logarithmus der Rangplätze und dem Logarithmus der Häufigkeiten bestehe eine konstante Beziehung (Darstellung und Diskussion Billmeier 1969). Die Zipfsche Kurve und ihre Verbesserungen (u.a. durch Mandelbrot 1954; wichtigste Literatur nennen Frumkina 1970 und Pieper 1979:20; neuerdings Delcourt/Mathonet/Mersch 1981, Guiter/ Arapov (eds.1982)) beschreibt allerdings kein Gesetz im eigentlichen Sinne, “the ‘rank’ not being a linguistic variable at all, but only a mathematical transformation of the occurrence frequency” (Herdan 1962:61; vgl. die gesamte Kritik ebd.59–63, auch Herdan 1960:33–38). -Google Scholar
  22. 28.
    Verglichen mit 43,4% in der Tageszeitung “Die Welt” (berechnet nach Rosengren 1972/1977, I:3f; abs. Frequenz), ca. 47% in Kaedings Material (Ortmann 1975–1979,I:28), das sich für derartige Vergleiche allerdings nur sehr bedingt eignet (s.u. Anm. 32), und 47,4% im Brown-Corpus amerikanischer Schriftsprache (berechnet nach KuLrera/Francis 1967:5) - Indizien für größeren Wortschatz in massenmedialen Texten? - (Zum Stilvergleich durch Analyse der häufigsten Wörter in Texten vgl. Burrows 1987.)Google Scholar
  23. 31.
    Einschließlich Titeln, Institutionen und Gattungsadjektiven, also im weit zusammenfassenden Sinne von Kap. 4.6: ‘DDR, Bundesregierung, deutschen, Regierung, Ostberlin, Bundesrepublik, Bonn, Sadat, Präsident, Carter’.Google Scholar
  24. 32.
    Bei den ersten zwölf Kaeding–Plätzen (gemäß Ortmann 1975–1979, I: C I, weil Kaeding (11.1898: 53) auch “trennbare Vorsilben” u.ä. mitzählt; entsprechende “Tagesschau”–Reihenfolge: 2–1–4–3–8–5–610–7–25–13–12) gibt es nur einen Ausreißer (’sie’). 48 der 75 in beiden Hunderter–Listen enthaltenen Wortformen stammen aus der vorderen Kaeding–Listenhälfte. 18 der ersten fünfzig, aber 43 der zweiten fünfzig Kaeding–Plätze weichen um mehr als zehn Plätze von der “Tagesschau”–Rangliste ab (25 der ersten fünfzig um mehr als nur 5 Plätze). (Vergleiche relativer Häufigkeiten sind vor allem deshalb nicht sinnvoll, weil Kaeding Eigennamen großenteils unberücksichtigt läßt (Kaeding 1898:11), sich mehr an stenographischen als an sprachwissenschaftlichen Erfordernissen orientiert und ihm einige Fehler unterlaufen (vgl. Meier 1967, I:7–17), während der ursprüngliche Gesamttext nicht mehr rekonstruiert werden kann.) –Google Scholar
  25. Unter den 16 häufigen Kaeding-, aber seltenen (F 40) “Tagesschau”-Wortformen findet man vor allem Personal-und Possessivpronomen (’meine, mir, mich, du [nullmall, ihm, ihn, uns, ihnen’), außerdem: ‘da, einzelnen, ganz, ohne, sehr, selbst, welche, wo’.Google Scholar
  26. 33.
    Beschreibung der Grundgesamtheit Rosengren (1972/1977, I:XIIf). Zur vergleichenden Charakterisierung dieses und anderer (durchweg kleinerer) deutschsprachiger Textcorpora Hellmann (1976:248251); vgl. Schaeder 1979b, 1984.Google Scholar
  27. 35.
    Die niedrigen absoluten Häufigkeiten der “Tagesschau”-Wortformen ziehen sinnvollen Vergleichen hier schnell eine Grenze, lassen die durchweg positiven Ergebnisse aber doch umso überraschender erscheinen. Von den 57 “Tagesschau”-Wortformen mit mehr als 0,2% Textanteil (F 108) weichen nur 6 um mehr als einen Zehntelprozentpunkt von dem entsprechenden Wert bei Rosengren (1972/ 1977, I:3f, AF-bezogen) ab. Die Wörter ‘in’ (2,4 gegenüber 1,9%), ’über’ (0,5 bzw. 0,3%) und vor allem ’heute’ (0,6 bzw. 0,1%) kommen in der “Tagesschau” deutlich häufiger, die Wörter ’und’ (1,9 bzw. 2,2%), ’auf (0,7 bzw. 0,9%) und ’als’ (0,4 bzw. 0,6%) dagegen seltener vor als in der “Welt”.Google Scholar
  28. 36.
    Am meisten corpusgebunden sind - wie in allen, auch noch so umfangreichen Textcorpora - die Eigennamen. - Vergleiche mit anderen veröffentlichten Häufigkeitswörterbüchern oder Grundwortschatzlisten wären aus Gründen, wie sie zusammengefaßt großenteils aus Ortmann (1975–1979, III: XII-XV) bzw. Bend (1976) hervorgehen, entweder obsolet (z.B. Morgan 1931), unpraktikabel (z.B. Pfeffer 1964, 1975) oder wegen ihres provisorischen Charakters (z.B. Wängler 1963) bzw. undurchsichtiger Kriterien (z.B. Oehler 1966: bes.232) wenig sinnvoll.Google Scholar
  29. 37.
    Hinsichtlich des Wortschatzes zeigt das jeder oberflächliche Blick auf Ruoff (1981). Auch Liste und Verteilung der häufigsten Wörter weichen sehr stark ab. So machen etwa die zehn häufigsten Lemmata (!) in Ruoffs Material (0,5 Millionen Wörter) gut 38% seiner Textmasse aus, in der “Tagesschau” aber nur knapp 23%. Hier die Anteile der zehn häufigsten Ruoff-Lemmata (errechnet nach Ruoff 1981:354–513) jeweils gefolgt von den entsprechenden Werten in der “Tagesschau”: ‘der\dieser (7,5%/ 12,9%), ’ich ’ (7,4/0,2), ’haben’ (4,8/1,2), ’sein’ [als Verb und Hilfsverb] (4,6/1,7), ’und’ (4,6/1,9), ’na’ (2,4/0,0), ’man’ (2,0/0,1), ’ein’ (1,7/2,1), ’in’ (1,6/2,4), ‘da’ [bei Ruoff an zwei Stellen] (1, 5 /0, 1 ).Google Scholar
  30. 38.
    Errechnet nach Beutel u.a. (1978:138f); detaillierte Erläuterung unseres Verfahrens in Kap. 4.3.Google Scholar
  31. 39.
    lrrtumswahrscheinlichkeiten (vgl. Sachs 1978:90f0 von a 0,2 zeigen eine in linguistischer Hinsicht recht hohe Anpassung der tatsächlichen an die erwartete Häufigkeitsverteilung an. Je weiter a unter 0,1 liegt, desto größer ist die erklärungswürdige Abweichung. Diese Festlegungen werden in Kap. 4.3 ausführlich diskutiert und illustriert.Google Scholar
  32. 50.
    Dennoch erbringen Faktorenanalysen (Arminger 1979, Revenstorf 1976; errechnet nach Beutel u.a. 1978:164–169) über die in Kap. 2, Anm. 19 genannten sieben Variablen für die Menge aller Wörter bzw. für die Menge der Belege der hundert häufigsten Wortformen nicht nur - trivialerweise - jeweils die beiden gleichen Faktoren (chronologische vs. nichtchronologische Variablen), sondern auch bis ins einzelne weitgehend gleiche Ladungen und sonstige Werte.Google Scholar
  33. 52.
    Nach Müller (1969:306) beträgt der dekadische Logarithmus des Quotienten aus Wortzahl N (Textlänge) und Wortformenzahl (Lexikonumfang) bei gedruckten deutschen Texten (0,179 1g N + 0,026)2. Danach müßte unser “Tagesschau”-Text entweder aus nur 9356 verschiedenen Wortformen zusammengesetzt sein oder aber umgekehrt 67696 Wörter umfassen. Wendet man diese Formel auf die von Billmeier (1969:35) herangezogenen Schrifttexte an, so weichen deren Werte ohne deutlichen textsortenoder themenspezifischen Trend um bis zu 58% nach oben oder unten von den vorhergesagten ab. Es muß daher offen bleiben, wie aussagekräftig ein nicht textintemer Vergleich unserer “Tagesschau” hier sein kann.Google Scholar
  34. Der tatsächliche Lexikonumfang unseres Corpus ohne Eigennamen-Substantive (vgl. Kap. 4, Tab. 19) liegt um nur 5,9% über dem errechneten, verglichen mit 6,5% beim weitgehend eigennamenlosen Kaeding-Corpus. Man kann aber nicht sagen, daß hauptsächlich die Eigennamen-Substantive für die Größe des Wortschatzes der “Tagesschau” verantwortlich seien, weil die Ausblendung der anderen Wortgruppen (außer Partikeln) mit teilweise noch höherer type-token-ratio je nach Umfang zu tendenziell ähnlichen Ergebnissen führt.)Google Scholar
  35. Die komplizierteren Formeln von Maas 1972 sind zur Prognose für einen fortlaufend wachsenden (grundsätzlich homogenen) Text bestimmt und u.a. deshalb für unseren Zweck weniger geeignet. 54 Der Korrelationskoeffizient r für den Zusammenhang der type-und token-Werte in Tabelle 13 (ohne die zweite Zeile) beträgt 0,982, bei Mißachtung der beiden Extremwerte (verbleiben 16 Wertepaare) noch 0,979 (errechnet nach Programmsammlung Statistik 1978:5–6). Die Abweichungen gehen natürlich auf die gleichen Ursachen zurück wie die im folgenden erläuterten Abweichungen gemäß der Müller-Formel.Google Scholar
  36. 56.
    Diese beiden Variablen beeinflussen entsprechend natürlich auch die sonst kontinuierlich ansteigende type-token-ratio in der zweiten Spalte von Tab. 13. - Vielleicht kann man in dieser Richtung auch die Werte anderer Corpora interpretieren, z.B. die schon erwähnten, die Billmeier ( 1969: 35) berichtet. Die bei etwa gleichem Textumfang vergleichsweise geringe type-token-ratio von 0,15 (Wortschatz-Abweichung gegenüber Müller-Formel -11,8%) im “Homo Faber” etwa könnte auf die biographische Einheit der Handlung und die einheitliche Sicht des (wirklichen und fiktiven) Tagebuchschreibers zurückzuführen sein, dergegenüber die andere Variable ( Zeit zur Textproduktion) vor allem auch deshalb zurücktreten mag, weil es sich im Gegensatz zur “Tagesschau” um einen einzigen Autor handelt. Sollte sich unsere Hypothese in Verbindung mit der Müller-Formel an anderen Corpora bewähren, so erwiese sich umgekehrt der “Tagesschau”-Text insgesamt als überdurchschnittlich gut vorbereitete Rede von hohem Informationsgehalt (Überraschungswert).Google Scholar
  37. 69.
    Berechnet nach Programmsammlung Statistik (1978:5–14). Ähnliche Werte ergeben sich auch für Schnittmengen von Schnittmengen usw., die entsprechend den unten angegebenen Tendenzen ungefähr proportional immer kleiner werden (bis N = 123 bzw. N = 216). Für die erste Tabelle (zusammengefaßte Textsorten) beträgt R trivialerweise 1.Google Scholar
  38. 72.
    Der Tabuwortschatz der Redaktion umfaßt 234, derjenige der Korrespondenten 273, derjenige der medienexternen Persönlichkeiten 1591 verschiedene, jeweils sehr gemischte Wortformen. Die Sonderwortschätze sind teilweise ganz erheblich größer.Google Scholar
  39. 73.
    Der optimale Kurvenverlauf liegt zwischen einer flachen Regressionsgeraden (y=b+mx) und einer ganz leicht ansteigenden Potenzkurve (y = bxm). Die Regressionsgerade für die token-Werte bringt einen Korrelationskoeffizienten r = 0,998 (Potenzfunktion: r = 0,996); die Potenzfunktion für die type-Werte ergibt r = 0,997 (Regressionsgerade: r = 0,995). (Errechnet nach Programmsammlung Statistik 1978:5–6 bzw. 5–10.)Google Scholar

Copyright information

© Springer Fachmedien Wiesbaden 1990

Authors and Affiliations

  • Ulrich Schmitz

There are no affiliations available

Personalised recommendations