Das Isadora-System — ein akustisch-phonetisches Netzwerk zur automatischen Spracherkennung

Schukat-Talamazzini, E. G.; Niemann, H.

doi:10.1007/978-3-662-08896-8_32

E. G. Schukat-Talamazzini² &
H. Niemann²

Part of the book series: Informatik-Fachberichte ((INFORMATIK,volume 290))

158 Accesses
3 Citations

Zusammenfassung

Das Isadora-System ist ein HMM-basiertes System zur Analyse von Sprachsignalen. Phonetische, morphologische und grammatische Spracheinheiten werden durch die Knoten eines hierarchischen Konstituentennetzes repräsentiert. Gewöhnliche Links-Rechts-Markovmodelle dienen der akustischen Modellierung minimaler Netzknoten, während die Modelle komplexerer Knoten durch geeignete Verknüpfungen (Hintereinander- und Parallelschaltung, Räckkopplung) kleinerer HMMs konstruiert werden.

Mit diesem Formalismus reduziert sich der Entwurf eines Spracherkennungsmoduls auf die Konstruktion eines geeigneten Netzes von Spracheinheiten. Durch den sukzessiven Aufbau neuer Netzknoten mithilfe obengenannter Verknüpfungen definieren wir etwa das Inventar der relevanten Wortuntereinheiten nebst der Struktur ihrer akustischen Modellierung, aber auch morphologische Strukturen, (reguläre) Satzgrammatiken und selbst das zu lösende Erkennungsproblem: verschiedene einschlägige Spracherkennungsaufgaben wie Einzel- und Verbundworterkennung, Phonemsegmentierung oder syntaxgesteuerte Satzerkennung sind im Isadora-System nicht „fest verdrahtet“, sondern geschehen durch die Anwendung des ViterbiAlgorithmus auf das Markovmodell geeignet strukturierter Netzknoten.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 44.99; Price excludes VAT (USA)

Softcover Book: USD 59.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Literatur

L. Bahl, P. Brown, P. deSouza, R. Mercer: A New Algorithm for the Estimation of Hidden Markov Model Parameters. In Proc. Int. Conf. on Acoustics, Speech, and Signal Processing, S. 493–496, 1988.
Google Scholar
L. Baum: An Inequality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes. Inequalities, 3: S. 1–8, 1972.
Google Scholar
X. Huang, M. Jack: Semi-Continuous Hidden Markov Models for Speech Signals. Computer Speech & Language, 3 (3): S. 239–251, 1989.
Article Google Scholar
F. Jelinek, R. Mercer: Interpolated Estimation of Markov Source Parameters from Sparse Data. In E. Gelsema, L. Kanal (Editoren): Pattern Recognition in Practice, S. 381–397, North Holland, 1980.
Google Scholar
B. Juang, L. Rabiner: Mixture Autoregressive Hidden Markov Models for Speech Signals. IEEE Trans. on Acoustics, Speech, and Signal Processing, 33 (6): S. 1404–1413, 1985.
Article MathSciNet Google Scholar
K. Lee: Automatic Speech Recognition, The Development of the SPHINX System. Kluwer Academic Publishers, Boston, Dordrecht, London, 1989.
Google Scholar
B. Lowerre, D. Reddy: The Harpy Speech Understanding System. In W. Lea (Editor): Trends in Speech Recognition, S. 340–360, Prentice-Hall Inc., Englewood Cliffs, New Jersey, 1980.
Google Scholar
II. Ney: The Use of a One-stage Dynamic Programming Algorithm for Connected Word Reco- gnition. IEEE Trans. on Acoustics, Speech, and Signal Processing, 32: S. 263–271, 1984.
Article Google Scholar
H. Ney: Spracherkennung mit stochastischen Grammatiken. In E. Paulus (Editor): Mustererkennung 87 (9. DAGM Symposium), S. 118–122, Springer, 1987.
Google Scholar
A. Paeseler, II. Ney: Continuous Speech Recognition Using a Stochastic Language Model. In Proc. Int. Conf. on Acoustics, Speech, and Signal Processing, S. 719–721, Glasgow, 1989.
Google Scholar
L. Rabiner: Mathematical Foundations of Hidden Markov Models. In H. Niemann, M. Lang, G. Sagerer (Editoren): Recent Advances in Speech Understanding and Dialog Systems, S. 183205, Springer, 1988.
Google Scholar
G. Rigoll: An Information Theory Approach to Speaker Adaptation. In Proc. European Conf. on Speech Technology, S. 494–497, 1989.
Google Scholar
S. Young, C. Proctor: The Design and Implementation of Dialogue Control in Voice Operated Database Inquiry Systems. Computer Speech & Language, 3 (4): S. 329–353, 1989.
Article Google Scholar

Download references

Author information

Authors and Affiliations

Lehrstuhl für Informatik 5 (Mustererkennung), Uni Erlangen, Germany
E. G. Schukat-Talamazzini & H. Niemann

Authors

E. G. Schukat-Talamazzini
View author publications
You can also search for this author in PubMed Google Scholar
H. Niemann
View author publications
You can also search for this author in PubMed Google Scholar

Editor information

Editors and Affiliations

Bayerisches Forschungszentrum für Wissensbasierte Systeme, Orleansstr. 14, W-8000, München 80, Deutschland
Bernd Radig

Rights and permissions

Reprints and permissions

Copyright information

About this paper

Cite this paper

Schukat-Talamazzini, E.G., Niemann, H. (1991). Das Isadora-System — ein akustisch-phonetisches Netzwerk zur automatischen Spracherkennung. In: Radig, B. (eds) Mustererkennung 1991. Informatik-Fachberichte, vol 290. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-08896-8_32

Download citation

DOI: https://doi.org/10.1007/978-3-662-08896-8_32
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-540-54597-2
Online ISBN: 978-3-662-08896-8
eBook Packages: Springer Book Archive

Publish with us

Policies and ethics