Advertisement

Annales Des Télécommunications

, Volume 55, Issue 9–10, pp 425–441 | Cite as

A review of speech and audio coding standards (ITU-T, ETSI ET ISO/MPEG)

  • A. Le Guyader
  • P. Philippe
  • J. B. Rault
Article
  • 68 Downloads

Abstract

Speech and audio coding standards are defined in international organizations having wide range of activities, only part of them dealing with bit rate compression of speech and audio. The uit (International Telecommunication Union) deals with interactive communication standards, the etsi (European Telecommunications Stan dards Institute) with mobile communication standards in Europe while multimedia communication standards are under the responsability of the ISO (International Organization for Standardization). After a brief description of the standardization mechanism, we will review the features of speech and audio compression schemes (bit rates, quality, complexity and delay) and the main applications of these standards. A list of the compression standards, already adopted or in the course of definition, will be provided for each normalization organization. Finally, this paper gives the orientations or trends which are emerging in the field of audio compression standardization.

Key words

Review Standardization Standardization institution International institution International Standard UIT ISO ETSI Speech coding Sound coding Passband compression Sound quality Application Telecommunication Audiovisual 

Synthèse des normes de codage de la parole et du son (UIT-T, ETSI ET ISO/MPEG)

Résumé

Les normes de codage de la parole et du son sont definies au sein d’ organismes internationaux ay ant de vastes attributions, une partie seulement de leur activité concernant la normalisation des systèmes de compression de la parole et du son. L’UIT (Union internationale des télécommunications) [44] gère essentiellement les normes mondiales de communication interactives, I’etsi (European Telecommunications Standards Institute) [19] les normes de communication avec les mobiles pour I’Europe tandis que les normes ayant trait à la diffusion sont plutôt du ressort de 1’Iso (Organisation internationale de normalisation) [35]. Après avoir décrit le fonctionnement de ces organismes de normalisation, nous donnerons quelques notions concernant les principales caractéristiques des systèmes de compression de parole et du son (débit, qualité, complexité et retard) et les principales applications visées pour lesquelles ces normes sont définies. Un inventaire des normes de compression déjô adoptées ou en cours de définition sera ensuite effectué pour chaque organisme de normalisation. Cet article se termine sur les orientations (ou tendances) qui se dessinent en normalisation des systèmes de compression des signaux audionumériques.

Mots clés

Article synthèse Normalisation Organisme normalisation Organisme international Norme internationale UIT ISO ETSI Codage parole Codage son Compression bande passante Qualité sonore Application Télécommunication Audiovisuel 

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Bibliographie

  1. [1]
    Afnor, http://www.afnor.fr, Site de 1’Association Françhise de NORmalisation.Google Scholar
  2. [2]
    AudioCodes, http://www.audiocodes.com/htm/index.html, Site d’AudioCodes.Google Scholar
  3. [3]
    Avaro (O.), Allys (G.), Marques (A.), Souhami (M.), « La norme mpeg-4: une opportunité pour le développement de services de communication multimédia »,L’Echo des Recherches,171, 2e trimestre 1998, pp. 77–86.Google Scholar
  4. [4]
    Benyassine (A.), Shlomot (E.), Su (H.S.), Massaloux (D.), Lamblin (C), Petit (J.P.), « itu-t recommendation G.729 annex B : A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications »,IEEE communication magazine, September 1997, pp. 64–73.Google Scholar
  5. [5]
    Bosi (B.), Brandenburg (K.H.), Quackenbush (S.), Fielder (L.), Akagiri (K.), Fuchs (H.), Dietz (M.), Herre (J.), Davidson (G.), Oikawa (Y.), « iso/iec mpeg-2 Advanced Audio Coding »,Journal of Audio Eng. Soc,45, n° 10, October 1997, pp. 789–814.Google Scholar
  6. [6]
    Bosi (M.), High quality multichannel audio coding: trends and challenge »,106 th convention of the Audio Engineering society, Munich, mai 1999.Google Scholar
  7. [7]
    Brandenburg (K.H.), Herre (J.), Johnston (J.D.), Mahieux (Y.), Schroeder (E.), « aspec »: Adaptive Spectral Entropy Coding for high quality music signals, Preprint 3011,90 th Audio Engineering Society convention, 1991 february 19-22.Google Scholar
  8. [8]
    Brandenburg (K.H.), Bossi (M.), « Overview of mpeg audio: current and future standards for low-bit-rate audio coding »,Journal of the Audio Engineering Society,45, n° 1/2, January /february 1997, pp. 4–21.Google Scholar
  9. [9]
    Brandenburg (K.H.), Stoll (G.), Dehéry (Y.F.), Johnston (J.D.), Kerkof (L.D.), Schröder. (E.F.), « iso- mpeg-1 audio: a generic standard for coding of high quality digital audio »,Journal of the Audio Engineering Society,42, October 1994, pp. 780–792.Google Scholar
  10. [10]
    Combescure (P.), LE Guyader (A.), Jouvet (D.), Sorin (C), « Le traitement du signal vocal »,Annales des Télécommunications,50, n° 1, 1995, pp. 142–164.Google Scholar
  11. [11]
    Chen (J.H.), Cox (R.V.), Lin (Y.C.), Jayant (N.), Melchner (M.J.), « A low-delay celp coder for the ccitt 16 kb/s speech coding standard »,ieee Journal on Selected Areas on Communications,10, n° 5, juin 1992, pp. 830–849.CrossRefGoogle Scholar
  12. [12]
    Cox (R.V.), « Three new speech coders from the itu cover a range of applications »,ieee Communication Magazine, September 97, pp. 40–47.Google Scholar
  13. [13]
    Cox (R.V.), « Speech coding standards », Chapitre 2 de l’ou- vrage « Speech coding and synthesis », Editeurs W.B. Kleijn et K.K. pauwal, pp. 49–78.Google Scholar
  14. [14]
    Daumer (W.R.), Mermelstein (P.), Maître (X.) et Tokizawa (I.), « Overview of the adpcm coding algorithm »,Proc. of GLOBECOM 1984, pp. 23.1.1-23.1.4.Google Scholar
  15. [15]
    Deléam (D.), Petit (J.P.), « Real time implementation of the recent itu-t low bit rate speech coders on the Ti tms320C54x dsp : results, methodology and applications »,International Conference on Signal Processing Applications and Technology (icspat), 1996.Google Scholar
  16. [16]
    Dimolitsas (S.), « Standardization speech coding technology for network application »,IEEE Communication Magazine, november 1993, pp. 26–33.Google Scholar
  17. [17]
    dsp group, http://www.dspg.com/player/main.htm, Adresse de la société américaine dsp group.Google Scholar
  18. [18]
    Ekuden (E.), Hagen (R.), Johansson (B.), Hayashi (S.), Kataoka (A.), Kurihara (S.), « itu-t G.729 extension at 6.4 kbps », icslp, 1998.Google Scholar
  19. [19]
    etsi http://www.etsi.org, Site de 1’etsi.Google Scholar
  20. [20]
    etsi ets 300 401, « Radio broadcasting systems; Digital Audio Broadcasting (dab) to mobile, portable and fixed receivers », Second Edition, May 97.Google Scholar
  21. [21]
    Fielder (L.D.), Bossi (M.), Davidson (G.), Davis (M), Todd (C), Vernon (S.), « ac-2 and ac-3 : low-complexity transfor- med-based audio coding », Collected papers on Digital Audio Bit-Rate Reduction, pp. 54-72, Editeurs N. Gilchrist et C. Grewin. Audio Engineering society, 1996.Google Scholar
  22. [22]
    Gersho (A.), « Advances in speech and audio compression »,Proceedings of the ieee,82, n° 6, June 1994, pp. 900–918.CrossRefGoogle Scholar
  23. [23]
    Gerson (I.A.), Jasiuk (M.A.), « Vector Sum Excited Linear Prediction (vselp) : speech coding at 8 kbps »,Proc. of ICASSP conference, 1990, pp. 461–464.Google Scholar
  24. [24]
    Gerson (I.A.), Jasiuk (M.A.), « A 5 600 bps vselp speech coder candidate for half rate GSM »,eurospeech, 1993, pp. 253–256.Google Scholar
  25. [25]
    Gilchrist (N.), Grewin (C), « Collected papers on Digital Audio Bit-Rate Reduction », Audio Engineering Society, 1996.Google Scholar
  26. [26]
    Grill (B.), « The mpeg-4 general audio coder »,17 th International Conference on High Quality Audio Coding, Villa Castelli, Italy, 2–5 September 1999.Google Scholar
  27. [27]
    Hellwig (K.), Vary (P.), Massaloux (D.), Petit (J.P.), Galand (C), Rosso (M.), « Speech codec for the European mobile radio system »,globecom conference, 1989, pp. 1065–1069.Google Scholar
  28. [28]
    Haigneré (I.), Buchner (G.), « La normalisation, clé des services de téléconférence »,L’écho des Recherches,171, 2e trimestre 1998, pp. 37–48.Google Scholar
  29. [29]
    Honkanen (T.), Vainio (J.), Kapanen (P.), Haavisto (P.), Salami (R.), Laflamme (C), Adoul (J.P.), « gsm enhanced full rate speech codec »,Proc. of 1CASSP conference, 1997, pp. 771–774.Google Scholar
  30. [30]
    Kleijn (W.B.), Paliwal (K.K.) (Editors), « Speech Coding and Synthesis », Elsevier, 1995.Google Scholar
  31. [31]
    ieee Communication Magazine,35, n° 9, September 1997, « Standardization and characterization of G.729 », Six articles traitant du G.729.Google Scholar
  32. [32]
    Ikeda (K.), Mori (T.), Moriya (T.) and Kaneko (T.), « A real time phs music delivery system »,ntt Review,10, sept. 98, pp. 143-147.Google Scholar
  33. [33]
    imtc. http://www.imtc.org/main.htm, Adresse de 1’imtc (International Multimedia Teleconferencing Consortium).Google Scholar
  34. [34]
    iso/iec 11172-3, « Technologies de l’information — Codage de 1’image animée et du son associé pour les supports de stockage numériques jusqu’ô environ 1,5 Mbit/s, partie 3 audio », 1993. (Norme iso/afnor)Google Scholar
  35. [35]
    iso, http://www.iso.org, Site de 1’iso (International Organization for Standardization).Google Scholar
  36. [36]
    iso-mpeg, http://drogo.cselt.it/mpeg, Adresse principale du site MPEG.Google Scholar
  37. [37]
    iso-mpeg Audio, http://www.tnt.uni-hannover.de/project/mpeg/ audio, Adresse principale du site mpeg audio.Google Scholar
  38. [38]
    iso/cei 13818-3, « Technologies de l’information - Codage géné-rique des images animées et des informations sonores associées, partie 3 : son », 1995, (Norme iso/afnor).Google Scholar
  39. [39]
    iso/cei 13818-7, « Technologies de l’information - Codage géné- rique des images animées et du son associé, partie 7 : Codage du son avancé (aac) », 1997, (Norme iso/ afnor).Google Scholar
  40. [40]
    iso/cei 13818–7, « Technologies de l’information - Codage géné- rique des images animées et du son associé, partie 7 : Codage du son avancé (aac) rectification technique 1 », 1998, (Norme iso/afnor).Google Scholar
  41. [41]
    iso/cei jtc1/sc29/wg11 N1650, « is 13818-7 (mpeg-2 Advanced Audio Coding, aac) », Bristol, november 1997.Google Scholar
  42. [42]
    iso/cei jtc1/sc29/wg11 N2503. Audio 14496-3 fdis, « Information technology-very low bit rate audio video coding, part 3 : audio coding », Atlantic City, October 1998.Google Scholar
  43. [43]
    iso/cei jtc1/sc29/wg11 n3058, fdamI 14496-3, mpeg-4 Audio version 2 document, Maui, december 1999.Google Scholar
  44. [44]
    uit, http://www.itu.int, Site de 1’itu.Google Scholar
  45. [45]
    uit-r, Recommandation BS.1115, « Codage audio à faible débit binaire », Genève, 1994.Google Scholar
  46. [46]
    uit-r, Recommandation BS.1116, « Méthodes d’évaluation subjective des degradations faibles dans les systemes audio y compris les systemes sonores multivoies », Genève, 1994.Google Scholar
  47. [47]
    uit-t, G.I 14, « Caractéristiques générales des connexions télé- phoniques internationales et des circuits téléphoniques internationaux : Temps de transmission dans un sens », 1996.Google Scholar
  48. [48]
    uit-t, http://www.itu.int/itudoc/itu-t/rec/g/index.html, Liste des recommandations de compression uit-t de la serie G « Systèmes et supports de transmission, systèmes et réseaux numériques ».Google Scholar
  49. [49]
    itu-t, http://www.itu.int/itudoc/itu-t/ree/h/index.html, Liste des recommandations itu-t de la série H « systèmes audiovisuels et systèmes multimédias ».Google Scholar
  50. [50]
    itu-t, Recommandation J.52, « Digital transmission of high-quality sound program signals using one, two, or three 64 kbit/s channel per mono signal (and up to six per stereo channel) », 1996.Google Scholar
  51. [51]
    itu-t, Recommendation P.800, « Methods for subjective determination of transmission quality », Geneva, August 1996.Google Scholar
  52. [52]
    Mahieux (Y.), Petit (J.P.), « High quality audio transform coding at 64 kbit/s »,ieee Trans, on Com.,42, n° 11, nov. 1994, pp. 3010–3019.CrossRefGoogle Scholar
  53. [53]
    Maitre (X.), 7 kHz audio coding within 64 kbit/s,ieee Journal on Selected Areas on Communications,6, n° 2, feb. 1988, pp. 283–298.CrossRefGoogle Scholar
  54. [54]
    Nishiguchi (M.), « mpeg-4 speech coding »,17 th International Conférence on High Quality Audio Coding, Villa Castelli, Italy, 2-5 September 1999.Google Scholar
  55. [55]
    Naoki (I.), Moriya (M.), Satoshi (M.), « High-Quality Audio Coding at less than 64 kbit/s by using Transform-Domain Weighted Interleaved Vector Quantization (twin-vq) »,Proc. Of the International Conference on Acoustic, Speech and Signal Processing, 1995, pp. 937–940.Google Scholar
  56. [56]
    Noll (P.), « mpeg audio coding, setting the standard of high-quality audio compression »,ieee Signal Processing Magazine, September 1997.Google Scholar
  57. [57]
    Petit (J.P.), Chapitre « Voice coding » et differentes contributions dans l’ouvrage « IP telephony, packet based multimedia communication systems », auteurs O. Hersant, D. Gurle et J.-P. Petit, Addison - Wesley, 1999.Google Scholar
  58. [58]
    PictureTel, http://www.picturetel.com/products/default.htm, Site de la société PictureTel, produits de visioconférence.Google Scholar
  59. [59]
    Proust (S.), Lamblin (C.) et Massaloux (D.), « Dual rate low delay celp coding (8 kbit/s 16 kbit/s) using a mixed backward/forward adaptive lpc prediction »,1995 ieee workshop on speech coding for telecommunications, Annapolis, USA, pp. 37–38.Google Scholar
  60. [60]
    Purnhagen (H.). « An overview of mpeg-4 audio version 2 ».17 th International Conférence on High Quality Audio Coding, Villa Castelli, Italy, 2-5 September 1999.Google Scholar
  61. [61]
    Rabiner (L.R.), Schafer (R.W.), « Digital processing of speech signals », Bell Laboratories inc., 1978.Google Scholar
  62. [62]
    Salami (R.), Laflamme (C.), Adoul (J.P.), Kataoka (A.), Hayashi (S.), Moriya (X.), Lamblin (C.), Massaloux (D.), Proust (S.), Kroon (P.), Shoham (Y.). «Design and description of cs-acelp: a toll quality 8 kb/s speech coder »,ieee Trans, on Speech and Audio Processing,6, n° 2, march 1998, pp. 116–130.CrossRefGoogle Scholar
  63. [63]
    Sherif (M.H.), Bowker (D.O.), Bertocci (G.), Orford (B.A.), Mariano (G.A.), « Overview and performance of ccitt/ansi Embedded adpcm algorithms »,ieee Trans. On Communications,41, n° 2, february 1993, pp. 391–399.MATHCrossRefGoogle Scholar
  64. [64]
    Soulodre (G.A.), Lavoie (M.), « Subjective evaluation of large and small impairements in audio codecs »,Proceedings of the AES 17 th International conference, September 1999, pp. 329.Google Scholar
  65. [65]
    Speech Communication, « The ccitt 16 kbit/s speech coding recommandation G.728 », 12, n° 2, juin 1996. Numéro spécial sur le G.728.Google Scholar
  66. [66]
    Tsutsui (K.), Suzuki (H.), Shimoyoshi (O.), Sonohara (M.), Akagiri (K.), Heddle (R.), « atrac : Adaptive Transform Acoustic Coding for minidisc », Collected papers on Digital Audio Bit-Rate Reduction, pp. 95–101, Editeurs N. Gilchrist et C. Grewin, Audio Engineering Society, 1996.Google Scholar

Copyright information

© Springer-Verlag 2000

Authors and Affiliations

  • A. Le Guyader
    • 1
  • P. Philippe
    • 2
  • J. B. Rault
    • 2
  1. 1.France Télécom R&D DIH/DIPSLannionFrance
  2. 2.France Télécom R&D DIH/HDMCesson SévignéFrance

Personalised recommendations