Advertisement

Das Fehlertolerante System Tandem T16

  • Alfred Schulz
Conference paper
Part of the Informatik-Fachberichte book series (INFORMATIK, volume 83)

Zusammenfassung

Im Jahre 1976 lieferte TANDEM sein erstes System T16 aus. Dieses war das erste kommerziell nutzbare Standard-Non-Stop-System.

Die Non-Stop Funktionen werden im Bereich der Hardware durch Vervielfachung der einzelnen Komponenten erreicht. Im Fehlerfall können die Aufgaben der ausgefallenen Komponente auf die noch vorhandenen Komponenten (z. B. Prozessoren) verteilt werden.Im Normalfall führen alle Komponenten ihre eigenen Aufgaben aus (= aktive Redundanz). Stromausfall bis zu 80 min wird über Batteriepuffer toleriert.

Die Behandlung der Hardwarefehler und qqf. die Umschaltunq auf andere Hardwarekomponenten wird vom Betriebssystem GUARDIAN durchgeführt. Statusinformationen und Daten werden über Checkpointing auch an andere prozessoren übertragen.

Für die Anwenderprogramme gibt es neben dem normalen Verarbeitungsmodus zwei Möglichkeiten der Non-Stop Verarbeitung:
  1. a)

    durch Checkpoints

     
  2. b)

    unter der Kontrolle von TMF. Hierbei ist die Datenkonsistenz auch bei Mehrfachfehlern, Programmfehlern und bei Netzwerk-Fehlern gewährleistet.

     

Summary

The TANDEM System T16 was shipped in 1976 as the first “non-stop” computer system available for commercial use.

Fault tolerance is achieved from a hardware viewpoint by duplicating critical system components. In the case of a single component failure during system operating the work previously done by the failed component (e. g. a processor module) is redistributed across the still remaining components and processing continues. Battery backup allows for the toleration of power loss forup to approx. 80 minutes.

The handling of hardware errors e.g. loss of a processor module, and the subsequent reassignment of hardware resources are automatically executed by the GUARDIAN operating system. Critical information pertinent to an executing program are sent from the primary process in a process pair to it’s backup (in another processor) in the form of checkpoints.

For applications software there are two methods to achieve fault tolerance:
  1. a)

    By defining restart points within the program (checkpoints).

     
  2. b)

    By employing the services of TMF (Transaction Monitor Facility) for ensuring database consistency in the case of both single and multiple component failures as well as errors in the application program. These database integrity functions are also fully supported for operation within a network of system.

     

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Copyright information

© Springer-Verlag Berlin Heidelberg 1984

Authors and Affiliations

  • Alfred Schulz
    • 1
  1. 1.Geschäftsstelle HamburgTANDEM COMPUTERS GMBHHamburg 36Germany

Personalised recommendations