Maschinelles Lernen (ML) ist ein Bereich der künstlichen Intelligenz (KI), in welchem Computeralgorithmen anhand von Beispielen lernen, bestimmte Aufgaben zu lösen. Um beim Lösen der Aufgaben besser zu werden, trainiert ein Algorithmus zunächst, indem die Datenverarbeitung anhand von Erfahrung an die Problemstellung angepasst wird. Eine solche Aufgabe kann z. B. das Erkennen von Tumorgeweben in Lungen-CT-Bildern sein. Gelernt hat der Algorithmus jedoch nur dann, wenn die Aufgabe auch auf neuen, zuvor ungesehenen Testdaten, die aus derselben Problemkategorie kommen, korrekt gelöst werden kann.

In den letzten Jahren hat die Bedeutung dieses Feldes aus mehreren Gründen zugenommen, die durch Fortschritte auf dem Gebiet der künstlichen neuronalen Netze (KNN) getrieben wird, welche sich als derzeit vielversprechendster Algorithmus für maschinelles Lernen etabliert haben. Grundlegend handelt es sich bei KNN um ein Netzwerk zur Datenverarbeitung, welches Datenpunkte beliebig gewichten kann, um Aufgaben zu lösen. Die Gewichte dieses Netzwerks werden über Lernstrategien angepasst, sodass abhängig von der Aufgabe auf bestimmte Datenpunkte mehr oder weniger Wert gelegt wird.

Nachdem diese Netzwerke mehrere hundert Millionen Gewichte enthalten können, erlaubt erst moderne Computer-Hardware wie Graphics Processing Units (GPUs) effizientes Trainieren. Sowohl die Lernstrategien selbst als auch die Architekturen künstlicher neuronaler Netze wurden in den letzten Jahren immer weiter verbessert, sodass heute das Erlernen komplexer Muster in hochdimensionalen Daten, wie in biomedizinischen Bildern, möglich ist.

Im Kern dieser Effizienz [15] ist eine Eigenschaft der visuellen Welt, die man mit Compositionality bezeichnet, der Umstand, dass viele Objekte eine Zusammensetzung anderer Objekte sind. Zwei Tische, auf denen sich entweder ein Teller oder ein Laptop befindet, sind nicht zwei grundsätzlich verschiedene Kategorien, sondern anders aus Teilen zusammengesetzte Konfigurationen. Entsprechend nutzt eine effiziente Lernstrategie diese Teilbarkeit aus, indem sie Tisch, Teller und Laptop und die Zusammensetzung als solche erkennt. Diese Eigenschaft lässt auch auf medizinische Bilddaten übertragen, die Gewebe, anatomische Strukturen und ihre räumlichen Relationen abbilden. Sie liegt Convolutional Neural Networks (CNNs), der häufigsten KNN-Architektur für maschinelles Lernen auf Bildern darstellen, zugrunde. CNNs erlernen Kaskaden von Filtern, die zunächst kleinere, allgemeinere Strukturen wie Ecken und Kanten in Bildern erkennen und in weiterer Folge zu komplexeren Strukturen zusammensetzen können.

Im Folgenden werden einige der wichtigsten Lernansätze erklärt und ihre Funktionsweise sowie ihre Rollen in der Radiologie einander gegenübergestellt. Den Beginn machen traditionelle Strategien wie das überwachte Lernen („supervised learning“), unüberwachtes Lernen („unsupervised learning“) sowie Merkmalsextraktion („feature extraction“), Merkmalsselektion („feature selection“) und Merkmalskonstruktion („feature learning“). Letztere stellen den Übergang zu neuartigen Ansätzen dar, die sich im Wesentlichen dadurch unterscheiden, verschiedene Typen und Konfigurationen während des Trainings verarbeiten zu können.

Grundlegende Lernstrategien

Damit ein Algorithmus anhand von Daten lernen kann, wird eine Zielfunktion benötigt, die der Algorithmus zu optimieren versucht. Zumeist wird ein Minimierungsproblem formuliert, sodass ein Fehler zwischen der Vorhersage des Modelles und der tatsächlich erwarteten Größe errechnet werden kann, der den Algorithmus dazu veranlasst, die Modellparameter derart zu ändern, dass dieser Fehler sukzessiv kleiner wird.

Maschinelles Lernen im herkömmlichen Sinn erstellt Vorhersagemodelle – z. B. mit welcher Wahrscheinlichkeit ein Lungeninfiltrat beim Intensivpatienten zu einer ARDS führt oder eine Tumorerkrankung auf eine Therapie ansprechen wird/Outcomeprediction – indem von einer möglichst großen und repräsentativen Zahl von Trainingsbeispielen gelernt wird. Diese bestehen typischerweise aus Beobachtungen (z. B. MRT- oder CT-Datensätze) und den Beobachtungen zugeordneten Zielwerten (z. B. zukünftiger klinischer Verlauf). Beobachtungen werden in einem ersten Schritt in Merkmalsvektoren (z. B. Größe, Form, und Texturparameter einer Läsion) übersetzt. Zielwerte können die Form von Klassen oder kontinuierlichen Werten in der Gegenwart, wie Diagnose, Tumortyp, Krankheitsstatus, oder auch in der Zukunft, wie Outcome, oder die Zeit bis zum Rezidiv, einnehmen [14]. Ein zentraler Aspekt des maschinellen Lernens ist dabei nicht nur, einzelne Merkmale (univariate Analyse) oder Gruppen von Merkmalen voneinander unabhängig (mass-univariate Analyse) zu nutzen, sondern den gesamten Merkmalsvektor, und damit auch Beziehungen zwischen Variablen (multivariate Analyse) für die Vorhersage heranzuziehen. Die Zielvariable kann kategorisch – Klassifikationsmodell z. B. zur Bestimmung des Krankheitstyps – oder skalar – Regressionsmodell z. B. zur Bestimmung des Krankheitsstadiums – sein. Ein spezieller, in der Medizin aber relevanter Fall sind sog. Survival-Modelle. Sie beschäftigen sich insbesondere mit Fällen, in denen die Zielvariablen der Trainingsdaten nur über einen begrenzten Zeitraum beobachtet werden. Ein Beispiel ist das Auftreten eines Rezidivs oder der nicht in allen Patienten vorkommende Transfer von Mild Cognitive Impairment zu Alzheimer Disease. Hier sind die Negativbeispiele tatsächlich nur noch nicht Beispiele, und zur Berücksichtigung dieser Tatsache stehen aus der klassischen Statistik bekannte Modelle wie Cox-Regression zur Verfügung [7].

Überwachtes Lernen

Überwachtes Lernen – „supervised learning“ – trainiert Modelle anhand von Trainingsbeispielen, die jeweils aus Paaren einer Beobachtung („input“) und eines Zielwertes („output“) bestehen. Nach dem Trainieren des Modelles kann dieses neuen Beobachtungen, d. h. auf Basis neuer Datensätze, Zielwerte zuordnen. In der Radiologie sind das Abbildungen, wie z. B. von jeweils einem Voxel auf die Kategorie Läsion bzw. normale Anatomie, von einem Bild auf die Art oder das Stadium einer Erkrankung, oder vom Ausschnitt eines Volumens auf die Größe einer bestimmten Struktur.

Zentral für die Genauigkeit des trainierten Modelles, d. h. seiner Fähigkeit die korrekten Zielwerte für neue Beobachtungen vorherzusagen, sind einerseits die Auswahl des Modelles, andererseits die Größe und Repräsentativität der Trainingsdaten. Diese sollen so gut wie möglich die Variabilität der zu identifizierenden Klassen, und ihre Unterschiede erfassen, und die Größe hängt damit von der Beschaffenheit, Heterogenität der Daten, und des Unterschieds zwischen den zu trennenden Klassen ab.

Eine grundsätzliche Limitation des überwachten Lernens ist in der Radiologie die Beschränkung auf bereits bekannte diagnostische Kategorien, die für die Trainingsbeispiele bekanntgegeben werden müssen. Dies schließt die Identifikation von über die Granularität dieser Kategorien hinausgehende Gruppen in den Daten aus.

Unüberwachtes Lernen

Unüberwachtes Lernen – „unsupervised learning“ – setzt an dieser Limitation an [13]. Statt Paaren von Eingabe- (Beobachtungen) und Ausgabewerten (Zielwerten) wird nur eine Menge von Eingabewerten zum Training herangezogen, da entweder keine Ausgabewerte bekannt sind oder hinterfragt werden soll, ob die zur Verfügung stehenden Ausgabewerte tatsächlich die Variabilität der Daten erklären. Ziel ist es nun, Struktur in den Daten zu entdecken, die in der Form von Gruppierungen oder gegenseitiger Abhängigkeit von Variablen auftreten kann. Gruppen in den Daten, d. h. Datenbeispiele, die einander im Sinne eines Maßes ähneln, werden durch Methoden des Clusterings identifiziert [21]. Eine Anwendung in der Radiologie ist hier die Identifikation von Phenotypen basierend auf Bilddaten, die zu klinischen Parametern in Bezug gesetzt werden können [12].

Merkmalsextraktion

Beobachtungen, wie Bilder, klinische Daten, Laborwerte oder Charakteristika der Krankengeschichte, die als Grundlage für Vorhersagen dienen sollen, werden vor der Verarbeitung durch ein Modell erst in numerische Merkmale übersetzt. Die Darstellung in der Form von Merkmalsvektoren erlaubt die Abbildung von sog. Merkmalsräumen zu Zielwerten. Rohe Beobachtungen in Merkmalsvektoren umzuwandeln war lange Zeit ein dominierendes Forschungsgebiet, das mit substanziellem Wissen über die Natur und zugrunde liegenden Mechanismen der Beobachtungen, Merkmalsextraktionsalgorithmen entwickelt hat, die einerseits relevante Informationen enthalten, andererseits für die Klassifikation oder Regression unwichtige und potenziell störende Größen unterdrücken. Hier liegt auch die Limitation dieser Zugänge: die Notwendigkeit der Konstruktion von Merkmalsextraktion durch Experten und die damit verbundene Limitation auf bekannte Mechanismen sowie die geringe Anwendbarkeit bestehender Modelle auf neue Problemstellungen. Modelle wie beispielsweise Support Vector Machines (SVM) sind sehr empfindlich gegenüber irrelevanten Merkmalen und bedürfen einer sorgfältigen Auswahl der informativen Merkmale, die tatsächlich für die Klassifikation herangezogen werden.

Selektion und Konstruktion von Merkmalen

Mit der Entwicklung von Methoden wie „Bagging“ und „Boosting“, die statt auf komplexen Klassifikationsmodellen und aufwändig konstruierten Merkmalen, auf Kaskaden simpler Modelle basieren – sog. „weak learner“ – nahm die Möglichkeit, die Auswahl von Merkmalen Algorithmen zu überlassen, Einzug. Random Forests [4] und AdaBoost [10] sind Beispiele, die als Teil des Lernens auch den Beitrag individueller Features zur korrekten Entscheidung evaluieren und durch ihre Architektur entsprechend gewichten. Dadurch wird die Extraktion von Merkmalskandidaten und die anschließende Selektion der Merkmale, die tatsächlich prädiktiven Wert haben, möglich. Es stellt eine der Grundvoraussetzungen von Radiomics dar, dem Ansatz aus einer großen Menge aus Bildausschnitten extrahierter Merkmale algorithmisch auszuwählen und die entstehenden Signaturen für Diagnose, Staging oder Vorhersage zu verwenden [1]. In der Radiologie erlaubt dieser Zugang zum Beispiel die Konstruktion von Merkmalen, die in Bezug auf diagnostische Kategorien besonders informativ sind [11].

Das Konzept der Selektion leidet unter einer Limitation, die sich durch die Definition der Merkmalskandidaten ergibt: Nur unter ihnen kann ausgewählt werden. Methoden wie CNNs erlauben das Erlernen bzw. die algorithmische Konstruktion der Merkmalsextraktoren bis zur Ebene des rohen Bildes und haben sich als effektive Strategie erwiesen, um Bildinhalte optimal zu nutzen.

Anwendungen in der Radiologie: Radiomics und mehr

Radiomics [1] nutzt die o. g. Konzepte der Merkmalsextraktion, Selektion und anschließenden Verarbeitung durch Vorhersagemodelle, um medizinische Bilddaten für klinisch relevante Vorhersagen zu nutzen. Merkmalskandidaten, die in der Radiomics-Literatur zur Anwendung kommen, reichen von Textur‑, Form-, bis hin zu Ortsmerkmalen. Dies erlaubt einerseits ein Maß an Standardisierung von Merkmalen über Studien hinweg, bewirkt aber die oben angesprochene Beschränkung des Merkmalsvokabulars auf diese Familien.

Selektion informativer und valider Merkmale

Basierend auf einem Vokabular von Merkmalskandidaten können die tatsächlich für die Vorhersage verwendeten Merkmale durch Dimensionalitätsreduktionsmethoden wie der Principal Component Analysis (PCA; [32]) oder nichtlineare Varianten des Lernens von Mannigfaltigkeit erstellt werden [6]. Alternativ können Gruppen informativer Merkmale ausgewählt werden, indem ihr Beitrag zur korrekten Vorhersage der Zielvariable quantifiziert wird. Random Forests [4, 23] und AdaBoost [3] gehören zu den entsprechenden Methoden. Ein wesentlicher Unterschied zwischen den beiden Ansätzen ist das bei letzterem für Selektion bereits die Zielvariablen der Trainingsbeispiele herangezogen werden, für die genannten Dimensionalitätsreduktionstechniken allerdings nicht.

Eine Gefahr in der Radiomics-Analyse ist die typischerweise im Vergleich zur Anzahl der Traininsbeispiele sehr hohe Anzahl von Merkmalen. Diese führt zur Gefahr des Overfittings von Modellen, die zwar die Trainingsbeispiele optimal verarbeiten, aber fast gar nicht auf neue Beispiele übertragbar sind. Aufgrund der hohen Anzahl der Merkmale, lässt sich oft eine Trennung der Klassen in den Trainingsbeispielen finden, die aber nicht die zugrundeliegende Verteilung der Klassen im Merkmalsraum wiedergibt. Dieser Bias kann sich bis in die Selektion und Konstruktion von Merkmalen ziehen, was eine entsprechend klare Trennung zwischen den dafür verwendeten Trainingsdaten und den für die Validierung herangezogenen Testdaten notwendig macht.

Dahingegen reduziert Dimensionalitätsreduktion Redundanz in der Merkmalsdarstellung, indem sie eine neue Darstellung der Punkte im Merkmalsraum finden, die im Wesentlichen miteinander korrelierte Merkmale zusammenfasst. Die entstehenden Merkmale sind nicht durch die Zielwerte der jeweiligen Beispiele beeinflusst und damit valide Merkmale, die nicht unmittelbar die Gefahr des Overfitting bergen. Durch das Zusammenfassen von Variablen limitieren Methoden wie die PCA allerdings die Identifikation von informativen Variablen des initialen Merkmalsvektors. Methoden wie „bagging“ und „boosting“ selektieren Variablen anstatt sie zusammenzufassen, ziehen dabei aber die Zielvariablen der Trainingsbeispiele in Betracht, was eine Validierung nur mehr auf einem getrennten Test-set ermöglicht.

Validierung von Radiomics-Modellen

Ein Schlüssel zur Auswahl und Beurteilung valider Merkmale ist daher der präzise Umgang mit der Information, die zur Auswahl herangezogen und zur anschließenden Validierung der erlernten Merkmale und Modelle verwendet wird. Grundsätzlich müssen Trainings- und Testdaten getrennt bleiben. Eine Möglichkeit, dies bei beschränkten Daten effizient umzusetzen, ist die Kreuzvalidierung, indem jeweils ein Teil für das Training und ein anderer Teil für die Validierung genutzt wird. Sobald für die Konstruktion und Selektion von Variablen Zielwerte herangezogen werden, darf auch diese Berechnung jeweils nur basierend auf Daten des Training-sets stattfinden. Bei der Kreuzvalidierung ist darauf zu achten, dass ihre häufige Anwendung während der Algorithmusentwicklung ebenfalls zu überoptimistischen Schätzungen der Modellgenauigkeit führen kann, da die Testdaten Resultate nicht mehr unabhängig vom entwickelten Algorithmus sind – sie haben ja durch die wiederholten Experimente und Auswertungen zunehmend Einfluss auf Designentscheidungen. In diesem Fall ist die Isolation eines Testdatensets, dass nur zur finalen Evaluation für die Publikation der Ergebnisse herangezogen wird, eine gute Praxis.

Evaluationsmasse wie „goodness of fit“ auf Testdaten sind valide Maße der Modellqualität, d. h. der Fähigkeit des trainierten Modells, die Charakteristika der Daten zu erfassen und zu imitieren. Für kategorische Variablen werden traditionelle Masse wie falsch-positive und falsch-negative bzw. daraus hergeleitete Maße verwendet. Da viele der Methoden durch Parameter gesteuert werden, die diese falsch-positive/negative Verhältnis verändern, ist die gemeinsame Darstellung dieser Varianten in Form einer „receiver-operator-characteristic curve“ (ROC) und das daraus abgeleitete „Area-under-the-curve“(AUC)-Maß ein probates Mittel der Wahl.

Lernen von longitudinalen Daten

Für die Analyse longitudinaler Daten werden neben den bereits eingeführten Lernstrategien zusätzliche Techniken benötigt, um die Zeitkomponente in die Modellbildung einfließen zu lassen. Diese sog. spatiotemporalen oder longitudinalen Modelle ermöglichen die Kodierung von z. B. Krankheitsverläufen, Entwicklungsprozessen und können auch zur Vorhersage von Therapieeffekt, Risiko einer Verschlechterung oder eines Verlaufes herangezogen werden.

Frage der Korrespondenz

Ein wichtiger Bestandteil dieser zeitbasierenden Lernstrategien bildet die Harmonisierung der Daten, um diese zu einem bestimmten Zeitpunkt, aber auch über mehrere Zeitpunktehinweg in Korrespondenz zu bringen. Hierzu werden in einem Vorverarbeitungsschritt Registrierungstechniken angewendet, die als Ziel haben, Strukturen in einem Ausgangsbild (Source Image) dahingehend zu transformieren, dass sich diese mit Strukturen des Zielbilds (Target Image) deckt. Man unterscheidet zwischen linearer Registrierung (rigide, affine), der globale Transformationen (Skalierung, Rotation, Translation) zugeordnet werden und nichtlineare (non-rigide) Registrierung, welche die lokale Deformationen, basierend auf physikalischen Modellen (Diffusion, Elastizität, Flüssigkeitsströmung etc.) im Fokus hat. In der Medizin ist es von großer Bedeutung, dass Bilder nach der Registrierung anatomisch valide bleiben, d. h. nur jene Deformationen zugelassen werden, die diese Eigenschaften bewahren (z. B. diffeomorphe Registrierung). In Abb. 1 werden schematisch die nötigen Transformationsprozesse visualisiert, um z. B. die Form eines Hirns in der 18. Schwangerschaftswoche (SW) (Source Image) zu der Form eines Hirns in der 30. Schwangerschaftswoche (Target Image) zu registrieren. Die nötigen Transformationen beinhaltet die Rotation und Skalierung des Hirns und anschließende feine lokale Transformationen, um die Hirnwindungen zu modellieren.

Abb. 1
figure 1

Paarweise Registrierung zweier Bilder

In der klinischen Routine erweitert sich das hier vorgestellte Registrierungsproblem auf dreidimensionale Grauwertbilder und bringt in Abhängigkeit von der Modalität zusätzliche Herausforderungen mit sich (Intensitätsschwankungen, Artefakte, Patienteninter- und -intravariabilität, Voxelspacing sowie die Variabilität der Umgebung, in der sich die zu registrierende Struktur befindet).

Transformationen können als parametrisierbare Funktionen (Transformationsmatrizen oder Vektorfelder) definiert werden, deren Parameter mittels maschinellen Lernens bestimmt werden können. Balakrishnan et al. [2] formulierten z. B. das Registrierungsproblem als Funktion, welche ein Bildpaar einem Deformationsfeld zuordnet, das diese Bilder bestmöglich in Korrespondenz bringt. Die Parameter dieser Funktion werden in diesem Ansatz durch ein Convolutional Neural Network (CNN) gelernt.

Zeitabhängige Entwicklungsprozesse mit mehreren Aufnahmezeitpunkten (>2) verwenden erweitere Formen der Registrierung. Sich kontinuierlich ändernde Referenzmodelle wurden kürzlich vorgestellt, um die Veränderungen in der Struktur und Form von longitudinal Daten darstellen zu können. Ein Bereich der publizierten Ansätze umfasst die Codierung von Unterschieden über die Zeit mittels lokal räumlicher Transformationen, die sich in Abhängigkeit einer Zeitkomponente (z. B. Alter) verändern:

Verkettung von paarweiser Registrierung.

Ein möglicher Ansatz, um longitudinal Trajektorien zu modellieren, ist die paarweise Registrierung zwischen einzelnen Aufnahmezeitpunkten von Bilddaten eines Patienten und anschließender Verkettung der berechneten Transformationsfelder [22]. Mit diesem Ansatz können Veränderungen über die Zeit in einem gemeinsamen Koordinatensystem beobachtet und verfolgt werden [8, 16, 19, 29]. Für die Modellierung patientenspezifischer Trajektorien ist dies eine gängige Technik, jedoch bei longitudinalen Daten mehrerer Patienten sind andere Ansätze besser geeignet, da die Anzahl der zu berechnenden Transformationen steigt, welches in höherem Zeitaufwand und Komplexität resultiert.

Bildregression.

Anstatt der Schätzung einzelner Deformationsfelder können als Erweiterung des bereits eingeführten Registrierungsansatzes zeitabhängige Deformationsfelder, die sich über die Zeit (z. B. Schwangerschaftswoche, Alter oder Therapiezeitpunkt) ändern, erlernt werden. Anstatt einer Berechnung einzelner paarweiser Deformationsfelder zwischen den observierten Zeitpunkten ist eine aufkommende Technik die Bildregression [24, 31]. In Licandro et al. [17] stellen einen Ansatz der geodätischen Bildregression vor, die es ermöglicht, aus longitudinalen Daten ein zeitabhängiges Deformationsfeld zu lernen, um die Änderungen während der fetale Hirnentwicklung über die Schwangerschaft zu beschreiben und zu analysieren. In Abb. 2 ist eine vereinfachte schematische Darstellung der Bildregression abgebildet. Ziel ist es, eine zeitabhängige Transformationsfunktion zu erlernen, die ein fetales Hirn in der 18. Schwangerschaftswoche (SW) mit Hirnen zwischen der 23. und 30. SW in Korrespondenz bringen kann.

Abb. 2
figure 2

Bildregression für das Lernen von zeitabhängigen Transformationsfunktionen [30]

In Fishbaugh und Gerig [9] stellten einen Ansatz zur nichtparametrischen Bildregression vor, welche Trajektorien basierend auf der Beschleunigung der Veränderung erlernt. Diese Technik ermöglicht es im Gegensatz zur Bildregression [17, 31], Trajektorien über längere Zeiträume zu erlernen, ist flexibler in der Modellierung von beschleunigtem Wachstum in früher Kindheit und wird auch für komplexe nichtmonotone Veränderungen, wie z. B. im Bereich der dynamischen Herzbildgebung, verwendet.

Eine andere Möglichkeit für Lernstrategien für longitudinale Analysen bilden statistische Methoden. Hier kann man zwischen parametrischen und nichtparametrischen Ansätzen unterscheiden. Parametrische Modelle (z. B. hierarchische lineare Modelle, „general linear model“) sind beschränkt durch die räumliche Auflösung der Daten und durch die vordefinierte Modellkomplexität. Beispielsweise wurde ein Krankheitsprogressionsmodell basierend auf Gaußschen Prozessen für die Vorhersage von MR-Zeitserien vorgestellt [19, 20]. Zu nichtparametrischen Modellen zählen z. B. Bayessche Mixture-Modelle, die auf Bayesscher Statistik basieren. Diese Modelle werden verwendet, um z. B. Lungenfunktionstrajektorien zu identifizieren [28], für die Modellierung von Alterungsprozessen in Zeitserien und für die Vorhersage und Modellierung mittels Mannigfaltigkeiten [26].

Neue Lernstrategien für longitudinale Daten

Die Verwendung neuronaler Netze hält auch Einzug in den Lernstrategien für longitudinale Analysen und Vorhersagen. Ravi et al. [27] präsentieren ein Adversarial Netzwerk, welches mittels unüberwachtem Lernen Bilder in einem Krankheitsverlauf vorhersagen kann. In [18] wird eine Kaskade von zwei neuronalen Netzwerken verwendet, um gezielt Orte der zukünftigen Läsionsprogression in Bilddaten von Patienten mit multiplem Myelom zu visualisieren (Abb. 3).

Abb. 3
figure 3

Vorhersage der Risikogebiete für das Aufkommen von Knochenläsionen im multiplen Myelom, basierend auf dem Inputbild zum Zeitpunkt t. Das Ziel liegt 3 Jahre in der Zukunft (t + 3). (Nach [18], CC BY-SA 4.0, https://creativecommons.org/licenses/by-sa/4.0/)

Răzvan et al. [22] präsentieren schließlich ein spatiotemporales Modell für degenerative Hirnerkrankungen, welches spezifisch für jeden Vertex auf einer Hirnoberfläche Trajektorien von Bild-Biomarkern visualisiert unter Verwendung eines generalisierten Expectation-Maximization-Ansatzes.

Alternative Lernstrategien mit Relevanz für die Radiologie

Das Feld des maschinellen Lernens entwickelt sich neben und teilweise auch mit seiner Anwendung in der Medizin ebenfalls fort. Drei Ansätze sollen aufgrund ihrer Relevanz für Problemstellungen und Datenlage in der medizinischen Bildgebung hervorgehoben werden.

Transfer Learning

Maschinelle Lernmethoden funktionieren gut, wenn die Voraussetzung gegeben ist, dass Trainingsdatensätze aus der gleichen Bilddomäne entnommen wurden und im Fall einer Krankheitsklassifikation eine ausgeglichene Verteilung zwischen gesund und krank besitzen [25]. In Szenarien, in denen sich die Bildmodalität ändert, Trainingsdaten teuer, selten oder schwer zu akquirieren sind, kann mithilfe von Transfer Learning ein Modell, welches auf eine bestimmte Problemstellung oder Bildmodalität trainiert wurde, in eine andere Problemstellung oder Bilddomäne übertragen werden [36]. Diese Strategie erlaubt insbesondere in der medizinischen Bildverarbeitung die Nutzung bereits teilweise trainierter Modelle, um das Training auf den Zieldaten einerseits zu beschleunigen, und andererseits auch mit geringen Trainingsmengen zu ermöglichen. Überraschenderweise sind für das Vortraining auch Bilddaten aus völlig anderen Domänen verwendbar, und das Transfer Learning ist bereits fast schon zum Standardverfahren geworden.

„Few-shot learning“ – Lernen mit wenigen Beispielen

Erinnern Sie sich an das erste Mal, als Ihnen ein Bild eines Segways gezeigt wurde? Nach nur einem Beispiel konnten Sie wahrscheinlich zwischen allen Ihnen bekannten Fahrzeugen und diesem neuartigen Gefährt unterscheiden. Auf der Idee, dass auch Maschinen mit nur wenigen Beispielen gute Vorhersagen machen können, baut „few-shot learning“ auf. Es ist in der Medizin sehr relevant, da hier vergleichsweise wenig Trainingsdaten zur Verfügung stehen. Wenig in diesem Kontext bedeutet zwischen 0 (zero-shot) und N (N‑shot) Beispielen, wobei N normalerweise kleiner als 10 ist. Jedes dieser N Beispiele kann zu einer von k Klassen gehören, was man dann eine N‑Shot k‑way-Aufgabe nennt. Ein gutes Few-shot-learning-Modell ist in der Lage, Testdaten (Query Set) in k vorher ungesehene Klassen zu differenzieren, indem nur N Beispiele zu jeder der k Klassen präsentiert werden (Support Set genannt).

Ein illustratives Beispiel.

Nehmen wir an, wir haben das Few-shot-learning-Modell bereits auf mehrere verschiedene 3 Klassen mit jeweils 10 Ausschnitten von MR-Bildern trainiert und wollen nun wissen, ob das Modell schnell zwischen ungesehenen Geweben von MR-Bildern unterscheiden kann. Wir bereiten einige wenige Ausschnitte von Fett‑, Fibrose- und Tumorgeweben in MR-Bildern der Leber vor. Es wurde noch keine dieser 3 Klassen im Trainingsprozess gesehen. Von diesen Ausschnitten stellen wir jeweils 10 Bilder von jeder Klasse als Unterstützungs-Set zur Verfügung. Mit nur 30 Bildern aus diesen Klassen als „Richtlinie“ evaluieren wir nun die Genauigkeit der Methode mit beliebigen neuen MR-Bildausschnitten von Fett, Fibrose- und Tumorgeweben der Leber.

Eine leicht verständliche und erfolgreiche Methode für „few-shot learning“ stellen „prototypical networks“ dar [33]. Daten werden mithilfe eines „encoder networks“ zu einem repräsentativen Vektor in einem niedrigdimensionalen Raum zusammengefasst. Ein Prototyp einer Klasse ist der Durchschnitt aller encodierten Vektoren aus dieser Klasse. Ungesehene Daten werden der Klasse zugeordnet, zu welcher der Prototyp mit der minimalen Distanz gehört. Ein weiteres Few-shot-learning-Modell „Matching Networks“ (entwickelt von [34]) berechnet die Ähnlichkeit der encodierten Vektoren aus dem Query Set zu den encodierten Vektoren aus dem Support Set und weist ungesehenen Daten die Klasse des am ähnlichsten encodierten Vektors aus dem Support Set zu. Die diesem Konzept zugrundeliegende Idee ist, dass das Aussehen der Objekte in einem Repräsentationsraum weitestgehend kontinuierlich verteilt und die Struktur des Raums durch die initialen Klassen soweit etabliert wird, das neue Klassen eingepasst werden können. Ein anderer Ansatz für das gleiche Problem ist das erlernte Augmentieren von Daten, das heißt, die Generierung von zusätzlichen Trainingsdaten aus wenigen Beobachtungen [5].

„Weakly supervised learning“ – Lernen mit vorhandenen Routinedaten

„Weakly-supervised learning“ bezeichnet eine spezielle Form des überwachten Lernens bei dem die Richtigkeit der Input-output-Paare nicht für die gesamten Trainingsdaten vorausgesetzt wird. Durch „weakly-supervised learning“ können auch Daten verwendet werden, die nicht für überwachtes Lernen geeignet sind. Folglich kann dadurch die Anzahl an Trainingsdaten oft deutlich erhöht werden, ohne zusätzliche Annotation notwendig zu machen. Ein Beispiel sind Bilder, in denen Läsionen nicht markiert sind, sondern zu denen jeweils nur bekannt ist, ob eine Läsion irgendwo im Bild vorhanden ist oder nicht. Ein anderes Beispiel ist die Quantifizierung der Ausdehnung einer Pathologie in der Lunge. Während in der klinischen Routine zwar eine große Anzahl an Paaren von CT-Scan und Befundung entstehen, wird die exakte Position und Ausdehnung des befundeten Musters nicht aufgezeichnet. „Weakly-supervised learning“ ermöglicht hier, im Unterschied zu überwachtem Lernen, die Befunde lokalisierten Bildregionen zuzuordnen [12, 35].

Fazit für die Praxis

  • Methoden des maschinellen Lernens ermöglichen einerseits die automatische Detektion und Segmentierung diagnoserelevanter Muster in Bilddaten und andererseits die Identifikation von Prädiktoren, die für die Prognose von Behandlungseffekten nutzbar sind.

  • Eine besondere Rolle nimmt die Untersuchung longitudinaler Daten ein, die es ermöglicht, Merkmale über Zeitverläufe hinweg zu verfolgen und ihre Veränderung zur Vorhersage zu nutzen.

  • Die Herstellung von Korrespondenz ist dabei von großer Bedeutung, um Veränderung am gleichen Ort verfolgen zu können.

  • Während einige Architekturen, wie Convolutional Neural Networks (CNNs), in der medizinischen Bildverarbeitung schon zum Standard geworden sind, gibt es neue Ansätze, die ebenfalls vielversprechende Lösungen bieten, wie Transfer Learning, „few-shot learning“ oder „weakly supervised learning“.

  • Diese Methoden sind zwar noch primär in der Literatur des maschinellen Lernens zu finden, halten aber großes Potenzial für die Interpretation medizinischer Bilddaten.