Studienübersicht und Datenerhebung
Das zentrale Merkmal ist, dass bei jedem Termin drei Methoden parallel angewendet werden: (a) ärztliche Beurteilung im freien Gespräch, (b) psychologische Ratings (SIGH-ADS, BDI-II, strukturierte Interviews), und (c) audiovisuelle Aufzeichnung für die spätere KI-gestützte Analyse. Der Schwerpunkt der Datenerfassung liegt initial auf der systematischen Aufnahme hochwertiger Audio- und Videoaufzeichnungen, um eine ausreichende Datengrundlage für das Training der KI-Modelle zu schaffen. Gegen Ende des Projekts werden die aus der multimodalen KI-Analyse extrahierten Merkmale mit der ärztlich-psychologischen Beurteilung und den standardisierten Ratings verglichen, um zu prüfen, welche Methode einen bevorstehenden Rückfall am besten prognostiziert und ob sich die Vorhersagegenauigkeit durch die Kombination der Methoden erhöht.
ORAKEL ist keine Interventionsstudie: Alle Patienten erhalten eine leitliniengerechte Standardbehandlung. Die aus KI-Analysen gewonnenen Daten dienen ausschließlich der wissenschaftlichen Auswertung und haben zunächst keinen Einfluss auf die Therapieentscheidungen. Sollte im Studienverlauf allerdings eine klinische Verschlechterung auffallen (z. B. im Rahmen der Untersuchungen), wird selbstverständlich therapeutisch reagiert – die Sicherheit der Teilnehmenden hat oberste Priorität.
Ablauf und Datenerhebung
Jeder Untersuchungstermin gliedert sich in mehrere Komponenten. Zunächst füllen die Probandinnen und Probanden diverse Selbstbeurteilungsfragebögen aus, um ihren aktuellen Zustand und relevante Faktoren zu erfassen. Dazu gehören standardisierte Instrumente, wie das Beck-Depressions-Inventar (BDI-II) zur Selbsteinschätzung der Depressionssymptomatik, die Dysfunctional Attitudes Scale (DAS-18) zur Erfassung dysfunktionaler Grundüberzeugungen, die Emotion Reactivity Scale (ERS) sowie Fragebögen zu aktuellen Lebensereignissen und sozialer Unterstützung. Diese dienen als ergänzende Maße und liefern potenzielle Prädiktoren (z. B. negative Denkmuster, belastende Ereignisse) für die Analyse.
Das Kernstück bilden die klinischen Gespräche, die audiovisuell aufgezeichnet werden.
1. Ärztliches Interview (ca. 25 min): Freies diagnostisches Interview zum aktuellen Befinden, Symptomverlauf und zu den Alltags- und Arbeitsfunktionen – vergleichbar einer regulären Verlaufsuntersuchung.
2. Psychologisches Interview (ca. 45 min): Strukturierte Elemente mit SIGH-ADS-Interview (Hamilton-Score zur Fremdbeurteilung mit Ergänzung zu atypischer Depression), kognitiven Tests (Wortflüssigkeit) und narrativem Diskurs. Diese Tests erfassen kognitive Veränderungen (z. B. Verlangsamung, Wortfindungsstörungen) und liefern reichhaltiges Sprach- und Verhaltensmaterial für die spätere KI-Analyse.
Beide Gespräche finden im „ORAKEL-Raum“ mit drei unauffälligen Kameras und Mikrofonen statt. Die Aufzeichnung erfolgt synchron und in hoher Qualität, ohne dass eine zeitliche Mehrbelastung entsteht. Das Gespräch würde ohnehin stattfinden, nun wird es lediglich aufgezeichnet.
Multimodale KI-Analyse
Aus den Audio- und Videoaufnahmen extrahiert das interdisziplinäre Forscherteam anschließend eine Vielzahl von Verhaltensmerkmalen.
Die Videoanalyse umfasst unter anderem:
> Mimik: Erkennung von Gesichtsausdrücken mittels Facial Action Coding System (FACS); Mikroexpressionen, Gesichtslandmarken und Änderungen in der Mimik (z. B. das Ausbleiben von emotionaler Reaktivität im Gesicht) werden quantifiziert [17].
> Blickverhalten: Tracking der Augenbewegungen und Gesichtsausrichtung, um Augenkontakt und Blickabwendung zu messen. Eine Reduktion des Blickkontakts kann auf eine Verschlechterung depressiver Symptomatik hinweisen.
> Körperhaltung und Gestik: Analyse der Kopf- und Körperpose (z. B. Neigung des Oberkörpers, Schulterhaltung) sowie Erfassung von Handbewegungen bzw. Gesten. Eine gebeugte, kraftlose Haltung und reduzierte Gestik können mögliche Frühzeichen einer Verschlechterung sein [16].
> Motorik: Beobachtung des Gangbilds zu Beginn und am Ende der Gespräche sowie der allgemeinen Unruhe oder psychomotorischen Verlangsamung.
> Vitalparameter (kontaktlos): Über verlustlos kom-primiertes hochauflösendes Videomaterial lassen sich physiologische Parameter wie Herzfrequenz und Atemrate mittels kleiner Farbveränderungen der Gesichtshaut (Remote Photoplethysmography) schätzen [21]. Da eine abnehmende Herzratenvariabilität oder flache Atmung mit depressiver Verstimmung einhergehen können, werden diese ebenfalls erfasst [19].
Parallel dazu werden die Audiodaten in Bezug auf die folgenden Aspekte ausgewertet:
> Prosodische Merkmale: Die Analyse umfasst Sprechgeschwindigkeit (Wörter pro Minute), Sprachmelodie (Tonhöhenverlauf), Lautstärke, Pausenhäufigkeit und Stimmeigenschaften (z. B. Heiserkeit, Monotonie). Monotone, leise Sprache und häufigeres Zögern sind charakteristisch für eine sich vertiefende Depression [14]. KI-Algorithmen können diese Merkmale objektiv quantifizieren.
> Linguistische Merkmale: Hierbei geht es nicht um die inhaltlichen Themen des Gesprochenen (die Inhalte des Patientengesprächs bleiben privat), sondern um strukturelle sprachliche Aspekte. Beispielsweise wird analysiert, welche Wortarten und Satzkonstruktionen verwendet werden. Frühere Studien haben ergeben, dass depressive Menschen vermehrt negativ konnotierte Wörter und Ich-Bezogenheit („ich“, „mir“) nutzen und seltener komplexe Satzgefüge bilden [22]. Solche Marker können zusammen mit der Emotionalität der Sprache ebenfalls Hinweise auf den Gemütszustand liefern.
Durch die Fusion der Modalitäten entsteht ein umfassendes Bild möglicher Rückfall-Warnsignale (Abbildung 2). Beispielsweise kann es zu einem Rückgang lebhafter Mimik und Gestik, zu vermehrter Blickvermeidung, zu einem monotoneren Sprechen mit negativer Wortwahl sowie zu einem Anstieg vegetativer Anspannung kommen. Diese Annahmen leiten sich aus klinischer Erfahrung und bisherigen Studien ab und sollen empirisch überprüft werden.