Zum Hauptinhalt springen
Die ORAKEL-Studie Magdeburg

Rezidivfrüherkennung bei Depression durch KI-gestützte Audio-/Videoanalyse

Rezidivfrüherkennung bei Depression durch KI-gestützte Audio-/Videoanalyse

Foto: freepik.com/vectaclause385

J. Steiner1,2,3, M. Neveling1,2, N. Sayed Taha1,2, S. Seidenbecher1,2, G. Meyer-Lotz1,2, M.-A. Fiedler4, B. Zhou4, A. Al-Hamadi4

1 Klinik für Psychiatrie und Psychotherapie, Otto-von-Guericke-Universität Magdeburg, Magdeburg
2 Labor für Translationale Psychiatrie, Otto-von-Guericke-Universität Magdeburg, Magdeburg
3 Deutsches Zentrum für Psychische Gesundheit (DZPG), Standort Halle-Jena-Magdeburg, Magdeburg
4 Fachgebiet Neuro-Informationstechnik (NIT), Fakultät für Elektrotechnik und Informationstechnik, 
Otto-von-Guericke-Universität Magdeburg, Magdeburg

PD Dr. med. Artur Rebelo
(Foto: privat)

Vorspann

Etwa 50 % der Patienten mit Depression erleben trotz Behandlung einen Rückfall. Die ORAKEL-Studie in Magdeburg testet, ob multimodale Audio-/Videoanalysen die Früherkennung dieser Rückfälle verbessern. Über einen Zeitraum von 48 Wochen werden sechs ärztlich-psychologische Verlaufsuntersuchungen durchgeführt, bei denen parallel Sprach-, Mimik- und Vitalparameter erfasst werden. Künstliche Intelli- genz (KI) Modelle sollen entwickelt werden, die Veränderungen erkennen, die sich leicht dem ärztlichen Blick entziehen – zur intelligenten Unterstützung, nicht zum Ersatz der klinischen Beurteilung.
Prof. Johann Steiner

Prof. Johann Steiner

Foto: privat

Einleitung

Depressive Störungen gehören zu den häufigsten psychischen Erkrankungen weltweit. Etwa fünf bis sechs Prozent der Erwachsenen sind betroffen – rund 300 Millionen Menschen [1, 2]. In Deutschland stellen Depressionen die häufigste psychische Erkrankung dar [3]. Besonders alarmierend ist die Suizidgefahr bei unbehandelter Depression. Sachsen-Anhalt weist eine der höchsten Suizidraten bundesweit auf [4]. Eine effektive Behandlung und Prävention von Rückfällen („Rezidiven“) ist daher von großer klinischer Bedeutung.

Ein zentrales Merkmal der Depression ist ihre Rezidivneigung. Nach Beendigung der Akuttherapie erleiden ca. 30 % der Betroffenen innerhalb eines Jahres und 50 % innerhalb von zwei Jahren einen Rückfall [5]. Risikofaktoren sind Restsymptome, ein höheres Erkrankungsalter, viele Vorepisoden sowie komorbide Angststörungen [6, 7] (Tabelle 1). Ein stabiles psychosoziales Umfeld und gute Be­wäl­ti­gungsstra­tegien wirken hingegen protektiv [8]. Die prädiktive Güte bisheriger Modelle bleibt jedoch begrenzt [7].

Für Sachsen-Anhalt ist diese Herausforderung besonders akut: Fachärztemangel und weite Anfahrtswege führen zu selteneren Arztterminen, wodurch der kritische Umschlagpunkt in eine Rezidiv-Episode übersehen werden kann. Je später eine Behandlung erfolgt, desto langwieriger ist der Weg zurück in die Remission [9, 10]. In diesem Kontext wurde in Magdeburg die ORAKEL-Studie initiiert, um zu prüfen, ob KI‑gestützte multimodale Audio‑/Videoanalysen die ärztliche Verlaufsbeurteilung unterstützen und Rückfälle früher erkennbar machen können.

Traditionell basiert die Beurteilung des Krankheitsverlaufs auf klinischen Gesprächen und Selbstauskünften. Allerdings bleiben Verschlechterungen oft unentdeckt, bis deutliche Symptome auftreten. Subtile nonverbale Frühwarnzeichen (komplexe Spracheigenschaften oberhalb der Lautebene) – z. B. Veränderungen in Mimik oder Prosodie – geraten im kurzen Arztkontakt leicht aus dem Blick. Zudem können Patienten aus Scham oder aufgrund eines fehlenden Krankheitsgefühls Symptome verschleiern [11]. Angesichts dieser Herausforderungen eröffnen KI-gestützte Verfahren neue Möglichkeiten zur kontinuierlichen und objektiven Detektion von individuellen Frühwarnzeichen. Ziel dieses Beitrags ist es, den Forschungsstand zur Rezidivfrüherkennung bei Depression – einschließlich digitaler Marker und KI‑Ansätze – einzuordnen, das Design der ORAKEL‑Studie vorzustellen und Chancen sowie Grenzen digitaler Frühwarnsysteme für die Routineversorgung zu diskutieren – mit besonderem Blick auf strukturschwache Regionen Sachsen‑Anhalts.

Methodik

Dieser Beitrag ist eine Studien-/Projektvorstellung, die zudem einen Überblick über aktuelle Originalarbeiten und Reviews aus der internationalen Literatur zum Thema gibt (Stand: 08.11.2025), zu Depression, Rückfallrisikofaktoren und KI-gestützten Früherkennungsansätzen. Darüber hinaus wurden auch die Studienprotokolle der ORAKEL-Studie berücksichtigt, um Design, Datenerhebung und geplante Auswertung praxisnah darzustellen.

Stand der Forschung: Früherkennung drohender Rückfälle bei Depressionen

Konventionelle Verlaufsdiagnostik und ihre Grenzen

In der klinischen Praxis stützt sich die Verlaufsbeurteilung auf regelmäßige Gespräche und psychome­trische Tests (Tabelle 2). Leitlinien empfehlen nach Remission engmaschige Kontrollen im 4-Wochen-Rhythmus [3]. Ergänzend kommen psychome­trische Depressionsskalen wie HAMD oder BDI-II sowie strukturierte Interviews (z. B. das Mini-International Neuropsychiatric Interview [M.I.N.I.] oder das Structured Clinical Interview for DSM [SCID] zum Einsatz. Im Mittelpunkt steht jedoch das ärztliche Gespräch. Der behandelnde Psychiater oder Hausarzt beurteilt anhand von Symptombeschreibung, Stimmungseindruck und ggf. Fremdanamnese, ob Anzeichen für eine Verschlechterung vorliegen. Diese Methoden haben jedoch wichtige Limitierungen:

a) Ein großes Problem ist die Subjektivität: Die Einschätzung des Schweregrades und drohender Verschlechterungen hängen stark vom Eindruck des Untersuchers und dem Ausmaß der spontanen Selbstberichterstattung der Patienten ab. Symptome werden verschwiegen, bagatellisiert oder maskiert [11].
b) Ambulant liegen oft Wochen bis Monate zwischen den Terminen, sodass Frühwarnzeichen unbemerkt bleiben.
c) Ressourcenmangel: In unterversorgten Regionen (wie in Teilen Sachsen-Anhalts) ist eine engmaschige psychiatrische Betreuung kaum umsetzbar.

Insgesamt besteht die Gefahr, dass Frühstadien eines Rezidivs übersehen werden, was zu verspäteten Interventionen führt. Dies motiviert zu neuen Wegen der objektiven und kontinuierlichen Rückfallfrüherkennung.

Precision Psychiatry und digitale Frühwarnzeichen

Die zunehmende Digitalisierung in der Medizin eröffnet neue Perspektiven. Unter dem Stichwort „Precision Psychiatry“ wird daran gearbeitet, für einzelne Patienten personalisierte Risikoabschätzungen und Therapieentscheidungen zu ermöglichen – analog zur personalisierten Medizin in somatischen Fächern [12, 13]. Hoffnungsvoll ist die Nutzung digitaler Daten und KI-Methoden, da sich Depressionen in Verhalten, Stimme und Mimik widerspiegeln.

Sprache und Stimme: Prosodische Merkmale wie Sprechtempo, Tonhöhe und Lautstärke unterscheiden Depressionsphasen von gesunden Zuständen [14]. Depressive Menschen sprechen tendenziell langsamer, monotoner und leiser mit längeren Pausen [15].

Mimik und Gestik: Während einer Episode zeigen Betroffene einen reduzierten Gesichtsausdruck (sie lächeln weniger und haben herabgezogene Mundwinkel), verminderten Augenkontakt und eine gebeugte Körperhaltung [16]. Solche Merkmale lassen sich mithilfe von Videoanalyse-Algorithmen quantifizieren [17].

Multimodale Ansätze: Diese nutzen die Tatsache, dass die Depression auf verschiedenen Ebenen Spuren hinterlässt – von Sprachinhalten und Stimme über Gesichtsausdruck bis zur Motorik. Studien belegen, dass multimodale KI-Modelle (z. B. Sprache und Bild) unimodalen Ansätzen überlegen sind. Jin und Kollegen [18] erreichten durch die Fusion von Video- und Audiodaten eine deutlich höhere Klassifikationsgenauigkeit als mit rein textbasierten oder rein audiobasierten Modellen.

Digital Phenotyping: Smartphone-Sensoren und Wearables erfassen kontinuierlich Aktivität, Schlaf und Herzfrequenz. Eine reduzierte Herzfrequenzvariabilität (HRV) oder eine flache Atmung können beispielsweise Warnsignale für eine Depression sein [19]. Eine Meta-Analyse von 54 Studien (n = 249 203) zeigte eine Fläche unter der Receiver Operating Characteristic-Kurve (AUC-ROC) von 0,89 für die Depressionsdetektion mittels Wearable KI [20]. Allerdings stehen diese Ansätze noch am Anfang.

Forschungslücke

Trotz vielfältiger Ansätze fehlt der direkte Vergleich zwischen klinischer Einschätzung und KI-Methoden im prädiktiven Bereich. Ein systematisches Review identifizierte nur wenige prognostische Modelle mit moderater Güte (AUC ROC ~ 0,7 – 0,8) [7]. Es mangelt insbesondere an longitudinalen Studien, die prospektiv prüfen, inwieweit KI einen drohenden Rückfall früher erkennt als der behandelnde Arzt oder gängige Fragebögen. Ein weiterer zentraler Engpass ist die Verfügbarkeit qualitativ hochwertiger Datensätze in ausreichendem Umfang, die für das zuverlässige Trainieren und Validieren von KI-Modellen unerlässlich sind und bislang einen systematischen Vergleich zwischen klinischer und KI-gestützter Einschätzung erschweren.

Genau hier setzt ORAKEL an. Verschiedene Verfahren – ärztliches Gespräch, standardisierte Ratings und multimodale KI-Analyse – werden parallel eingesetzt und verglichen. Zugleich wird im Rahmen
der ORAKEL-Studie ein umfangreicher, qualitativ hochwertiger longitudinaler Video/Audiodatensatz (VADS) aufgebaut, der eine der wesentlichen Innovationen des Projekts darstellt und die Grundlage für den direkten Vergleich zwischen klinischer Beurteilung und KI-gestützter Rezidivprognose bildet.

Die ORAKEL-Studie: Design und multimodaler KI-Ansatz

Studienziel und Design

ORAKEL ist eine naturalistische prospektive Beobachtungsstudie, die etwa 120 Patienten mit rezidivierender unipolarer Depression über einen Zeitraum von einem Jahr begleitet (Abbildung 1, S.15). Eingeschlossen werden Erwachsene im Alter von 18 bis 65 Jahren mit aktuell mittelgradiger Episode. Nach der klinischen Stabilisierung erfolgt eine Nachverfolgung über 48 Wochen mit sechs Untersuchungszeitpunkten (initial 6-Wochen-Abstände, später 12-Wochen-Abstände). Dieses longitudinale Design erlaubt es, Veränderungen im Zeitverlauf innerhalb derselben Person (intraindividuell) festzustellen.

Fallzahlplanung

Die Zielstichprobe von n = 120 wurde pragmatisch gewählt unter Berücksichtigung der verfügbaren Ressourcen und der Machbarkeit innerhalb des Projektzeitraums. Eine klassische a‑priori Power‑Analyse ist für die geplante datengetriebene Modell‑Entwicklung mit AUC‑ROC als primärem Gütemaß nur eingeschränkt anwendbar, da solche Verfahren primär für Hypothesentests mit vorab spezifizierten Effektgrößen konzipiert sind. Bei einer konservativ angenommenen Rückfallrate von ca. 30 % innerhalb eines Jahres erwarten wir im 48‑Wochen‑Follow‑up etwa 30 – 40 Rezidivereignisse, was eine erste interne Validierung der multimodalen Modelle ermöglicht. Eine externe Validierung an unabhängigen Kohorten wird erforderlich sein, um die Generalisierbarkeit der Befunde zu bestätigen.

Abbildung 1: Studiendesign und Ablauf der ORAKEL-Studie.
Abkürzungen: HR = Herzrate; HRV = Herzratenvariabilität; AUC‑ROC = Area Under the Receiver Operating Characteristic Curve. (Created with BioRender.com; https://BioRender.com/49z4hx1).

Studienübersicht und Datenerhebung

Das zentrale Merkmal ist, dass bei jedem Termin drei Methoden parallel angewendet werden: (a) ärztliche Beurteilung im freien Gespräch, (b) psychologische Ratings (SIGH-ADS, BDI-II, strukturierte Interviews), und (c) audiovisuelle Aufzeichnung für die spätere KI-gestützte Analyse. Der Schwerpunkt der Datenerfassung liegt initial auf der systematischen Aufnahme hochwertiger Audio- und Videoaufzeichnungen, um eine ausreichende Datengrundlage für das Training der KI-Modelle zu schaffen. Gegen Ende des Projekts werden die aus der multimodalen KI-Analyse extrahierten Merkmale mit der ärztlich-psychologischen Beurteilung und den standardisierten Ratings verglichen, um zu prüfen, welche Methode einen bevorstehenden Rückfall am besten prognostiziert und ob sich die Vorhersagegenauigkeit durch die Kombination der Methoden erhöht.

ORAKEL ist keine Interventionsstudie: Alle Patienten erhalten eine leitliniengerechte Standardbehandlung. Die aus KI-Analysen gewonnenen Daten dienen ausschließlich der wissenschaftlichen Auswertung und haben zunächst keinen Einfluss auf die Therapieentscheidungen. Sollte im Studienverlauf allerdings eine klinische Verschlechterung auffallen (z. B. im Rahmen der Untersuchungen), wird selbstverständlich therapeutisch reagiert – die Sicherheit der Teilnehmenden hat oberste Priorität.

Ablauf und Datenerhebung

Jeder Untersuchungstermin gliedert sich in mehrere Komponenten. Zunächst füllen die Probandinnen und Probanden diverse Selbstbeurteilungsfragebögen aus, um ihren aktuellen Zustand und relevante Faktoren zu erfassen. Dazu gehören standardisierte Instrumente, wie das Beck-Depressions-Inventar (BDI-II) zur Selbsteinschätzung der Depressionssymptomatik, die Dysfunctional Attitudes Scale (DAS-18) zur Erfassung dysfunktionaler Grundüberzeugungen, die Emotion Reactivity Scale (ERS) sowie Fragebögen zu aktuellen Lebensereignissen und sozialer Unterstützung. Diese dienen als ergänzende Maße und liefern potenzielle Prädiktoren (z. B. negative Denkmuster, belastende Ereignisse) für die Analyse.

Das Kernstück bilden die klinischen Gespräche, die audiovisuell aufgezeichnet werden.

1. Ärztliches Interview (ca. 25 min): Freies diagnostisches Interview zum aktuellen Befinden, Symptomverlauf und zu den Alltags- und Arbeitsfunktionen – vergleichbar einer regulären Verlaufsuntersuchung.
2. Psychologisches Interview (ca. 45 min): Strukturierte Elemente mit SIGH-ADS-Interview (Hamilton-Score zur Fremdbeurteilung mit Ergänzung zu atypischer Depression), kognitiven Tests (Wortflüssigkeit) und narrativem Diskurs. Diese Tests erfassen kognitive Veränderungen (z. B. Verlangsamung, Wortfindungsstörungen) und liefern reichhaltiges Sprach- und Verhaltensmaterial für die spätere KI-Analyse.

Beide Gespräche finden im „ORAKEL-Raum“ mit drei unauffälligen Kameras und Mikrofonen statt. Die Aufzeichnung erfolgt synchron und in hoher Qualität, ohne dass eine zeitliche Mehrbelastung entsteht. Das Gespräch würde ohnehin stattfinden, nun wird es lediglich aufgezeichnet.

Multimodale KI-Analyse

Aus den Audio- und Videoaufnahmen extrahiert das interdisziplinäre Forscherteam anschließend eine Vielzahl von Verhaltensmerkmalen.

Die Videoanalyse umfasst unter anderem:

> Mimik: Erkennung von Gesichtsausdrücken mittels Facial Action Coding System (FACS); Mikroexpressionen, Gesichtslandmarken und Änderungen in der Mimik (z. B. das Ausbleiben von emotionaler Reaktivität im Gesicht) werden quantifiziert [17].
> Blickverhalten: Tracking der Augenbewegungen und Gesichtsausrichtung, um Augenkontakt und Blickabwendung zu messen. Eine Reduktion des Blickkontakts kann auf eine Verschlechterung depressiver Symptomatik hinweisen.
> Körperhaltung und Gestik: Analyse der Kopf- und Körperpose (z. B. Neigung des Oberkörpers, Schulterhaltung) sowie Erfassung von Handbewegungen bzw. Gesten. Eine gebeugte, kraftlose Haltung und reduzierte Gestik können mögliche Frühzeichen einer Verschlechterung sein [16].
> Motorik: Beobachtung des Gangbilds zu Beginn und am Ende der Gespräche sowie der allgemeinen Unruhe oder psychomotorischen Verlangsamung.
> Vitalparameter (kontaktlos): Über verlustlos kom-primiertes hochauflösendes Videomaterial lassen sich physiologische Parameter wie Herzfrequenz und Atemrate mittels kleiner Farbveränderungen der Gesichtshaut (Remote Photoplethysmography) schätzen [21]. Da eine abnehmende Herzratenvariabilität oder flache Atmung mit depressiver Verstimmung einhergehen können, werden diese ebenfalls erfasst [19].

Parallel dazu werden die Audiodaten in Bezug auf die folgenden Aspekte ausgewertet:

> Prosodische Merkmale: Die Analyse umfasst Sprechgeschwindigkeit (Wörter pro Minute), Sprachmelodie (Tonhöhenverlauf), Lautstärke, Pausenhäufigkeit und Stimmeigenschaften (z. B. Heiserkeit, Monotonie). Monotone, leise Sprache und häufigeres Zögern sind charakteristisch für eine sich vertiefende Depression [14]. KI-Algorithmen können diese Merkmale objektiv quantifizieren.
> Linguistische Merkmale: Hierbei geht es nicht um die inhaltlichen Themen des Gesprochenen (die Inhalte des Patientengesprächs bleiben privat), sondern um strukturelle sprachliche Aspekte. Beispielsweise wird analysiert, welche Wortarten und Satzkonstruktionen verwendet werden. Frühere Studien haben ergeben, dass depressive Menschen vermehrt negativ konnotierte Wörter und Ich-Bezogenheit („ich“, „mir“) nutzen und seltener komplexe Satzgefüge bilden [22]. Solche Marker können zusammen mit der Emotionalität der Sprache ebenfalls Hinweise auf den Gemütszustand liefern.

Durch die Fusion der Modalitäten entsteht ein umfassendes Bild möglicher Rückfall-Warnsignale (Abbildung 2). Beispielsweise kann es zu einem Rückgang lebhafter Mimik und Gestik, zu vermehrter Blickvermeidung, zu einem monotoneren Sprechen mit negativer Wortwahl sowie zu einem Anstieg vegetativer Anspannung kommen. Diese Annahmen leiten sich aus klinischer Erfahrung und bisherigen Studien ab und sollen empirisch überprüft werden.

Abbildung 2: Multimodaler KI-Ansatz in ORAKEL: Verarbeitungsschritte von Rohdaten zur Vorhersage.

Abkürzungen: FACS = Facial Action Coding System; F0 = Grundfrequenz (Tonhöhe); HR = Herzrate; HRV = Herzratenvariabilität; CNN = Convolutional Neural Network; LSTM = Long Short‑Term Memory; XAI = Explainable Artificial Intelligence (erklärbare KI). (Created with BioRender.com; https://BioRender.com/n4j7jcb).

Technologische Umsetzung

Die aufgezeichneten Daten werden mit modernen Deep-Learning-Methoden verarbeitet. Tiefe neuronale Netze (z. B. CNN für Bilddaten, RNN [insbesondere LSTM] für Sprachsignale, Transformer-Modelle und Mamba für die Modellierung langer Sequenzen)sind in der Lage, komplexe Muster zu erkennen. Ein besonderes Augenmerk liegt auf der multimodalen Datenfusion. Die verschiedenen Daten (Video, Audio, psychometrische Ratings etc.) werden in einem gemeinsamen Modell zusammengeführt, um korrelierte Veränderungen zu erfassen. Die Entwicklung, Implementierung und Auswertung der KI‑Modelle erfolgt innerhalb der universitären Kooperation (OVGU/UKMD); es werden keine kommerziellen Cloud‑
KI‑Dienste oder externen KI‑Anbieter zur Verarbeitung der Rohdaten eingesetzt. ORAKEL experimentiert hier mit Multi-Task-Learning-Ansätzen, bei denen ein Grundmodell über verschiedene Aus-
gabeschichten für die jeweiligen Modalitäten verfügt, sowie mit Late Fusion, bei der zunächst separate Netze Merkmale extrahieren und anschließend ein kombinierter Klassifikator die Entscheidung trifft. Ein Beispiel aus der Literatur ist das Modell von Jin [18], das Gesichts- und Stimmdaten fusionierte und eine hohe Klassifikationsgenauigkeit (F1-Score 0,92) erreichte. Zudem wird die Fusion vergleichbarer verhaltensbasierter Merkmale bereits erfolgreich in anderen Domänen eingesetzt, etwa in der auto­ma­tisierten Schmerz- [23] oder Lügen-Erkennung [24].

Während KI-Experten die Modellierung übernehmen, definieren Psychiater und Psychologen klinisch sinnvolle Merkmale und validieren die Ergebnisse. Ein besonderer Fokus liegt darüber hinaus auf der Erklärbarkeit1 der Ausgaben des Modells. Verfahren wie SHAP oder LIME machen KI-Entscheidungen transparent, z. B. durch zusätzliche Erläuterungen, wie ‚Patient wirkt 30 % verlangsamt und zeigt fast kein Lächeln‘, um Vertrauen und klinische Akzeptanz zu fördern [25].

Auswertung

Am Studienende werden vier Vorgehensweisen verglichen: a) ärztlich‑psychologisches Gespräch,
b) Gespräch + standardisierte Ratings, c) Gespräch + KI‑Analyse und d) Kombination aller Verfahren (Tabelle 3). Die prognostische Güte wird mittels Sensitivität, Spezifität und AUC-ROC-Werten beurteilt.

Zentrale Fragen sind: Erkennt die KI drohende Episoden früher als die routinemäßige Verlaufskontrolle? Liefert die Kombination aller Verfahren die beste Vorhersage? Wie viele Fehlalarme produziert die KI? Ein praktisches System muss ausreichend spezifisch sein, um nicht permanent Fehlalarme auszulösen. Die Studie prüft somit nicht nur wissenschaftliche Erkenntnisse, sondern auch die Machbarkeit dieses Monitorings in der klinischen Praxis.

Informationen zum Projektstatus (Januar 2026)

Zum Zeitpunkt der Manuskripteinreichung befindet sich die ORAKEL-Studie in der Rekrutierungs- und Datenerhebungsphase. 10 Patienten konnten bereits rekrutiert werden, 21 Verlaufsuntersuchungen wurden durchgeführt und über 24 Stunden Video- und Audiodaten generiert. Prospektive Ergebnisdaten zur Vorhersagegüte der vier Vorgehensweisen liegen daher noch nicht vor. Erste deskriptive Baseline-Charakteristika und Machbarkeitskennzahlen (z. B. Re­krutierungsraten, Compliance bei Datenerfassung, technische Funktionalität) werden nach Abschluss der Rekrutierungsphase separat berichtet.

Ethik und Datenschutz

Die ORAKEL-Studie wurde von der Ethik-Kommission der Otto-von-Guericke-Universität Magdeburg genehmigt (Nr. 169/24). Alle Teilnehmerinnen und Teilnehmer willigen schriftlich ein und können jederzeit ohne Nachteile von der Studie zurücktreten. Die Studienteilnahme ist risikoarm, da nur standardisierte Routinegespräche und Tests durchgeführt werden. Bei emotionaler Belastung steht psychologische Unterstützung zur Verfügung.

Die Video- und Audiodaten werden unter einem Studiencode pseudonymisiert gespeichert und sind räumlich von personenbezogenen Daten getrennt und zugriffsgeschützt. Der Zugriff auf die Video- und Audiodaten ist ausschließlich für autorisierte Projektbeteiligte möglich. Von entscheidender Bedeutung ist, dass ausschließlich paralinguistische Merkmale wie Stimmlage, Sprechgeschwindigkeit und visuelle Verhaltensmarker analysiert werden, während die Gesprächsinhalte unberücksichtigt bleiben. Dies verhindert ein „Mithören“ und erhöht die Akzeptanz der Patienten. Das Team unterliegt der ärztlichen Schweigepflicht und der Datenschutz-Grundverordnung (DSGVO).

1 Erklärbare KI (Explainable Artificial Intelligence, XAI) ist ein Bereich der künstlichen Intelligenz, der darauf abzielt, die Ergebnisse und Entscheidungsprozesse von KI-Systemen für menschliche Anwender verständlich zu machen. Anstatt als „Blackbox“ zu agieren, liefern XAI-Methoden Einblicke, warum eine bestimmte Vorhersage oder Entscheidung getroffen wurde. Dadurch werden Vertrauen, Transparenz und Akzeptanz gefördert.

Tabelle 3: Vergleich der vier Vorhersagemethoden in ORAKEL.
Primärer Endpunkt: Sensitivität, Spezifität, Area Under the Receiver Operating Characteristic Curve (AUC‑ROC) zur Rückfallvorhersage im Methodenvergleich.

Chancen und Herausforderungen der KI-Früherkennung

Potenzielle Chancen

Ein wesentlicher Vorteil ist die Objektivierung der Verlaufsbeurteilung. KI-Systeme erfassen subtile Veränderungen, wie etwa einen schleichenden
Affektverlust oder eine veränderte Stimmmelodie, quantitativ und kontinuierlich. Dies ermöglicht frühere Interventionen. Detektierte Verschlechterungen können durch zusätzliche Termine oder Dosisanpassungen ausgeglichen werden, bevor sich eine neue depressive Episode vollständig manifestiert.

Ein weiterer Vorteil ist das kontinuierliche Monitoring zwischen Klinikentlassungen und ambulanten Terminen, was besonders in unterversorgten Regionen wie der Altmark in Sachsen-Anhalt wertvoll ist. Telemedizinische Applikationen könnten Versorgungslücken verkleinern, ohne dass Fachpersonal lokal gebunden wird.

Klinisch kann die KI-gestützte Routineüberwachung das Personal entlasten und es ermöglicht, gezielt jene Patienten zu identifizieren, die verstärkte Zuwendung benötigen. Es handelt sich dabei um ein Assistenzsystem und nicht um einen Ersatz für die ärztliche Beurteilung. ORAKEL bietet wissenschaftlich Chancen zur Identifikation neuer digitaler Marker und zur praktischen Validierung von Precision Psychiatry.

Risiken und Herausforderungen

Die Hauptrisiken betreffen den Datenschutz und die Privatsphäre, da Video- und Audiodaten äußerst sensibel sind und höchste Sicherheitsstandards erfordern (siehe Kapitel Datenschutz). Vertrauen kann nur durch volle Transparenz über die Datennutzung entstehen.

Eine weitere Herausforderung ist die Akzeptanz bei Patienten und Therapeuten, da manche möglicherweise skeptisch gegenüber Video-Monitoring sind oder befürchten, dass KI ihre Kompetenz infrage stellt. Hier ist entscheidend zu betonen: KI ersetzt nicht den therapeutischen Kontakt, sondern erweitert ihn. Erste Rückmeldungen in ORAKEL sind jedoch positiv – viele Patienten schätzen die intensive Aufmerksamkeit.

Methodisch bleibt ein Balanceakt zwischen Sensitivität (keinen echten Rückfall verpassen) und Spezifität (Fehlalarme vermeiden) eine zentrale Herausforderung bei der Entwicklung von Algorithmen.

Ausblick

Sollte sich ORAKEL bewähren, ergeben sich vielfältige Ausbaupotenziale. So könnte Home-Monitoring unterversorgte Regionen erreichen und eine Integration in spezialisierte Rezidiv-Präventionssprechstunden ist denkbar. Durch automatisierte Warnmeldungen an ambulante Therapeuten könnte zudem eine nahtlose Betreuung nach der Entlassung gewährleistet werden.

Wissenschaftlich betrachtet, bietet der ORAKEL-Datensatz Chancen zur Identifikation neuer Verhaltensmarker und zur Verbesserung der Modelle. Ein zentrales Ziel sollte darin bestehen, dass Systeme nicht nur einen Rückfall-Wahrscheinlichkeits-Score liefern, sondern auch begründen können, warum sie einen Rückfall vermuten (z. B. „deutlich reduziertes Lächeln und 30 % verlangsamte Sprache gegenüber Baseline“).

Insgesamt zeichnet sich ab, dass Precision Psychiatry – also maßgeschneiderte Vorhersage- und Behandlungsansätze – in den kommenden Jahren an Bedeutung gewinnen wird [12]. Multimodale KI-Systeme wie ORAKEL sind ein wichtiger Baustein dafür.

Fazit

Die Prävention depressiver Rückfälle ist sowohl klinisch als auch volkswirtschaftlich von zentraler Bedeutung. Trotz einer effektiven Akuttherapie bleibt die Hälfte aller Patienten gefährdet. Das hat Konsequenzen für ihre Gesundheit, Lebensqualität und ihr Suizidrisiko. Eine frühzeitige Erkennung bedrohlicher Verschlechterungen kann Leben retten.

Bisherige Ansätze stützen sich auf klinische Gespräche und Selbstauskünfte, die bekannte Grenzen haben. Die KI-gestützte multimodale Diagnostik bietet einen vielversprechenden Ansatz, um diese Lücken zu schließen. Die ORAKEL-Studie in Magdeburg untersucht die Machbarkeit sowie den praktischen Nutzen dieses Ansatzes und stellt damit eine regionale Vorzeigeinitiative für Precision Psychiatry dar.

Kritisch bleibt jedoch: KI sollte die ärztliche Arbeit unterstützen, aber nicht ersetzen. Ärztliche Erfahrung, Empathie und ganzheitliches Denken bleiben unersetzlich. Wenn die ethischen und praktischen Herausforderungen bewältigt werden, kann die Integration von KI in die Depressionsnachsorge zum Zukunftsmodell werden. Davon könnten Patienten profitieren, indem Rückfälle reduziert und eine stabilere, lebenswertere Zukunft trotz Depression ermöglicht wird.

Erklärung zu Interessenkonflikten
Die Autorinnen und Autoren erklären, dass zum vorliegenden Beitrag keine Interessenkonflikte bestehen. Es werden keine kommerziellen Cloud‑KI‑Dienste oder externen KI‑Anbieter zur Verarbeitung der Rohdaten eingesetzt.

Förderhinweis
Die Studie ORAKEL („Bessere Rückfall‑Vorhersage bei depressiven Störungen durch Detektion von Frühwarnzeichen mittels KI“) wird im Programm Sachsen‑Anhalt WISSENSCHAFT – Forschung und Innovation (EFRE) der Förderperiode 2021–2027 gefördert. Bewilligungs‑ und Abwicklungsstelle ist die Investitionsbank Sachsen‑Anhalt, die Förderung erfolgt kofinanziert aus Mitteln der Europäischen Union (FKZ  ZS/2023/12/182332, Förderzeitraum 01.06.2024–31.12.2027).

Korrespondenzanschrift 

Prof. Dr. med. Johann Steiner
Klinik für Psychiatrie und Psychotherapie
Otto-von-Guericke-Universität Magdeburg
Leipziger Straße 44, 39120 Magdeburg
Tel.: 0391/67 15019, Fax: 0391/67 15223
E-Mail: Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein.

Abkürzungsverzeichnis
  • AUC

    Area Under the Curve (Flächeninhalt unter der Kurve)

  • AUC ROC

    Area Under the Receiver Operating Characteristic Curve (Fläche unter der ROC Kurve)

  • BDI II

    Beck Depression Inventory II (Beck Depressions Inventar, Revision II)

  • CNN

    Convolutional Neural Network
    (Neuronales Faltungsnetzwerk)

  • DAS 18

    Dysfunctional Attitudes Scale, 18 Item Kurzform

  • DSGVO

    Datenschutz Grundverordnung

  • DSM

    Diagnostic and Statistical Manual of Mental Disorders

  • ERS

    Emotion Reactivity Scale

  • F1 Score

    harmonisches Mittel aus Präzision und Sensitivität (Leistungsmaß für Klassifikationsmodelle)

  • FACS

    Facial Action Coding System (Kodierung von Gesichtsaktionseinheiten)

  • HAMD

    Hamilton Depression Rating Scale (Hamilton Depressionsskala)

  • HRV

    Heart Rate Variability (Herzfrequenzvariabilität)

  • KI

    Künstliche Intelligenz (Artificial Intelligence)

  • LIME

    Local Interpretable Model agnostic Explanations
    (lokal interpretierbare, modellagnostische Erklärungen)

  • LSTM

    Long Short Term Memory (Rekurrentes neuronales Netz mit Lang-/Kurzzeitgedächtnis)

  • M.I.N.I.

    Mini International Neuropsychiatric Interview

  • OVGU

    Otto-von-Guericke-Universität Magdeburg

  • RNN

    Recurrent Neural Network (Rekurrentes neuronales Netzwerk)

  • SCID

    Structured Clinical Interview for DSM (Strukturiertes Klinisches Interview nach DSM Kriterien)

  • SHAP

    SHapley Additive exPlanations (auf Shapley Werten basierende Modellerklärungen)

  • SIGH-ADS

    Strukturiertes Interview zur Hamilton Depression Rating Scale mit Ergänzung zu atypischer Depression

  • UKMD

    Universitätsklinikum Magdeburg

  • VADS

    Video/Audiodatensatz

  • WHO

    World Health Organization (Weltgesundheitsorganisation)

Literatur 

  1. Liu, J., Liu, Y., Ma, W., Tong, Y., Zheng, J., 2024. Temporal and spatial trend analysis of all-cause depression burden based on Global Burden of Disease (GBD) 2019 study. Sci Rep 14, 12346.
  2. WHO, 2025. Depression: Key Facts. Depressive disorder (depression) (Abgerufen am: 20.01.2026).
  3. Bundesärztekammer, Kassenärztliche, B., Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen, F., 2023. Nationale VersorgungsLeitlinie Unipolare Depression – Langfassung. ÄZQ – Ärztliches Zentrum für Qualität in der Medizin, Berlin. AWMF Leitlinienregister (Abgerufen am 20.01.2026)
  4. Nationales Suizidpräventionsprogramm, D., 2025. Suizide in Deutschland 2023. Nationales Suizidpräventionsprogramm Deutschland, Berlin. www.naspro.de/dl/Suizidzahlen2023.pdf (Abgerufen am 20.01.2026)
  5. Vittengl, J.R., Clark, L.A., Dunn, T.W., Jarrett, R.B., 2007. Reducing relapse and recurrence in unipolar depression: a comparative meta-analysis of cognitive-behavioral therapy's effects. J Consult Clin Psychol 75, 475-488.
  6. Buckman, J.E.J., Underwood, A., Clarke, K., Saunders, R., Hollon, S.D., Fearon, P., Pilling, S., 2018. Risk factors for relapse and recurrence of depression in adults and how they operate: A four-phase systematic review and meta-synthesis. Clin Psychol Rev 64, 13-38.
  7. Moriarty, A.S., Meader, N., Snell, K.I.E., Riley, R.D., Paton, L.W., Dawson, S., Hendon, J., Chew-Graham, C.A., Gilbody, S., Churchill, R., Phillips, R.S., Ali, S., McMillan, D., 2022. Predicting relapse or recurrence of depression: systematic review of prognostic models. Br J Psychiatry 221, 448-458.
  8. Breedvelt, J.J.F., Warren, F.C., Segal, Z., Kuyken, W., Bockting, C.L., 2021. Continuation of Antidepressants vs Sequential Psychological Interventions to Prevent Relapse in Depression: An Individual Participant Data Meta-analysis. JAMA Psychiatry 78, 868-875.
  9. Ghio, L., Gotelli, S., Cervetti, A., Respino, M., Natta, W., Marcenaro, M., Serafini, G., Vaggi, M., Amore, M., Belvederi Murri, M., 2015. Duration of untreated depression influences clinical outcomes and disability. J Affect Disord 175, 224-228.
  10. Kraus, C., Kadriu, B., Lanzenberger, R., Zarate, C.A., Jr., Kasper, S., 2019. Prognosis and improved outcomes in major depression: a review. Transl Psychiatry 9, 127.
  11. Henkel, V., Mergl, R., Schütze, M., Allgaier, A.-K., Kohnen, R., Hegerl, U., 2003. Früherkennung depressiver Störungen in der Primärversorgung. psychoneuro 29, 35-39.
  12. Fernandes, B.S., Williams, L.M., Steiner, J., Leboyer, M., Carvalho, A.F., Berk, M., 2017. The new field of 'precision psychiatry'. BMC Med 15, 80.
  13. Le-Niculescu, H., Roseberry, K., Gill, S.S., Levey, D.F., Phalen, P.L., Mullen, J., Williams, A., Bhairo, S., Voegtline, T., Davis, H., Shekhar, A., Kurian, S.M., Niculescu, A.B., 2021. Precision medicine for mood disorders: objective assessment, risk prediction, pharmacogenomics, and repurposed drugs. Mol Psychiatry 26, 2776-2804.
  14. Almaghrabi, S.A., Clark, S.R., Baumert, M., 2023. Bio-acoustic features of depression: A review. Biomed. Signal Process. Control 85, 105020.
  15. Seifpanahi, M.S., Ghaemi, T., Ghaleiha, A., Sobhani-Rad, D., Zarabian, M.K., 2023. The Association between Depression Severity, Prosody, and Voice Acoustic Features in Women with Depression. ScientificWorldJournal 2023, 9928446.
  16. Cohn, J.F., Kruez, T.S., Matthews, I., Yang, Y., Nguyen, M.H., Padilla, M.T., Zhou, F., Torre, F.D.l., 2009. Detecting depression from facial actions and vocal prosody. 2009 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops, pp. 1-7.
  17. Guo, W., Yang, H., Liu, Z., Xu, Y., Hu, B., 2021. Deep Neural Networks for Depression Recognition Based on 2D and 3D Facial Expressions Under Emotional Stimulus Tasks. Front Neurosci 15, 609760.
  18. Jin, N., Ye, R., Li, P., 2025. Diagnosis of depression based on facial multimodal data. Front Psychiatry 16, 1508772.
  19. Ritsert, F., Elgendi, M., Galli, V., Menon, C., 2022. Heart and Breathing Rate Variations as Biomarkers for Anxiety Detection. Bioengineering (Basel) 9, 711.
  20. Abd-Alrazaq, A., AlSaad, R., Shuweihdi, F., Ahmed, A., Aziz, S., Sheikh, J., 2023. Systematic review and meta-analysis of performance of wearable artificial intelligence in detecting and predicting depression. npj Digital Medicine 6, 84.
  21. Fiedler, M.-A., Werner, P., Rapczyński, M., Al-Hamadi, A., 2023. Deep face segmentation for improved heart and respiratory rate estimation from videos. J. Ambient Intell. Humaniz. Comput. 14, 9383-9402.
  22. Edwards, T.M., Holtzman, N.S., 2017. A meta-analysis of correlations between depression and first person singular pronoun use. J. Res. Pers. 68, 63-68.
  23. Othman, E., Werner, P., Saxen, F., Fiedler, M.A., Al-Hamadi, A., 2022. An Automatic System for Continuous Pain Intensity Monitoring Based on Analyzing Data from Uni-, Bi-, and Multi-Modality. Sensors (Basel) 22, 5429.
  24. Dinges, L., Fiedler, M.-A., Al-Hamadi, A., Hempel, T., Abdelrahman, A., Weimann, J., Bershadskyy, D., Steiner, J., 2024. Exploring facial cues: automated deception detection using artificial intelligence. Neural Comput. Appl. 36, 14857-14883.
  25. Ahmed, I., Brahmacharimayum, A., Ali, R.H., Khan, T.A., Ahmad, M.O., 2025. Explainable AI for Depression Detection and Severity Classification From Activity Data: Development and Evaluation Study of an Interpretable Framework. JMIR Ment Health 12, e72038.