Kann die Brustkrebs-Diagnostik durch KI sicherer werden?

3

Beim Mammographie-Screening zur Früherkennung von Brustkrebs werden jährlich Millionen von Röntgenbildern betrachtet und befundet. Die allermeisten Bilder zeigen eine gesunde Brust. Die Aufgabe der Radiologen besteht darin, die wenigen Bilder mit pathologischen Befunden rasch und sicher aus der Vielzahl der unauffälligen Bilder herauszufiltern. Dabei dürfen sie weder Brustkrebs übersehen noch gesundes Brustgewebe fälschlich als Krebs einstufen. Eine große Beobachtungsstudie zeigt nun, dass eine Künstliche Intelligenz (KI) die Entdeckungsrate für Brustkrebs im deutschen Mammographie-Screening um fast 18 Prozent steigert, ohne die Zahl der unnötigen Abklärungen wegen falscher Befunde zu erhöhen. Mit der KI sank auch die Arbeitsbelastung der Radiologen, weil sie für die Begutachtung der von der KI als normal eingestuften Röntgenbilder 43 Prozent weniger Zeit benötigten.

Was bedeutet das konkret? Die Radiologen entdeckten eine zusätzliche Brustkrebserkrankung pro 1000 gescreente Frauen. Die Zahl der Frauen, die wegen eines auffälligen Befunds wieder einbestellt werden mussten, lag mit der KI bei 37,4 pro 1000 Frauen, ohne KI bei 38,3. Auch die Zahl der Biopsien änderte sich mit und ohne KI kaum. Eigentlich habe man nur zeigen wollen, dass die KI-Befundung und die Befundung durch die Radiologen gleichwertig seien, sagt Alexander Katalinic. Am Ende sei die Ent­deckungsrate mit der KI signifikant besser gewesen, ohne zusätzlichen Schaden anzurichten. Katalinic ist der Leiter der Studie und Direktor des Instituts für Sozialmedizin und Epidemiologie an der Universität Lübeck und dem Universitätsklinikum Schleswig-Holstein, Campus Lübeck.

Zwei Radiologen sind vorgeschrieben

Die Studie, an der auch das in Berlin ansässige Unternehmen Vara, das die KI entwickelt hat, beteiligt war, ist eine sogenannte „Real-World-Studie“ – ein Test unter Alltagsbedingungen. Das Design ist besonders: An der Studie nahmen zwölf über die Bundesrepublik verteilte Screening-Standorte teil. Es wurden 463.094 anspruchsberechtigte Frauen gescreent. 119 Radiologen werteten die Röntgenbilder aus. Sie bildeten in unterschiedlicher Zusammensetzung Paare, da in Deutschland immer zwei Radiologen unabhängig voneinander die Bilder beurteilen müssen. Die Studiendauer betrug 20 Monate. Es wurden keinerlei Subgruppen ausgeschlossen, etwa Frauen mit dichtem Brustgewebe. Auch die Erfahrung der Radiologen spielte keine Rolle. Diese entschieden bei jeder einzelnen Befundung selbst, ob sie die KI nutzen wollten oder nicht. Sobald sich allerdings einer der beiden Radiologen dafür entschieden hatte, galt der Befund als KI-gestützt, auch wenn der zweite Radiologe die Bilder auf traditionellem Wege befundet hatte. Am Ende war etwa die Hälfte der Mammographien mit KI ausgewertet worden, die andere Hälfte nicht.

Die KI diktierte den Radiologen keine Diagnosen. Sie versah die Bilder, die sie als unauffällig ansah, lediglich mit dem Vermerk „normal“. Die von ihr als auffällig eingestuften Bilder wurden nicht markiert. Erst wenn der Radiologe ein von der KI als verdächtig eingestuftes Röntgenbild für normal hielt, wies die KI auf die Diskrepanz hin und hob die verdächtige Stelle hervor. Über diesen Warnhinweis wurden 204 zusätzliche Karzinome entdeckt, die die Radiologen zunächst übersehen hatten. Allerdings hatte die KI in den normal eingestuften Bildern auch 20 Karzinome übersehen, die von den Radiologen entdeckt wurden.

Häuft sich der „falsche Alarm“?

Die Beobachtungsstudie zeigte des Weiteren, dass die Radiologen mit der KI schneller arbeiteten. Die als normal eingestuften Bilder wurden im Durchschnitt 16 Sekunden lang betrachtet, die nicht klassifizierten Bilder 30 Sekunden und die auffälligen Bilder 99 Sekunden. Eine Simulation zeigte zudem, dass die Früherkennung auch dann noch besser war, wenn alle als normal eingestuften Bilder gar nicht mehr von einem Radiologen befundet wurden, sondern nur noch die auffälligen und nicht klassifizierten Röntgenbilder. Die Studienergebnisse wurden in der Fachzeitschrift „Nature Medicine“ veröffentlicht.

Die Kehrseite der KI-gestützten Befundung könnte allerdings der Anstieg an Krebsverdachtsfällen sein, sogenannten DCIS. Die Abkürzung steht für „Duktales Carcinoma in Situ“. Deren Zahl verdoppelte sich mit der KI nahezu. Weil bei dieser frühen Form von Brustkrebs unklar ist, ob sich die Veränderungen jemals in einen invasiven Brusttumor weiterentwickeln werden, besteht die Gefahr, dass mit der KI mehr Überdiagnosen generiert werden. Ob dies tatsächlich der Fall sei, werde man allerdings erst in ein paar Jahren beantworten können, sagt Katalinic. Wenn die beim Screening entdeckten DCIS echte Karzinome seien, müsse es in den weiteren Screening-Runden weniger Intervallkarzinome und weniger invasive Karzinome geben.

Was bedeuten die Ergebnisse dieser Studie, die als PRAIM-Studie firmiert, für das deutsche Mammographie-Screening-Programm? Angesichts der besseren Ergebnisse und der Zeitersparnis könne die KI vielleicht nicht nur zusätzlich eingesetzt werden wie in der vorliegenden Beobachtungsstudie, sondern sie könnte auch die Radiologen ersetzen. Ein mögliches Szenario sei, dass die KI die unabhängige Befundung durch den zweiten Radiologen komplett übernimmt, sodass nur noch ein Radiologe an der Doppelbefundung beteiligt sei. Ein weiteres mögliches Szenario sei, dass nur die auffälligen Röntgenbilder von zwei Radiologen befundet würden. Für beide Szenarien biete die Studie Evidenz, so Katalinic weiter, darüber müsse man jetzt reden.

Dass die Screening-Zentren Entlastung gebrauchen können, ist kein Geheimnis. Die Arbeitsbelastung ist hoch. Es fehlt nicht nur an medizinischen Fachangestellten, sondern auch an Radiologen. Zudem ist der Kreis der anspruchsberechtigten Frauen im vergangenen Jahr durch die Anhebung der Altersgrenze auf 75 Jahre größer geworden. Statt sechs Millionen Frauen haben jetzt 8,5 Millionen Frauen einen Anspruch auf eine regelmäßige Früherkennungsuntersuchung der Brust. Möglicherweise wird der Kreis der anspruchsberechtigten Frauen in Zukunft auch noch auf die Frauen zwischen 45 und 50 Jahren ausgedehnt werden. Die Anforderungen an das Screening sind seit der Einführung vor zwanzig Jahren nicht kleiner, sondern größer geworden.