Keywords: Fallzahlplanung, klinische Studie, klinische Prüfung

Nebenkeywords: Stichprobenumfang, Fallzahlberechnung

1. Einleitung

In der Planung für eine klinischer Prüfung spielt die Fallzahlplanung eine wichtige Rolle. Hier wird festgelegt, wie viele Probanden eingeschlossen werden müssen, um einen relevanten Effekt nachzuweisen – und damit letztendlich das Gelingen oder Scheitern einer Studie. Welche Überlegungen spielen dabei eine Rolle?

Für den Nachweis der Wirksamkeit jeder klinischen Prüfung, z. B. PMCF oder bei Zulassungsstudien werden Hypothesen anhand eines primären Endpunktes überprüft. Eine nachzuweisende Hypothese (Alternativhypothese genannt) kann z. B. die Überlegenheit eines Produktes gegenüber einer Standardtherapie sein. Die Bestätigung oder Verwerfung einer Hypothese wird anhand erhobener Daten beurteilt und auf die Ergebnisse dann auf die Grundgesamtheit, also auf die gesamte Zielgruppe übertragen. Damit dies aussagekräftig ist, müssen genügend viele Daten von Beobachtungen aus der Zielgruppe vorliegen. Liegen zu wenige Beobachtungen vor, können tatsächlich vorhandene Behandlungseffekte nicht nachgewiesen werden, die Studie scheitert. Auf der anderen Seite führt ein großer Stichprobenumfang zu hohen Kosten, ist ethisch nur schwer begründbar, bindet Ressourcen und verlängert die Studiendauer.

Mit der Fallzahlplanung wird die minimale Anzahl einzuschließender Patienten oder Probanden bestimmt, um einen tatsächlich vorhandenen Effekt nachzuweisen. Hierfür ist eine Reihe von Vorüberlegungen maßgeblich.

2. Gründe für eine Fallzahlplanung

Mit jeder konfirmatorischen klinischen Prüfung wird das Ziel verfolgt, eine Hypothese statistisch nachzuweisen. Ist der Stichprobenumfang zu gering, so kann ein tatsächlich zwischen zwei Behandlungsgruppen vorhandener Unterschied nicht nachgewiesen werden. Es resultiert ein nicht signifikanter statistische Test, obwohl tatsächlich Effekte vorhanden sind.

Andererseits ist die Datenerhebung verbunden mit einem hohen Zeitaufwand, personellen Ressourcen werden gebunden und für jeden zusätzlich eingeschlossenen Patienten entstehen Kosten. Werden zu viele Patienten rekrutiert führt dies außerdem dazu, dass selbst kleine, medizinisch irrelevante Effekte nachgewiesen werden.

Eine Fallzahlplanung für eine klinische Prüfung stellt somit sicher, dass

Ein in der Zielgruppe vorhandener Effekt mit dem statistischen Test erkannt wird, der Test also ein signifikantes Ergebnis liefert
Falls der statistische Test kein signifikantes Ergebnis zeigt stellt ein ausreichender Stichprobenumfang sicher, dass mit genügend hoher Sicherheit auch kein Effekt in der Zielgruppe (Grundgesamtheit) vorliegt.

Die Notwendigkeit einer Fallzahlplanung in der Planungsphase klinischer Prüfungen ist zudem gesetzlich vorgeschrieben und wird durch die Ethikkommission überprüft. Die Berechnung des Stichprobenumfangs ist ein essentieller Teil des klinischen Prüfplans sowie des statistischen Analyseplans.

Für prospektive Studiendesigns ist eine Fallzahlplanung vor Beginn der Studi unumgänglich, aber auch in Pilotstudien oder retrospektiven Studien sollte vorab überlegt werden, wie hoch die Fallzahl mindestens sein muss.

Aspekte der Fallzahlplanung

Mediziner, Prüfarzt, Statistiker und CRO arbeiten bei der Fallzahlplanung eng zusammen. Ausgangspunkt ist dabei immer der primäre Endpunkt sowie die zu überprüfende Hypothese der klinischen Studie.

3. Auswahl statistischer Test

Für die Auswahl des geeigneten statistischen Tests ist einerseits die Art der Fragestellung wesentlich. Je nachdem, ob Überlegenheit oder Äquivalenz einer Behandlung nachgewiesen werden soll, sind andere Testverfahren erforderlich. Auch das Skalenniveau der primären Zielvariable spielt eine entscheidende Rolle. Für nominale Merkmale (ja/nein, Erfolg/kein Erfolg) werden andere Verfahren eingesetzt als für ordinale (z. B. Likert-Skala) oder stetige Merkmale (z. B. visuelle Analogskala (VAS), Summenscores, etc.).

3.1 Effektgröße

Mit der Effektgröße wird der nachzuweisende, relevante Unterschied angegeben. Je nach verwendetem Testverfahren werden verschiedene Maße verwendet. Als bekannteste Effektgröße gilt bei stetigen Variablen Cohens d, das den Unterschied zweier unabhängiger Gruppen in Relation zur gemeinsamen Streuung angibt.

Für kategoriale Endpunkte wird die Effektgröße W verwendet, die sich als Wurzel der quadrierten relativen Differenz der Proportionen ergibt.

Nach Cohen (1988) gelten dabei grob folgende Faustregeln:

Effektstärke ≈ 0,2: kleiner Effekt

Effektstärke ≈ 0,5: mittlerer Effekt

Effektstärke ≈ 0,8: großer Effekt

Für die Festlegung der Effektgröße werden möglichst präzise Vorinformationen aus der Literatur bzw. eigenen Pilotstudien benötigt. Ebenso fließt der medizinisch und praktisch relevante, nachzuweisende Unterschied ein. Eine mittlere Blutdrucksenkung von wenigen mmHg, also eine sehr kleine Effektstärke kann zwar mit genügend hohem Stichprobenumfang statistisch nachgewiesen werden, ist aber praktisch für Patient und Mediziner irrelevant.

3.2 Signifikanzniveau des statistischen Tests

Das Signifikanzniveau a muss vorab festgelegt werden und im Studienprotokoll und im Statistischen Analyseplan (SAP) niedergeschrieben werden. Das Signifikanzniveau gibt die Wahrscheinlichkeit an, mit der man ein statistisch signifikantes Testergebnis erhält, sofern tatsächlich in der Zielgruppe kein Effekt vorhanden ist. Weiter wird unterschieden, ob der Test ein- oder zweiseitig durchgeführt wird. Einseitige Test überprüfen Überlegenheitshypothesen. Üblich sind zweiseitige Fragestellungen, die hinsichtlich eines Unterschieds zweier Therapien einen Vergleich durchführen. Als Signifikanzniveau hat sich der Wert a = 5% etabliert, bei einseitiger Fragestellung wird oft a = 2,5% verwendet.

3.3 Power oder Macht

In der Planungsphase wird auch die Power oder Macht der Studie festgelegt. Dabei versteht man die Wahrscheinlichkeit, dass ein statistischer Test, den tatsächlich vorhandenen Unterschied nachweist, also einen signifikanten p-Wert liefert. Die Macht einer Studie sollte also möglichst hoch sein. Hier sind Werte zwischen 80% und 90% üblich. Je höher die Power einer Studie, desto höher ist die resultierende Fallzahl.

4. Beispiel aus unserer NOVUSTAT Beratungspraxis

Im Rahmen einer klinischen Prüfung soll die Verbesserung der Lebensqualität, gemessen am Score der Skala „Körperliche Funktionsfähigkeit“ des SF-36 Fragebogen nach einer 3-monatigen Therapie, nachgewiesen werden. Der Wertebereich der Skala umfasst 0 bis 100 Punkte. Das Messinstrument ist gut dokumentiert, validiert und es existieren zahlreiche Publikationen mit diesem Messinstrument. Aus der Normwerttabelle des Bundes-Gesundheitssurveys^[1]kann man ablesen, dass gesunde Menschen in dem Altersbereich 40-70 Jahre einen mittleren Score von 80-90 mit einer Standardabweichung von etwa 20 Scorepunkten zeigen. Für die Studienpopulation wird diese körperliche Funktionsfähigkeit bei Einschluss (vor Therapie) bei 50 Scorepunkten liegen (Standardabweichung 25 Scorepunkte), wie Ergebnisse einer Pilotstudie gezeigt haben. Nach dreimonatiger Therapie möchte man eine Verbesserung der körperlichen Funktionsfähigkeit um 30 Scorepunkte erreichen, so dass die mittlere Funktionsfähigkeit nach Therapie gesunden gleichaltrigen Personen entspricht. Für die Korrelation zwischen der ersten Messung vor Therapie und der zweiten Messung nach 3-monatiger Therapie wird ein geringer Wert von 0,2 erwartet (und mit den Daten der Pilotstudie bestätigt), aufgrund des zeitlichen Abstands.

Gibt man diese Werte in G*Power ein, einer Software zur Berechnung des Stichprobenumfangs, so erhält man folgendes Ergebnis:

Abb. 1 Berechnung der Effektgröße

Anhand der Angabe und Vorinformationen erhält man eine Effektgröße von 0,949, also etwa 1. Diese Information wir nun benötigt, um den minimal erforderlichen Stichprobenumfang zu berechnen, um einen Effekt von d = 0,949 nachzuweisen.

Für den Nachweis kann bei einem normalverteilten Merkmal ein zweiseitiger t-Test für verbundene Stichproben verwendet werden. Mit einem 5% Signifikanzniveau und einer Power von 90% werden für den Nachweis mindestens 14 Beobachtungen benötigt (S. Abbildung 2).

Abb. 2 Fallzahlberechnung für einen zweiseitigen T-Test mit verbundenen Stichproben.

Unter Berücksichtigung einer Drop-Out Rate von 10 % müssen mindestens 1,1*14 = 15,4, also 16 Patienten rekrutiert werden.

Im Rahmen einer Sensitivitätsanalyse wird im weiteren Verlauf überprüft, wie sensibel die Fallzahl auf Abweichungen der Annahmen reagiert. Dazu kann einerseits die Effektgröße innerhalb sinnvoller Grenzen variiert werden, andererseits kann auch die Stichprobengröße mit einer nichtparametrischen Alternative durchgeführt werden. Eine Verringerung der Power bewirkt eine Verringerung der benötigten Fallzahl.

Eine graphische Sensitivitätsanalyse ist in Abbildung 3 zu sehen.

Abb. 3 Sensitivitätsanalyse: Fallzahl in Abhängigkeit von der Effektgröße und der Power der Studie

5. Quellen/Literatur

Fallzahlplanung in klinischen Prüfungn
Chow S, Shao J, Wang H. 2008. Sample Size Calculations in Clinical Research. 2nd Ed. Chapman & Hall/CRC Biostatistics Series.
Bock J., Bestimmung des Stichprobenumfangs für biologische Experimente und kontrollierte klinische Studien. Oldenbourg 1998

6. Was wir für Sie tun können

Vor dem Start einer klinischen Prüfung ist die Fallzahlplanung ein wichtiger Bestandteil der Vorbereitung. Mit der Fallzahlberechnung wird sichergestellt, dass der tatsächlich vorhandene Effekt auch nachgewiesen werden kann. Durch eine professionelle Fallzahlplanung wird darauf geachtet, dass der Stichprobenumfang so gering wie möglich bleibt. Die Fallzahlplanung erfolgt zugeschnitten auf die jeweilige Prüfung unter Berücksichtigung des Studiendesigns, der primären Zielvariable, der nachzuweisenden Hypothese und der erforderlichen Sicherheit.

Deshalb umfasst unsere Studienplanung grundsätzlich und eigentlich immer mit als ersten Schritt die Fallzahlplanung. Auf dieser baut das gesamte Studienkonzept auf. Und somit kann die weitere Planung (z. B. Wie viele Prüfzentren werden benötigt? Wie lange brauche ich für die Rekrutierung? usw.) darauf aufbauen.

Wir bedanken uns an dieser Stelle bei unserem Partner Novustat für den Gastbeitrag, da wir finden, dass gerade dieses Thema oft unterschätzt wird.

Über den Autor: "Dr. Robert Grünwald ist seit 6 Jahren mit der Statistik-Beratung Novustat selbstständig und berät mit seinem Team schwerpunktmässig Kunden aus dem Bereich Pharma, Medizintechnik und Industrie bei allen Fragen rund um statistische Auswertungen."

Statistik-Beratung Novustat

8. Ausblick

In einem der nächsten Blogbeiträge werden wir wieder das Thema "Studientypen" aufnehmen und uns die Zulassungsstudie nach MDR Artikel 62 näher anschauen.

9. Wie wir Ihnen helfen können

Ob überhaupt und wenn ja welche klinische Prüfung unter welchen Voraussetzungen und gemäß welchen Anforderungen durchgeführt werden muss, klären wir bei medXteam im Rahmen der Pre-Study Phase: In 3 Schritten ermitteln wir die richtige und kosteneffiziente Strategie in Bezug auf die in Ihrem Fall erforderliche klinische Datenerhebung.

Haben Sie jetzt schon erste Fragen?

Eine kostenfreie Erstberatung erhalten Sie hier: kostenlose Erstberatung

[1] https://www.thieme.de/statics/dokumente/thieme/final/de/dokumente/zw_das-gesundheitswesen/gesu-suppl_klein.pdf

Blog

4. Beispiel aus unserer NOVUSTAT Beratungspraxis

Main Menu