Articles

Log-Rank und Wilcoxon

Menüposition: Analysis_Survival_Log-rank und Wilcoxon.

Diese Funktion bietet Methoden zum Vergleichen von zwei oder mehr Überlebenskurven, wobei einige der Beobachtungen zensiert und die Gesamtgruppierung geschichtet werden kann. Die Methoden sind insofern nicht parametrisch, als sie keine Annahmen über die Verteilung von Überlebensschätzungen treffen.

In Abwesenheit von Zensur (z. die hier vorgestellten Methoden reduzieren sich auf einen Mann-Whitney-Test (zwei Proben Wilcoxon) für zwei Gruppen von Überlebenszeiten und einen Kruskal-Wallis-Test für mehr als zwei Gruppen von Überlebenszeiten. StatsDirect gibt einen umfassenden Satz von Tests für den Vergleich von Überlebensdaten, die zensiert werden können (Tarone und Ware, 1977; Kalbfleisch und Prentice, 1980; Cox und Oakes, 1984; Le, 1997).

Die hier getestete Nullhypothese ist, dass das Risiko des Todes / Ereignisses in allen Gruppen gleich ist.Der Log-Rank-Test von Peto ist im Allgemeinen die am besten geeignete Methode, aber der von Prentice modifizierte Wilcoxon-Test ist empfindlicher, wenn das Verhältnis der Gefahren zu frühen Überlebenszeiten höher ist als zu späten (Peto und Peto, 1972; Kalbfleisch und Prentice, 1980). Der Log-Rank-Test ähnelt dem Mantel-Haenszel-Test und wird von einigen Autoren als Cox-Mantel-Test bezeichnet (Mantel und Haenszel, 1959; Cox, 1972).

Schichten

Mit einer optionalen Variablen, Schichten, können Sie die in der Gruppenkennungsvariablen angegebenen Gruppen unterklassifizieren und die Signifikanz dieser Unterklassifizierung testen (Armitage und Berry, 1994; Lawless, 1982; Kalbfleisch und Prentice, 1980).

Wilcoxon-Gewichte

StatsDirect bietet Ihnen die Wahl zwischen drei verschiedenen Gewichtungsmethoden für den generalisierten Wilcoxon-Test, nämlich Peto-Prentice, Gehan-Breslow und Tarone-Ware. Die Peto-Prentice-Methode ist im Allgemeinen robuster als die anderen, aber die Gehan-Statistik wird routinemäßig von vielen statistischen Softwarepaketen berechnet (Breslow, 1974; Tarone und Ware, 1977; Kalbfleisch und Prentice, 1980; Miller, 1981; Hosmer und Lemeshow 1999). Sie sollten sich statistisch beraten lassen, wenn Sie eine andere Gewichtungsmethode als Peto-Prentice verwenden möchten.

Hazard-ratios

Ein ungefähres Konfidenzintervall für die log Hazard-Ratio wird unter Verwendung der folgenden Schätzung des Standardfehlers (SE) berechnet:

– wobei eij das Ausmaß der Exposition gegenüber dem Todesrisiko (manchmal erwartete Todesfälle genannt) für Gruppe i von k zum j-ten beobachteten Zeitpunkt (manchmal erwartete Todesfälle genannt) für Gruppe i von k (Armitage und Berry, 1994).

Optional wird eine genaue bedingte Maximum-Likelihood-Schätzung der Hazard Ratio angegeben. Die genaue Schätzung und ihr Konfidenzintervall (Fisher oder Mid-P) sollten routinemäßig der obigen Annäherung vorgezogen werden. Die Exponenten der Cox-Regressionsparameter sind auch genaue Schätzer der Hazard Ratio, aber bitte beachten Sie, dass sie nicht genau sind, wenn Breslows Methode verwendet wurde, um Bindungen in der Regression zu korrigieren. Bitte wenden Sie sich an einen Statistiker, wenn Sie die Cox-Regression in Betracht ziehen.

Trendtest

Wenn Sie mehr als zwei Gruppen haben, berechnet StatsDirect eine Variante des Log-Rank-Tests für den Trend. Wenn Sie keine Gruppenergebnisse eingeben, werden diese als 1,2,3 zugewiesen… n in Gruppenreihenfolge (Armitage und Berry, 1994; Lawless, 1982; Kalbfleisch und Prentice, 1980).

Technische Validierung

Die allgemeine Teststatistik wird um eine hypergeometrische Verteilung der Anzahl der Ereignisse zu unterschiedlichen Ereigniszeiten berechnet:

– wobei das Gewicht wj für den Log-Rank-Test gleich 1 ist und wj für den generalisierten Wilcoxon-Test ni ist (Gehan-Breslow-Methode); für die Tarone-Ware-Methode ist wj die Quadratwurzel von ni; und für die Peto-Prentice-Methode ist wj die Kaplan-Meier-Überlebensfunktion multipliziert mit (ni dividiert durch ni +1). eij ist die Erwartung des Todes in Gruppe i zum j-ten beobachteten Zeitpunkt, zu dem DJ-Ereignisse / Todesfälle auftraten. nij ist die Risikogruppe in Gruppe i kurz vor der j-ten beobachteten Zeit. Die Teststatistik für die Überlebensgleichheit über die k Gruppen (Stichprobenpopulationen) ist ungefähr Chi-Quadrat verteilt auf k-1 Freiheitsgrade. Die Teststatistik für den monotonen Trend ist ungefähr Chi-Quadrat verteilt auf 1 Freiheitsgrad. c ist ein Vektor von Scores, die entweder vom Benutzer definiert oder als 1 bis k zugewiesen werden.Die Varianz wird durch die Methode geschätzt, die Peto (1977) als „genau“ bezeichnet.

Die geschichtete Teststatistik wird ausgedrückt als (Kalbfleisch und Prentice, 1980):

– wobei die oben definierten Statistiken innerhalb von Schichten berechnet und dann vor den generalisierten inversen und transponierten Matrixoperationen über Schichten summiert werden.

Beispiel

Aus Armitage und Berry (1994, S. 479).

Testarbeitsbuch (Überlebensarbeitsblatt: Bühnengruppe, Zeit, Zensor).

Die folgenden Daten repräsentieren das Überleben in Tagen seit Studienbeginn bei Patienten mit diffusem histiozytären Lymphom. Zwei verschiedene Gruppen von Patienten, diejenigen mit Stadium III und diejenigen mit Stadium IV Krankheit, werden verglichen.

Bühne 3: 6, 19, 32, 42, 42, 43*, 94, 126*, 169*, 207, 211*, 227*, 253, 255*, 270*, 310*, 316*, 335*, 346*

Stufe 4: 4, 6, 10, 11, 11, 11, 13, 17, 20, 20, 21, 22, 24, 24, 29, 30, 30, 31, 33, 34, 35, 39, 40, 41*, 43*, 45, 46, 50, 56, 61*, 61*, 63, 68, 82, 85, 88, 89, 90, 93, 104, 110, 134, 137, 160*, 169, 171, 173, 175, 184, 201, 222, 235*, 247*, 260*, 284*, 290*, 291*, 302*, 304*, 341*, 345*

* = zensierte Daten (Patient lebt noch oder ist aus einem anderen Grund gestorben)

Um diese Daten in StatsDirect zu analysieren, müssen Sie sie zuerst in drei Arbeitsmappenspalten vorbereiten, wie unten gezeigt:

Stage group Time Censor
1 6 1
1 19 1
1 32 1
1 42 1
1 42 1
1 43 0
1 94 1
1 126 0
1 169 0
1 207 1
1 211 0
1 227 0
1 253 1
1 255 0
1 270 0
1 310 0
1 316 0
1 335 0
1 346 0
2 4 1
2 6 1
2 10 1
2 11 1
2 11 1
2 11 1
2 13 1
2 17 1
2 20 1
2 20 1
2 21 1
2 22 1
2 24 1
2 24 1
2 29 1
2 30 1
2 30 1
2 31 1
2 33 1
2 34 1
2 35 1
2 39 1
2 40 1
2 41 0
2 43 0
2 45 1
2 46 1
2 50 1
2 56 1
2 61 0
2 61 0
2 63 1
2 68 1
2 82 1
2 85 1
2 88 1
2 89 1
2 90 1
2 93 1
2 104 1
2 110 1
2 134 1
2 137 1
2 160 0
2 169 1
2 171 1
2 173 1
2 175 1
2 184 1
2 201 1
2 222 1
2 235 0
2 247 0
2 260 0
2 284 0
2 290 0
2 291 0
2 302 0
2 304 0
2 341 0
2 345 0

Alternatively, open the test workbook verwenden Sie die Funktion Datei öffnen des Menüs Datei. Wählen Sie dann Log-Rank und Wilcoxon aus dem Abschnitt Überlebensanalyse des Analysemenüs. Wählen Sie die Spalte „Bühnengruppe“, wenn Sie nach der Gruppenkennung gefragt werden, wählen Sie „Zeit“, wenn Sie nach Zeiten gefragt werden, und „Zensor“ für die Zensur. Klicken Sie auf die Schaltfläche Abbrechen, wenn Sie nach Strata gefragt werden.

Für dieses Beispiel:

Logrank- und Wilcoxon-Tests

Log Rank (Peto):

Für Gruppe 1 (Stage group = 1)

Beobachtete Todesfälle = 8

Ausmaß der Exposition gegenüber Todesrisiko = 16,687031

Relative Rate = 0.479414

For group 2 (Stage group = 2)

Observed deaths = 46

Extent of exposure to risk of death = 37.312969

Relative rate = 1.232815

test statistics:

-8.687031, 8.687031

variance-covariance matrix:

0.088912 -11.24706
-11.24706 11.24706

Chi-square for equivalence of death rates = 6.70971 P = 0.0096

Hazard Ratio, (approximate 95% confidence interval)

Group 1 vs. Group 2 = 0.388878, (0.218343 to 0.692607)

Bedingte Maximum-Likelihood-Schätzungen:

Hazard Ratio = 0,381485

Exaktes Fisher 95% Konfidenzintervall = 0,154582 bis 0,822411

Exaktes Fisher einseitiges P = 0,0051, zweiseitiges P = 0,0104

Exaktes Mid-P 95% Konfidenzintervall = 0,167398 bis 0,783785

Exakter Mid-P einseitig P = 0,0034, zweiseitig P = 0,0068

Generalisierte Wilcoxon (Peto-Prentice):

Teststatistik:

-5,19836, 5,19836

Varianz-Kovarianz-Matrix:

0,201506 -4,962627
-4,962627 4.962627

Chi-Quadrat für die Äquivalenz der Sterberaten = 5,44529 P = 0,0196

Sowohl Log-Rank- als auch Wilcoxon-Tests zeigten in dieser Studie einen statistisch signifikanten Unterschied in der Überlebenserfahrung zwischen Patienten im Stadium 3 und Stadium 4.

Stratifiziertes Beispiel

Von Peto et al. (1977):

Group Trial Time Censorship Stratum
1 8 1 1
1 8 1 2
2 13 1 1
2 18 1 1
2 23 1 1
1 52 1 1
1 63 1 1
1 63 1 1
2 70 1 2
2 70 1 2
2 180 1 2
2 195 1 2
2 210 1 2
1 220 1 2
1 365 0 2
2 632 1 2
2 700 1 2
1 852 0 2
2 1296 1 2
1 1296 0 2
1 1328 0 2
1 1460 0 2
1 1976 0 2
2 1990 0 2
2 2240 0 2

Censorship 1 = death event

Censorship 0 = lost to follow-up

Stratum 1 = renal impairment

Stratum 2 = no renal impairment

The table above shows you how to prepare data for a stratifizierter Log-Rank-Test in StatsDirect. Dieses Beispiel wird in der zweiten von zwei klassischen Arbeiten von Richard Peto und Kollegen (Peto et al., 1977, 1976). Bitte beachten Sie, dass StatsDirect die genaueren Varianzformeln verwendet, die im Abschnitt statistische Hinweise am Ende von Peto et al. (1977).