Cox-Regression

Die Cox-Regression, auch Coxsches Regressionsmodell ist ein nach David Cox benanntes regressionsanalytisches Verfahren zur Modellierung von Überlebenszeiten.

Wie alle ereigniszeitanalytischen Methoden ist sie ein Verfahren zur Schätzung des Einflusses unabhängiger Variablen auf die Dauer bis zum Eintreten von Ereignissen („Überlebenszeit“) bzw. deren Hazardrate. Als sog. semiparametrisches Verfahren liefert die Schätzung kein komplettes Vorhersagemodell für die Überlebenszeit, sondern lässt die Verteilungsfunktion der beobachteten Episodenenden unspezifiziert und schätzt ausschließlich den Einfluss metrischer oder kategorialer Variablen auf einer als über alle Fälle hinweg als gleich angenommenen Basis-Hazardrate.

Modell

Das von Cox vorgeschlagene Regressionsmodell wird zur Untersuchung des Verhaltens der Hazardraten in Abhängigkeit von Umwelteinflüssen benutzt. Grundlage des Modells sind Einflussvektoren z i {\displaystyle z_{i}\;} mit i = 1 , , n {\displaystyle i=1,\ldots ,n\;} , die für jedes Individuum i {\displaystyle i\;} der Studie beobachtet werden können. Der Zusammenhang zwischen diesen Einflüssen und der Hazardfunktion wird dann über die Relation

h ( t ; z i ) = h 0 ( t ) exp ( z i β ) {\displaystyle h(t;z_{i})=h_{0}(t)\exp(z_{i}\beta )\;}

hergestellt. h 0 {\displaystyle h_{0}} bezeichnet dabei eine unbekannte Hazardfunktion, die im Ausgangsfall ohne Einflüsse (also z i = 0 {\displaystyle z_{i}=0} ) die zugehörige Hazardfunktion darstellt. Sie wird als Störparameter behandelt. β {\displaystyle \beta } ist ein unbekannter Parameter, ebenfalls n-dimensional. Aufgabe der Statistik ist die Schätzung dieses Parameters.

Die Beobachtungen

Die Beobachtungen bestehen im Modell der Cox-Regression aus einem Tripel ( t i , z i , δ i ) {\displaystyle (t_{i},z_{i},\delta _{i})\;} , wobei z i {\displaystyle z_{i}\;} wie oben den Einflussvektor für das Individuum i {\displaystyle i\;} bezeichnet.

t i {\displaystyle t_{i}\;} ist (wie im Falle der Untersuchung zensierter Daten üblich) als das Minimum von zwei Zufallsvariablen x i {\displaystyle x_{i}\;} und y i {\displaystyle y_{i}\;} definiert. Im Falle des tatsächlich beobachteten Todes eines Individuums gibt x i {\displaystyle x_{i}\;} den Todeszeitpunkt von i {\displaystyle i\;} an. Falls dagegen nur die Studie beendet wurde, gibt y i {\displaystyle y_{i}\;} den Zeitpunkt der Beendigung an. Es ist offensichtlich, dass nur bei einer Beobachtung des Todes Rückschlüsse auf die Form der Hazardfunktion geschlossen werden können. Daher gibt δ i = I { x i y i } {\displaystyle \delta _{i}=I\{x_{i}\leq y_{i}\}} an, ob der Tod oder das Ende der Studie beobachtet wurde. I {\displaystyle I} bezeichnet hierbei die Indikatorfunktion.

Die Schätzung von β

Aufgrund der Struktur von h ( t ; z i ) {\displaystyle h(t;z_{i})\;} ergibt sich das Problem, dass in Intervallen ohne Todesfall keine Rückschlüsse auf β {\displaystyle \beta \;} gezogen werden können. Es ist schließlich möglich, dass die unbekannte Basis-Hazardfunktion h 0 ( t ) {\displaystyle h_{0}(t)\;} in diesem Intervall verschwindet und also a priori keine Todesfälle stattfinden können. Man greift daher auf einen Trick zurück und betrachtet bedingte Wahrscheinlichkeiten.

Wenn ausschließlich dann Informationen über β {\displaystyle \beta \;} erhalten werden können, wenn ein Todesfall stattgefunden hat, bietet sich zum Zeitpunkt des Todes von Individuum i {\displaystyle i\;} die Berechnung der folgenden Wahrscheinlichkeit an: Wie wahrscheinlich ist es, dass von allen noch lebenden Individuen nun ausgerechnet i {\displaystyle i\;} stirbt? Formal lässt sie sich als

p i ( β ) := exp ( z i β ) j R i exp ( z j β ) {\displaystyle p_{i}(\beta ):={\frac {\exp(z_{i}'\beta )}{\sum _{j\in R_{i}}\exp(z_{j}'\beta )}}}

berechnen. R i {\displaystyle R_{i}\;} bezeichnet dabei diejenigen Individuen, die zum Zeitpunkt des Todes von i {\displaystyle i\;} noch leben.

Um eine Art Maximum-Likelihood-Schätzer für β {\displaystyle \beta \;} zu finden, wird nun in Abhängigkeit von γ {\displaystyle \gamma \;} die Likelihood-Funktion

p ( γ ) := i = 1 n p i ( γ ) δ i {\displaystyle p(\gamma ):=\prod _{i=1}^{n}p_{i}(\gamma )^{\delta _{i}}}

maximiert. Dabei wird durch das Potenzieren der einzelnen bedingten Wahrscheinlichkeiten mit δ i {\displaystyle \delta _{i}\;} der Tatsache Rechnung getragen, dass nur die Beobachtung eines Todesfalls und nicht die des Endes der Studie Informationen über β {\displaystyle \beta \;} liefert.

Literatur

  • David Cox: Regression models and life tables. Journal of the Royal Statistical Society B, 34 (1972), S. 187–220. JSTOR:2985181
  • A. Ziegler, S. Lange & R. Bender: Überlebenszeitanalyse. Die Cox-Regression. Deutsche Medizinische Wochenschrift, 132(S 01) (2007), e42–e44. doi:10.1055/s-2007-959039