Identifizierbarkeit

Dieser Artikel behandelt eine technische Definition des Begriffs Identifizierbarkeit. Für eine weniger technische Beschreibung siehe Identifikationsproblem.

Als Identifizierbarkeit eines Modells bezeichnet man in der Statistik und insbesondere in der Ökonometrie die Eigenschaft von Schätzmodellen, dass Inferenzstatistik auf sie anwendbar ist.

Ein Modell ist dann identifizierbar, wenn es theoretisch möglich ist, die dem Modell zugrundeliegenden wahren Werte zu ermitteln, indem unendlich viele Beobachtungen gemacht wurden (gezogen wurden). Mathematisch bedeutet das, dass unterschiedliche Werte der Parameter des Modells unterschiedliche Wahrscheinlichkeitsfunktionen der beobachtbaren Variablen erzeugen.

In der Praxis, wo endlich viele Beobachtungen vorliegen, ist die Identifizierbarkeit eines Modells durch die Anzahl der zu schätzenden Parameter, die Anzahl der Beobachtungen und Anzahl der damit verbundenen Freiheitsgrade beschränkt.

Multikollinearität führt zu nicht identifizierbaren Parametern.

Geschichte des Begriffs

Der Begriff Identifizierbarkeit wurde von dem Ökonometriker Tjalling Koopmans um 1945 in Bezug auf die ökonomische Identität einer Beziehung innerhalb eines Beziehungssystems geprägt. Der Begriff erschien darauf unmittelbar in der Ökonometrie-Literatur, obwohl Koopmans eigene Darstellung des Themas – seine „Identifikationsprobleme im ökonomischen Modellbau“ – erst 1949 erschien. Um 1950 wurde der Begriff von Statistikern aufgegriffen und in einem allgemeineren Sinn verwendet, siehe z. B. Jerzy Neymans Existence of Consistent Estimates of the Directional Parameter in a Linear Structural Relation Between Two Variables.[1]

Definition

Sei P = { P θ : θ Θ } {\displaystyle {\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}} ein statistisches Modell mit einem (möglicherweise unendlich-dimensionalen) Parameterraum Θ {\displaystyle \Theta } . Dann heißt P {\displaystyle {\mathcal {P}}} identifizierbar, wenn die Abbildung θ P θ {\displaystyle \theta \mapsto P_{\theta }} injektiv ist. Es soll also gelten:

P θ 1 = P θ 2 θ 1 = θ 2   für alle   θ 1 , θ 2 Θ {\displaystyle P_{\theta _{1}}=P_{\theta _{2}}\quad \Rightarrow \quad \theta _{1}=\theta _{2}\;\ {\text{für alle}}\quad \ \theta _{1},\theta _{2}\in \Theta } .

Verschiedene Werte von θ {\displaystyle \theta } sollen also unterschiedlichen Wahrscheinlichkeitsverteilungen entsprechen.

Wenn die Verteilungen über Wahrscheinlichkeitsdichtefunktionen definiert sind, dann werden diese als unterschiedlich angesehen, wenn sie sich auf einer Menge von positivem Lebesgue-Maß unterscheiden. (Beispielsweise werden zwei Funktionen, die sich nur in einem Punkt unterscheiden, in diesem Sinne nicht als unterschiedlich Wahrscheinlichkeitsdichtefunktionen angesehen.)

Diese Identifizierbarkeit des Modells im Sinne der Invertierbarkeit von θ P θ {\displaystyle \theta \mapsto P_{\theta }} ist äquivalent dazu, dass die wahren Parameter des Modells bestimmbar sind, wenn man das Modell unendlich lange beobachten kann. Denn wenn { X t } S {\displaystyle \{X_{t}\}\subseteq S} die Folge der Beobachtungen ist, dann folgt aus dem starken Gesetz der großen Zahlen

1 T t = 1 T 1 { X t A }   a. s.   P ( X t A ) , {\displaystyle {\frac {1}{T}}\sum _{t=1}^{T}\mathbf {1} _{\{X_{t}\in A\}}\ {\xrightarrow {\text{a. s.}}}\ P(X_{t}\in A),}

für jede messbare Menge A S {\displaystyle A\subset S} , wobei 1 { . . . } {\displaystyle \mathbf {1} _{\{...\}}} die Indikatorfunktion einer Menge bezeichnet. Mit einer unendlichen Anzahl von Beobachtungen kann man also die wahre Wahrscheinlichkeitsverteilung P θ {\displaystyle P_{\theta }} und wegen der Invertierbarkeit der Abbildung θ P θ {\displaystyle \theta \mapsto P_{\theta }} auch den wahren Wert des Parameters θ {\displaystyle \theta } bestimmen.

Beispiele

Normalverteilungen

Sei P {\displaystyle {\mathcal {P}}} die Familie der Normalverteilungen, die eine Lage-Skalen-Familie bildet

P = {   f θ ( x ) = 1 2 π σ e 1 2 σ 2 ( x μ ) 2   |   θ = ( μ , σ ) : μ R , σ > 0   } {\displaystyle {\mathcal {P}}={\Big \{}\ f_{\theta }(x)={\tfrac {1}{{\sqrt {2\pi }}\sigma }}e^{-{\frac {1}{2\sigma ^{2}}}(x-\mu )^{2}}\ {\Big |}\ \theta =(\mu ,\sigma ):\mu \in \mathbb {R} ,\,\sigma \!>0\ {\Big \}}} .

Dann ist

f θ 1 = f θ 2 1 2 π σ 1 exp ( 1 2 σ 1 2 ( x μ 1 ) 2 ) = 1 2 π σ 2 exp ( 1 2 σ 2 2 ( x μ 2 ) 2 ) 1 σ 1 2 ( x μ 1 ) 2 + ln σ 1 = 1 σ 2 2 ( x μ 2 ) 2 + ln σ 2 x 2 ( 1 σ 1 2 1 σ 2 2 ) 2 x ( μ 1 σ 1 2 μ 2 σ 2 2 ) + ( μ 1 2 σ 1 2 μ 2 2 σ 2 2 + ln σ 1 ln σ 2 ) = 0 {\displaystyle {\begin{aligned}&f_{\theta _{1}}=f_{\theta _{2}}\\[6pt]\Longleftrightarrow {}&{\frac {1}{{\sqrt {2\pi }}\sigma _{1}}}\exp \left(-{\frac {1}{2\sigma _{1}^{2}}}(x-\mu _{1})^{2}\right)={\frac {1}{{\sqrt {2\pi }}\sigma _{2}}}\exp \left(-{\frac {1}{2\sigma _{2}^{2}}}(x-\mu _{2})^{2}\right)\\[6pt]\Longleftrightarrow {}&{\frac {1}{\sigma _{1}^{2}}}(x-\mu _{1})^{2}+\ln \sigma _{1}={\frac {1}{\sigma _{2}^{2}}}(x-\mu _{2})^{2}+\ln \sigma _{2}\\[6pt]\Longleftrightarrow {}&x^{2}\left({\frac {1}{\sigma _{1}^{2}}}-{\frac {1}{\sigma _{2}^{2}}}\right)-2x\left({\frac {\mu _{1}}{\sigma _{1}^{2}}}-{\frac {\mu _{2}}{\sigma _{2}^{2}}}\right)+\left({\frac {\mu _{1}^{2}}{\sigma _{1}^{2}}}-{\frac {\mu _{2}^{2}}{\sigma _{2}^{2}}}+\ln \sigma _{1}-\ln \sigma _{2}\right)=0\end{aligned}}} .

Dieser Ausdruck ist genau dann fast überall null, wenn alle Koeffizienten null sind, was nur für | σ 1 | = | σ 2 | {\displaystyle \vert \sigma _{1}\vert =\vert \sigma _{2}\vert } und μ 1 = μ 2 {\displaystyle \mu _{1}=\mu _{2}} möglich ist. Weil der Skalenparameter σ {\displaystyle \sigma } positiv ist, ist das Modell identifizierbar: f θ 1 = f θ 2 θ 1 = θ 2 {\displaystyle f_{\theta _{1}}=f_{\theta _{2}}\Leftrightarrow \theta _{1}=\theta _{2}} .

Multiples lineares Regressionsmodell

Sei P {\displaystyle {\mathcal {P}}} das das klassische Modell der linearen Mehrfachregression y = X β + ε {\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}} , mit β {\displaystyle {\boldsymbol {\beta }}} dem p × 1 {\displaystyle p\times 1} Vektor der unbekannten Regressionsparameter, der n × p {\displaystyle n\times p} Versuchsplanmatrix X {\displaystyle \mathbf {X} } , dem n × 1 {\displaystyle n\times 1} Vektor der abhängigen Variablen y {\displaystyle \mathbf {y} } und dem n × 1 {\displaystyle n\times 1} Vektor der Störgrößen ε {\displaystyle {\boldsymbol {\varepsilon }}} . Dann ist der Parameter β ^ {\displaystyle {\hat {\boldsymbol {\beta }}}} genau dann identifizierbar, wenn die Matrix ( X X ) 1 {\displaystyle (\mathbf {X} ^{\top }\mathbf {X} )^{-1}} invertierbar ist.

Klassisches Fehler-in-den-Variablen-Modell

Sei P {\displaystyle {\mathcal {P}}} das klassische Fehler-in-den-Variablen-Modell

{ y = β x + ε , x = x + η , , {\displaystyle {\begin{cases}y=\beta x^{*}+\varepsilon ,\\x=x^{*}+\eta ,\end{cases}},}

wobei ( ε , η , x ) {\displaystyle (\varepsilon ,\eta ,x^{*})} gemeinsam normalverteilte unabhängige Zufallsvariablen mit Erwartungswert null und unbekannter Varianz sind und nur die Variablen ( x , y ) {\displaystyle (x,y)} beobachtet werden.

Dieses Modell ist nicht identifizierbar. Jedoch ist das Produkt β σ 2 {\displaystyle \beta \sigma _{*}^{2}} (wobei σ 2 {\displaystyle \sigma _{*}^{2}} die Varianz des latenten Regressors x {\displaystyle x^{*}} ist) identifizierbar.

In diesem Beispiel kann zwar nicht der exakte Wert von β ^ {\displaystyle {\hat {\beta }}} identifiziert werden, jedoch kann man garantieren, dass er im Intervall ( β ^ y x , 1 β ^ x y ) {\displaystyle ({\hat {\beta }}_{yx},{\frac {1}{{\hat {\beta }}_{xy}}})} liegen muss, wobei β ^ y x {\displaystyle {\hat {\beta }}_{yx}} und β ^ y x {\displaystyle {\hat {\beta }}_{yx}} die Koeffizienten sind, die mittels einer gewöhnlichen Kleinste-Quadrate-Schätzung von y {\displaystyle y} auf x {\displaystyle x} bzw. x {\displaystyle x} auf y {\displaystyle y} gewonnen wurden.

Literatur

  • Hans-Friedrich Eckey, Reinhold Kosfeld, Christian Dreger: Ökonometrie: Grundlagen, Methoden, Beispiele. Gabler Verlag, 2004, ISBN 978-3-409-33732-8, S. 321 (eingeschränkte Vorschau in der Google-Buchsuche). 

Einzelnachweise

  1. Earliest Known Uses of Some of the Words of Mathematics: Identifiability