Geometrische Verteilung

Geometrische Verteilung
Wahrscheinlichkeitsfunktion
Wahrscheinlichkeitsfunktion der geometrischen Verteilung (Variante B) für p = 0 , 2 {\displaystyle p=0{,}2} (blau), p = 0 , 5 {\displaystyle p=0{,}5} (grün) und p = 0 , 8 {\displaystyle p=0{,}8} (rot)
Verteilungsfunktion
Parameter p ∈ (0,1) – Einzel-Erfolgswahrscheinlichkeit
Erwartungswert 1 p {\displaystyle {\frac {1}{p}}} (A) bzw. 1 p p {\displaystyle {\frac {1-p}{p}}} (B)
Varianz 1 p p 2 {\displaystyle {\frac {1-p}{p^{2}}}}
Schiefe 2 p 1 p {\displaystyle {\frac {2-p}{\sqrt {1-p}}}}
Wölbung 9 + p 2 1 p {\displaystyle 9+{\frac {p^{2}}{1-p}}}

Die geometrische Verteilung ist eine Wahrscheinlichkeitsverteilung in der Stochastik, die univariat ist und zu den diskreten Wahrscheinlichkeitsverteilungen zählt. Sie wird aus unabhängigen Bernoulli-Experimenten abgeleitet und in zwei Varianten definiert:

Variante A
die Wahrscheinlichkeitsverteilung der Anzahl X {\displaystyle X} der Bernoulli-Versuche, die notwendig sind, um einen Erfolg zu haben. Diese Verteilung ist auf der Menge N {\displaystyle \mathbb {N} } definiert.
Variante B
die Wahrscheinlichkeitsverteilung der Anzahl Y {\displaystyle Y} der Fehlversuche vor dem ersten Erfolg. Diese Verteilung ist auf der Menge N 0 {\displaystyle \mathbb {N} _{0}} definiert.

Die beiden Varianten stehen in der Beziehung X = Y + 1 {\displaystyle X=Y+1} . Welche davon man „geometrische Verteilung“ nennt, wird entweder vorher festgelegt oder man wählt diejenige, die gerade zweckmäßiger ist.

Die geometrische Verteilung wird verwendet:

  • bei der Analyse der Wartezeiten bis zum Eintreffen eines bestimmten Ereignisses.
    • bei der Lebensdauerbestimmung von Geräten und Bauteilen, d. h. dem Warten bis zum ersten Ausfall
  • bei der Bestimmung der Anzahl häufiger Ereignisse zwischen unmittelbar aufeinanderfolgenden seltenen Ereignissen wie zum Beispiel Fehlern:
    • Bestimmung der Zuverlässigkeit von Geräten (MTBF)
    • Bestimmung des Risikos in der Versicherungsmathematik
    • Bestimmung der Fehlerrate in der Datenübertragung, zum Beispiel Anzahl der erfolgreich übertragenen TCP-Pakete zwischen zwei Paketen mit Retransmission

Definition der geometrischen Verteilung

Eine diskrete Zufallsgröße X {\displaystyle X} oder Y {\displaystyle Y} mit dem Parameter p {\displaystyle p} (Wahrscheinlichkeit für einen Erfolg), q = 1 p {\displaystyle q=1-p} (Wahrscheinlichkeit für einen Misserfolg) genügt der geometrischen Verteilung G ( p ) {\displaystyle G(p)} , wenn:

Variante A
Für die Wahrscheinlichkeit, dass man genau n {\displaystyle n} Versuche benötigt, um zum ersten Erfolg zu kommen, gilt
P ( X = n ) = p ( 1 p ) n 1 = p q n 1 ( n = 1 , 2 , ) {\displaystyle \operatorname {P} (X=n)=p(1-p)^{n-1}=pq^{n-1}\quad (n=1,2,\dotsc )}
Variante B
Für die Wahrscheinlichkeit, n {\displaystyle n} Fehlversuche vor dem ersten Erfolg zu haben, gilt
P ( Y = n ) = p ( 1 p ) n = p q n ( n = 0 , 1 , 2 , ) {\displaystyle \operatorname {P} (Y=n)=p(1-p)^{n}=pq^{n}\quad (n=0,1,2,\dotsc )}

In beiden Fällen bilden die Werte für die Wahrscheinlichkeiten eine geometrische Folge.

Damit besitzt die geometrische Verteilung die folgenden Verteilungsfunktionen

Variante A
F ( n ) = P ( X n ) = p i = 1 n q i 1 = p i = 0 n 1 q i = p 1 q n 1 q = 1 q n = 1 ( 1 p ) n {\displaystyle F(n)=\operatorname {P} (X\leq n)=p\sum _{i=1}^{n}q^{i-1}=p\sum _{i=0}^{n-1}q^{i}=p{\frac {1-q^{n}}{1-q}}=1-q^{n}=1-(1-p)^{n}}
Variante B
F ( n ) = P ( Y n ) = p i = 0 n q i = p 1 q n + 1 1 q = 1 q n + 1 = 1 ( 1 p ) n + 1 {\displaystyle F(n)=\operatorname {P} (Y\leq n)=p\sum _{i=0}^{n}q^{i}=p{\frac {1-q^{n+1}}{1-q}}=1-q^{n+1}=1-(1-p)^{n+1}}

Eigenschaften

Erwartungswert

Die Erwartungswerte der beiden geometrischen Verteilungen sind

Variante A
E ( X ) = 1 p {\displaystyle \operatorname {E} (X)={\frac {1}{p}}}
Variante B
E ( Y ) = E ( X ) 1 = 1 p p {\displaystyle \operatorname {E} (Y)=\operatorname {E} (X)-1={\frac {1-p}{p}}} .

Der Erwartungswert kann auf verschiedene Weisen hergeleitet werden:

  • E ( X ) = p k = 1 k ( 1 p ) k 1 = p k = 0 d d p ( ( 1 p ) k ) = p d d p ( k = 0 ( 1 p ) k ) = p d d p ( 1 p ) = 1 p {\displaystyle \operatorname {E} (X)=p\sum _{k=1}^{\infty }k\,(1-p)^{k-1}=p\sum _{k=0}^{\infty }\,{\frac {\mathrm {d} }{\mathrm {d} p}}\left(-(1-p)^{k}\right)=-p{\frac {\mathrm {d} }{\mathrm {d} p}}\left(\sum _{k=0}^{\infty }\,(1-p)^{k}\right)=-p{\frac {\mathrm {d} }{\mathrm {d} p}}\left({\frac {1}{p}}\right)={\frac {1}{p}}} .


  • E ( X ) = k = 1 k p ( 1 p ) k 1 = k = 0 ( k + 1 ) p ( 1 p ) k = k = 0 k p ( 1 p ) k + k = 1 p ( 1 p ) k 1 = ( 1 p ) E ( X ) + 1 {\displaystyle \operatorname {E} (X)=\sum _{k=1}^{\infty }kp(1-p)^{k-1}=\sum _{k=0}^{\infty }(k+1)p(1-p)^{k}=\sum _{k=0}^{\infty }kp(1-p)^{k}+\sum _{k=1}^{\infty }p(1-p)^{k-1}=(1-p)\operatorname {E} (X)+1}
E ( X ) = 1 p {\displaystyle \Rightarrow \operatorname {E} (X)={\frac {1}{p}}} .
Dabei ist k = 1 p ( 1 p ) k 1 = 1 {\displaystyle \sum _{k=1}^{\infty }p(1-p)^{k-1}=1} , da p ( 1 p ) k 1 {\displaystyle p(1-p)^{k-1}} die Wahrscheinlichkeitsfunktion ist.
  • Der Erwartungswert E ( X ) {\displaystyle \operatorname {E} (X)} lässt sich per Fallunterscheidung zerlegen. Mit Wahrscheinlichkeit p {\displaystyle p} geht das erste Experiment erfolgreich aus, das heißt, X {\displaystyle X} wird mit 1 realisiert. Mit Wahrscheinlichkeit 1 p {\displaystyle 1-p} ist das erste Experiment erfolglos, aber der Erwartungswert für die Anzahl der dann noch folgenden Experimente ist wegen der Gedächtnislosigkeit wiederum E ( X ) {\displaystyle \operatorname {E} (X)} . Also gilt
E ( X ) = p 1 + ( 1 p ) ( 1 + E ( X ) ) = 1 + ( 1 p ) E ( X ) {\displaystyle \operatorname {E} (X)=p\cdot 1+(1-p)\cdot (1+\operatorname {E} (X))=1+(1-p)\cdot \operatorname {E} (X)} , also E ( X ) = 1 p {\displaystyle \operatorname {E} (X)={\frac {1}{p}}} .
  • Führt man n {\displaystyle n} Experimente durch, so ist der Erwartungswert für die Anzahl der erfolgreichen Experimente n p {\displaystyle n\cdot p} . Daher ist der zu erwartende Abstand zwischen zwei erfolgreichen Experimenten (einschließlich eines erfolgreichen Experimentes) n n p {\displaystyle {\tfrac {n}{n\cdot p}}} , also E ( X ) = 1 p {\displaystyle \operatorname {E} (X)={\tfrac {1}{p}}} .

Varianz

Die Varianzen der beiden geometrischen Verteilungen sind

Var ( X ) = Var ( Y ) = 1 p p 2 = 1 p 2 1 p {\displaystyle \operatorname {Var} (X)=\operatorname {Var} (Y)={\frac {1-p}{p^{2}}}={\frac {1}{p^{2}}}-{\frac {1}{p}}} .

Die Herleitung kann erfolgen über

Var ( X ) {\displaystyle \operatorname {Var} (X)} = E ( X 2 ) E ( X ) 2 = p k = 1 k 2 ( 1 p ) k 1 1 p 2 {\displaystyle =\operatorname {E} (X^{2})-\operatorname {E} (X)^{2}=p\sum _{k=1}^{\infty }k^{2}(1-p)^{k-1}-{\frac {1}{p^{2}}}}
= p k = 1 k ( k + 1 ) ( 1 p ) k 1 p k = 1 k ( 1 p ) k 1 1 p 2 {\displaystyle =p\sum _{k=1}^{\infty }k(k+1)(1-p)^{k-1}-p\sum _{k=1}^{\infty }k(1-p)^{k-1}-{\frac {1}{p^{2}}}}
= p d 2 d p 2 k = 1 ( 1 p ) k + 1 + p d d p k = 1 ( 1 p ) k 1 p 2 {\displaystyle =p{\frac {\mathrm {d} ^{2}}{\mathrm {d} p^{2}}}\sum _{k=1}^{\infty }(1-p)^{k+1}+p{\frac {\mathrm {d} }{\mathrm {d} p}}\sum _{k=1}^{\infty }(1-p)^{k}-{\frac {1}{p^{2}}}}
= p d 2 d p 2 ( k = 0 ( 1 p ) k ( 1 p ) 2 ) + p d d p ( k = 0 ( 1 p ) k ( 1 p ) ) 1 p 2 {\displaystyle =p{\frac {\mathrm {d} ^{2}}{\mathrm {d} p^{2}}}\left(\sum _{k=0}^{\infty }(1-p)^{k}\cdot (1-p)^{2}\right)+p{\frac {\mathrm {d} }{\mathrm {d} p}}\left(\sum _{k=0}^{\infty }(1-p)^{k}\cdot (1-p)\right)-{\frac {1}{p^{2}}}}
= p d 2 d p 2 ( 1 1 ( 1 p ) ( 1 p ) 2 ) + p d d p ( 1 1 ( 1 p ) ( 1 p ) ) 1 p 2 {\displaystyle =p{\frac {\mathrm {d} ^{2}}{\mathrm {d} p^{2}}}\left({\frac {1}{1-(1-p)}}\cdot (1-p)^{2}\right)+p{\frac {\mathrm {d} }{\mathrm {d} p}}\left({\frac {1}{1-(1-p)}}\cdot (1-p)\right)-{\frac {1}{p^{2}}}}
= p d 2 d p 2 ( ( 1 p ) 2 p ) + p d d p ( 1 p p ) 1 p 2 {\displaystyle =p{\frac {\mathrm {d} ^{2}}{\mathrm {d} p^{2}}}\left({\frac {(1-p)^{2}}{p}}\right)+p{\frac {\mathrm {d} }{\mathrm {d} p}}\left({\frac {1-p}{p}}\right)-{\frac {1}{p^{2}}}}
= p 2 p 3 p 1 p 2 1 p 2 = 2 p 2 1 p 1 p 2 = 1 p 2 1 p {\displaystyle =p\cdot {\frac {2}{p^{3}}}-p\cdot {\frac {1}{p^{2}}}-{\frac {1}{p^{2}}}={\frac {2}{p^{2}}}-{\frac {1}{p}}-{\frac {1}{p^{2}}}={\frac {1}{p^{2}}}-{\frac {1}{p}}} .

Gedächtnislosigkeit

Die geometrische Verteilung ist eine gedächtnislose Verteilung, d. h., es gilt für

Variante A

P ( X = n + k | X > n ) = P ( X = k ) n , k = 1 , 2 , {\displaystyle \operatorname {P} (X=n+k\,|\,X>n)=\operatorname {P} (X=k)\quad n,k=1,2,\dotsc }

Variante B

P ( Y = n + k | Y n ) = P ( Y = k ) n , k = 0 , 1 , 2 , {\displaystyle \operatorname {P} (Y=n+k\,|\,Y\geq n)=\operatorname {P} (Y=k)\quad n,k=0,1,2,\dotsc }

Ist also von einer geometrisch verteilten Zufallsvariablen bekannt, dass sie größer als der Wert n {\displaystyle n} ist (Variante A) bzw. mindestens den Wert n {\displaystyle n} hat (Variante B), so ist die Wahrscheinlichkeit, dass sie diesen Wert um k {\displaystyle k} übertrifft, genau so groß wie die, dass eine identische Zufallsvariable überhaupt den Wert k {\displaystyle k} annimmt.

Die Gedächtnislosigkeit ist eine definierende Eigenschaft; die geometrische Verteilung ist also die einzig mögliche gedächtnislose diskrete Verteilung. Ihr stetiges Pendant hierbei ist die Exponentialverteilung.

Bezug zur Reproduktivität

Die Summe X = i = 1 k X i {\displaystyle \textstyle X=\sum _{i=1}^{k}X_{i}} unabhängiger geometrisch verteilter Zufallsgrößen X 1 , , X k {\displaystyle X_{1},\dotsc ,X_{k}} mit demselben Parameter p {\displaystyle p} ist nicht geometrisch verteilt, sondern negativ binomialverteilt. Somit ist die Familie der geometrischen Wahrscheinlichkeitsverteilungen nicht reproduktiv.

Schiefe

Die Schiefe ergibt sich für beide Varianten zu:

v ( X ) = v ( Y ) = 2 p 1 p {\displaystyle \operatorname {v} (X)=\operatorname {v} (Y)={\frac {2-p}{\sqrt {1-p}}}} .

Wölbung

Die Wölbung lässt sich für beide Varianten ebenfalls geschlossen darstellen als

β 2 = 9 + p 2 1 p {\displaystyle \beta _{2}=9+{\frac {p^{2}}{1-p}}} .

Damit ist der Exzess

γ = 6 + p 2 1 p {\displaystyle \gamma =6+{\frac {p^{2}}{1-p}}} .

Modus

Variante A

Bei Variante A ist der Modus 1.

Variante B

Bei Variante B ist der Modus 0.

Median

Variante A

Bei Variante A ist der Median

m ~ = 1 log 2 ( 1 p ) {\displaystyle {\tilde {m}}=\left\lceil {\frac {-1}{\log _{2}(1-p)}}\right\rceil \!} .

Hierbei ist {\displaystyle \lceil \cdot \rceil } die Gaussklammer. Der Median ist nicht notwendigerweise eindeutig.

Variante B

Hier ist der Median

m ~ = 1 log 2 ( 1 p ) 1 {\displaystyle {\tilde {m}}=\left\lceil {\frac {-1}{\log _{2}(1-p)}}\right\rceil -1\!} .

Auch er muss nicht eindeutig sein.

Entropie

Die Entropie beider Varianten ist

H = ( 1 p ) log 2 ( 1 p ) p log 2 p p {\displaystyle \mathrm {H} ={\frac {-(1-p)\log _{2}(1-p)-p\log _{2}p}{p}}} .

Charakteristische Funktion

Die charakteristische Funktion hat die Form

Variante A
φ X ( s ) = p e i s 1 ( 1 p ) e i s {\displaystyle \varphi _{X}(s)={\frac {pe^{is}}{1-(1-p)e^{is}}}} .
Variante B
φ Y ( s ) = p 1 ( 1 p ) e i s {\displaystyle \varphi _{Y}(s)={\frac {p}{1-(1-p)e^{is}}}} .

Momenterzeugende Funktion

Die momenterzeugende Funktion der geometrischen Verteilung ist

Variante A
M X ( s ) = p e s 1 ( 1 p ) e s {\displaystyle M_{X}(s)={\frac {pe^{s}}{1-(1-p)e^{s}}}}
Variante B
M Y ( s ) = p 1 ( 1 p ) e s {\displaystyle M_{Y}(s)={\frac {p}{1-(1-p)e^{s}}}} .

Wahrscheinlichkeitserzeugende Funktion

Die wahrscheinlichkeitserzeugende Funktion der geometrischen Verteilung ist

Variante A
m X ( t ) = p t 1 ( 1 p ) t {\displaystyle m_{X}(t)={\frac {pt}{1-(1-p)t}}}
Variante B
m Y ( t ) = p 1 ( 1 p ) t {\displaystyle m_{Y}(t)={\frac {p}{1-(1-p)t}}} .

Beziehungen zu anderen Verteilungen

Beziehung zur negativen Binomialverteilung

Verallgemeinerung auf mehrere Erfolge
Eine Verallgemeinerung der geometrischen Verteilung stellt die negative Binomialverteilung dar, die die Wahrscheinlichkeit angibt, dass für r {\displaystyle r} Erfolge n {\displaystyle n} Versuche notwendig sind bzw. (in einer alternativen Darstellung) dass der r {\displaystyle r} -te Erfolg eintritt, nachdem bereits k = n r {\displaystyle k=n-r} Misserfolge eingetreten sind.

Umgekehrt ist die geometrische Verteilung eine negative Binomialverteilung mit r = 1 {\displaystyle r=1} . Somit gilt für die Faltung der geometrische Verteilung Geom ( p ) Geom ( p ) = NegBin ( 2 , p ) {\displaystyle \operatorname {Geom} (p)*\operatorname {Geom} (p)=\operatorname {NegBin} (2,p)} .

Beziehung zur Exponentialverteilung

Konvergenz der geometrischen Verteilung
Für eine Folge X 1 , X 2 , X 3 , {\displaystyle X_{1},X_{2},X_{3},\dotsc } geometrisch verteilter Zufallsvariablen mit Parametern p 1 , p 2 , p 3 , {\displaystyle p_{1},p_{2},p_{3},\dotsc } gelte lim n n p n = λ {\displaystyle \lim _{n\to \infty }np_{n}=\lambda } mit einer positiven Konstante λ {\displaystyle \lambda } . Dann konvergiert die Folge X n n {\displaystyle {\tfrac {X_{n}}{n}}} für große n {\displaystyle n} gegen eine exponentialverteilte Zufallsvariable mit Parameter λ {\displaystyle \lambda } .

In Analogie zur diskreten geometrischen Verteilung bestimmt die stetige Exponentialverteilung die Wartezeit bis zum ersten Eintreffen eines seltenen Poisson-verteilten Ereignisses. Die Exponentialverteilung ist also das kontinuierliche Analogon zur diskreten geometrischen Verteilung.

Beziehung zur zusammengesetzten Poisson-Verteilung

Die geometrische Verteilung in der Variante B entsteht als Spezialfall der zusammengesetzten Poisson-Verteilung in Kombination mit der logarithmischen Verteilung. Als Parameter wählt man p log = 1 p geom {\displaystyle p_{\text{log}}=1-p_{\text{geom}}} und λ = ln ( 1 p log ) {\displaystyle -\lambda =\ln(1-p_{\text{log}})} . Damit ist die geometrische Verteilung auch unendlich teilbar.

Beziehung zum Urnenmodell

Die geometrische Verteilung lässt sich aus dem Urnenmodell herleiten, wenn

p = p 1 p 2 Q {\displaystyle p={\frac {p_{1}}{p_{2}}}\in \mathbb {Q} }

ist. Dann entsteht die geometrische Verteilung beim Ziehen mit Zurücklegen aus einer Urne mit p 2 {\displaystyle p_{2}} Kugeln, von denen p 1 {\displaystyle p_{1}} markiert sind. Sie ist dann die Wartezeit auf den ersten Erfolg.

Zufallszahlen

Zufallszahlen zur geometrischen Verteilung werden üblicherweise mit Hilfe der Inversionsmethode erzeugt. Diese Methode bietet sich bei der geometrischen Verteilung besonders an, da die Einzelwahrscheinlichkeiten der einfachen Rekursion P ( X = k + 1 ) = ( 1 p ) P ( X = k ) {\displaystyle \operatorname {P} (X=k+1)=(1-p)\operatorname {P} (X=k)} genügen. Die Inversionsmethode ist hier also nur mit rationalen Operationen (Addition, Multiplikation) und ohne die Verteilungsfunktion vorher zu berechnen und abzuspeichern durchführbar, was einen schnellen Algorithmus zur Simulation garantiert.

Diskrete univariate Verteilungen

Diskrete univariate Verteilungen für endliche Mengen:
Benford | Bernoulli | beta-binomial | binomial | Dirac | diskret uniform | empirisch | hypergeometrisch | kategorial | negativ hypergeometrisch | Rademacher | verallgemeinert binomial | Zipf | Zipf-Mandelbrot | Zweipunkt

Diskrete univariate Verteilungen für unendliche Mengen:
Boltzmann | Conway-Maxwell-Poisson | discrete-Phase-Type | erweitert negativ binomial | Gauss-Kuzmin | gemischt Poisson | geometrisch | logarithmisch | negativ binomial | parabolisch-fraktal | Poisson | Skellam | verallgemeinert Poisson | Yule-Simon | Zeta

Kontinuierliche univariate Verteilungen

Kontinuierliche univariate Verteilungen mit kompaktem Intervall:
Beta | Cantor | Kumaraswamy | raised Cosine | Dreieck | Trapez | U-quadratisch | stetig uniform | Wigner-Halbkreis

Kontinuierliche univariate Verteilungen mit halboffenem Intervall:
Beta prime | Bose-Einstein | Burr | Chi | Chi-Quadrat | Coxian | Erlang | Exponential | Extremwert | F | Fermi-Dirac | Folded normal | Fréchet | Gamma | Gamma-Gamma | verallgemeinert invers Gauß | halblogistisch | halbnormal | Hartman-Watson | Hotellings T-Quadrat | hyper-exponentiale | hypoexponential | invers Chi-Quadrat | scale-invers Chi-Quadrat | Invers Normal | Invers Gamma | Kolmogorow-Verteilung | Lévy | log-normal | log-logistisch | Maxwell-Boltzmann | Maxwell-Speed | Nakagami | nichtzentriert Chi-Quadrat | Pareto | Phase-Type | Rayleigh | relativistisch Breit-Wigner | Rice | Rosin-Rammler | shifted Gompertz | truncated normal | Type-2-Gumbel | Weibull | Wilks’ Lambda

Kontinuierliche univariate Verteilungen mit unbeschränktem Intervall:
Cauchy | Extremwert | exponential Power | Fishers z | Fisher-Tippett (Gumbel) | generalized hyperbolic | Hyperbolic-secant | Landau | Laplace | alpha-stabil | logistisch | normal (Gauß) | normal-invers Gauß’sch | Skew-normal | Studentsche t | Type-1-Gumbel | Variance-Gamma | Voigt

Multivariate Verteilungen

Diskrete multivariate Verteilungen:
Dirichlet compound multinomial | Ewens | gemischt Multinomial | multinomial | multivariat hypergeometrisch | multivariat Poisson | negativmultinomial | Pólya/Eggenberger | polyhypergeometrisch

Kontinuierliche multivariate Verteilungen:
Dirichlet | GEM | generalized Dirichlet | multivariat normal | multivariat Student | normalskaliert invers Gamma | Normal-Gamma | Poisson-Dirichlet

Multivariate Matrixverteilungen:
Gleichverteilung auf der Stiefel-Mannigfaltigkeit | Invers Wishart | Matrix Beta | Matrix Gamma | Matrix invers Beta | Matrix invers Gamma | Matrix Normal | Matrix Student-t | Matrix-Von-Mises-Fisher-Verteilung | Normal-invers-Wishart | Normal-Wishart | Wishart

Normdaten (Sachbegriff): GND: 4507247-4 (lobid, OGND, AKS)