Wahrscheinlichkeitsfunktion

Wahrscheinlichkeitsfunktion eines fairen Würfels. Alle Augenzahlen haben die gleiche Wahrscheinlichkeit 1/6.

Eine Wahrscheinlichkeitsfunktion, auch Zähldichte genannt,[1] ist eine spezielle reellwertige Funktion in der Stochastik. Wahrscheinlichkeitsfunktionen werden zur Konstruktion und Untersuchung von Wahrscheinlichkeitsverteilungen, genauer diskreten Wahrscheinlichkeitsverteilungen verwendet. Dabei kann jeder diskreten Wahrscheinlichkeitsverteilung eine eindeutige Wahrscheinlichkeitsfunktion zugeordnet werden. Umgekehrt definiert jede Wahrscheinlichkeitsfunktion eine eindeutig bestimmte diskrete Wahrscheinlichkeitsverteilung.

In den meisten Fällen werden Wahrscheinlichkeitsfunktionen auf den natürlichen Zahlen definiert. Sie ordnen dann jeder Zahl die Wahrscheinlichkeit zu, dass diese Zahl auftritt. So würde bei der Modellierung eines fairen Würfels die Wahrscheinlichkeitsfunktion den Zahlen von eins bis sechs jeweils den Wert 1 6 {\displaystyle {\tfrac {1}{6}}} zuordnen und allen anderen die Null.

Aus der Sicht der Maßtheorie handelt es sich bei Wahrscheinlichkeitsfunktionen um spezielle Dichtefunktionen (im Sinne der Maßtheorie) bezüglich des Zählmaßes. Diese werden im allgemeineren Kontext auch Gewichtsfunktionen genannt.[2]

Definition

Definition Wahrscheinlichkeitsfunktion: Für eine diskrete Zufallsvariable X {\displaystyle X} ist die Wahrscheinlichkeitsfunktion f ( x ) {\displaystyle f(x)} für x R {\displaystyle x\in \mathbb {R} } definiert durch

f ( x ) = { P ( X = x i ) = p i , x = x i { x 1 , x 2 , , x k } 0 ,  sonst. {\displaystyle f(x)={\begin{cases}P(X=x_{i})=p_{i},&x=x_{i}\in \{x_{1},x_{2},\dots ,x_{k}\dots \}\\0,&{\text{ sonst.}}\end{cases}}}

Zur Konstruktion einer Wahrscheinlichkeitsverteilung

Gegeben sei ein Wahrscheinlichkeitsraum ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},{\mathbb {P} })} sowie eine Funktion f : N 0 R {\displaystyle f\colon \mathbb {N} _{0}\to \mathbb {R} } mit folgenden Eigenschaften:

  1. f ( i ) [ 0 , 1 ] {\displaystyle f(i)\in [0,1]} i N 0 {\displaystyle \forall i\in \mathbb {N} _{0}} sodass f : Ω [ 0 , 1 ] R {\displaystyle f\colon \Omega \to [0,1]\subset \mathbb {R} }
  2. i N 0 f ( i ) = 1 {\displaystyle \sum _{i\in \mathbb {N_{0}} }f(i)=1}

Die Funktion f {\displaystyle f} ordnet also jeder natürlichen Zahl eine reelle Zahl zwischen null und eins zu und ist normiert in dem Sinne, dass sich die Funktionswerte zu eins aufsummieren.

Dann heißt f {\displaystyle f} eine Wahrscheinlichkeitsfunktion und definiert durch

P ( I Ω ) = P ( { i Ω } A ) := i Ω f ( i ) {\displaystyle {P}({I}\subset \Omega )={P}(\{{i}\in \Omega \}\subset {\mathcal {A}}):=\sum _{i\in \mathbb {\Omega } }f(i)}

eine eindeutig bestimmte Wahrscheinlichkeitsverteilung P {\displaystyle {P}} auf den natürlichen Zahlen N 0 {\displaystyle \mathbb {N} _{0}} , versehen mit der Potenzmenge P ( N 0 ) {\displaystyle {\mathcal {P}}(\mathbb {N} _{0})} als der Sigma-Algebra A {\displaystyle {\mathcal {A}}} (Ereignissystem).

Insbesondere gilt aufgrund der Sigma-Additivität des Wahrscheinlichkeitsmaßes P {\displaystyle \mathbb {P} } :

P ( m = 1 n A m ) = m = 1 n P ( A m ) P ( I Ω ) = P ( { i 1 , i 2 , . . . , i n } ) = m = 1 n f ( i m ) {\displaystyle \mathbb {P} (\bigcup _{m=1}^{n}A_{m})=\sum _{m=1}^{n}\mathbb {P} (A_{m})\Longleftrightarrow {P}({I}\subset \Omega )={P}(\{i_{1},i_{2},...,i_{n}\})=\sum _{m=1}^{n}f(i_{m})}

Aus f ( i ) = P ( X = i ) {\displaystyle f(i)=P(X=i)} folgt des Weiteren:

m = 1 n f ( i m ) = m = 1 n P ( X = i m ) {\displaystyle \sum _{m=1}^{n}f(i_{m})=\sum _{m=1}^{n}P(X=i_{m})}

Es ist hierbei zu beachten, dass P {\displaystyle {P}} als Wahrscheinlichkeitsverteilung lediglich Mengen aus Ω {\displaystyle \Omega } als Argumente zulässt, während die Argumente der Wahrscheinlichkeitsfunktion stets durch einzelne natürliche Zahlen als Elemente von Ω {\displaystyle \Omega } dargestellt werden. Das Wahrscheinlichkeitsmaß P {\displaystyle \mathbb {P} } hingegen ist definiert als die Abbildung:

P : A [ 0 , 1 ] R {\displaystyle \mathbb {P} \colon {\mathcal {A}}\to [0,1]\subset \mathbb {R} }

Aus Wahrscheinlichkeitsverteilungen abgeleitet

Gegeben sei eine Wahrscheinlichkeitsverteilung P {\displaystyle P} auf den natürlichen Zahlen N 0 {\displaystyle \mathbb {N} _{0}} , versehen mit P ( N 0 ) {\displaystyle {\mathcal {P}}(\mathbb {N} _{0})} , und sei X {\displaystyle X} eine Zufallsvariable mit Werten in N 0 {\displaystyle \mathbb {N} _{0}} . Dann heißt

f P : N 0 R {\displaystyle f_{P}\colon \mathbb {N} _{0}\to \mathbb {R} }

definiert durch

f P ( i ) := P ( { i } ) {\displaystyle f_{P}(i):=P(\{i\})}

die Wahrscheinlichkeitsfunktion von P {\displaystyle \mathbb {P} } . Analog heißt

f X : N 0 R {\displaystyle f_{X}\colon \mathbb {N} _{0}\to \mathbb {R} }

definiert durch

f X ( i ) := P ( X = i ) {\displaystyle f_{X}(i):=P(X=i)}

die Wahrscheinlichkeitsfunktion von X {\displaystyle X}

Beispiele

Eine typische Wahrscheinlichkeitsfunktion ist

f n , p ( k ) = { ( n k ) p k ( 1 p ) n k  für  k { 0 , 1 , , n } 0  sonst {\displaystyle f_{n,p}(k)={\begin{cases}{\binom {n}{k}}p^{k}(1-p)^{n-k}&{\text{ für }}k\in \{0,1,\dots ,n\}\\0&{\text{ sonst}}\end{cases}}}

für eine natürliche Zahl n {\displaystyle n} und eine reelle Zahl p ( 0 , 1 ) {\displaystyle p\in (0,1)} . Die Normiertheit folgt hier direkt aus dem binomischen Lehrsatz, denn es ist

k = 0 f n , p ( k ) = k = 0 n ( n k ) p k ( 1 p ) n k = ( ( 1 p ) + p ) n = 1 {\displaystyle \sum _{k=0}^{\infty }f_{n,p}(k)=\sum _{k=0}^{n}{\binom {n}{k}}p^{k}(1-p)^{n-k}=((1-p)+p)^{n}=1} .

Die so erzeugte Wahrscheinlichkeitsverteilung ist die Binomialverteilung.

Eine weitere klassische Wahrscheinlichkeitsfunktion ist

f p ( k ) = p ( 1 p ) k {\displaystyle f_{p}(k)=p(1-p)^{k}} für k { 0 , 1 , 2 , } {\displaystyle k\in \{0,1,2,\dots \}}

und ein p ( 0 , 1 ) {\displaystyle p\in (0,1)} . Hier folgt die Normiertheit aus der geometrischen Reihe, denn es ist

k = 0 f p ( k ) = p k = 0 ( 1 p ) k = p 1 ( 1 p ) = 1 {\displaystyle \sum _{k=0}^{\infty }f_{p}(k)=p\sum _{k=0}^{\infty }(1-p)^{k}={\frac {p}{1-(1-p)}}=1} .

Die so erzeugte Wahrscheinlichkeitsverteilung ist die Geometrische Verteilung.

Allgemeine Definition

Die Definition lässt sich von den natürlichen Zahlen auf beliebige höchstens abzählbare Mengen ausweiten. Ist Ω {\displaystyle \Omega } solch eine Menge und ist

f : Ω [ 0 , 1 ] {\displaystyle f\colon \Omega \to [0,1]}

mit

i Ω f ( i ) = 1 {\displaystyle \sum _{i\in \Omega }f(i)=1} ,

so definiert f {\displaystyle f} durch

P ( { i } ) := f ( i ) {\displaystyle P(\{i\}):=f(i)} für alle i Ω {\displaystyle i\in \Omega }

eine eindeutig bestimmte Wahrscheinlichkeitsverteilung auf ( Ω , P ( Ω ) ) {\displaystyle (\Omega ,{\mathcal {P}}(\Omega ))} .[3] Ist umgekehrt P {\displaystyle P} eine Wahrscheinlichkeitsverteilung auf ( Ω , P ( Ω ) ) {\displaystyle (\Omega ,{\mathcal {P}}(\Omega ))} und X {\displaystyle X} eine Zufallsvariable mit Werten in Ω {\displaystyle \Omega } , so heißen

f P : Ω [ 0 , 1 ] {\displaystyle f_{P}\colon \Omega \to [0,1]} definiert durch f P ( i ) := P ( { i } ) {\displaystyle f_{P}(i):=P(\{i\})}

und

f X : Ω [ 0 , 1 ] {\displaystyle f_{X}\colon \Omega \to [0,1]} definiert durch f X ( i ) := P ( X = i ) {\displaystyle f_{X}(i):=P(X=i)}

die Wahrscheinlichkeitsfunktion von P {\displaystyle P} beziehungsweise X {\displaystyle X} .[4]

Alternative Definition

Manche Autoren definieren zuerst reelle Folgen ( p i ) i Ω {\displaystyle (p_{i})_{i\in \Omega }} mit p i [ 0 , 1 ] {\displaystyle p_{i}\in [0,1]} für alle i Ω {\displaystyle i\in \Omega } und

i Ω p i = 1 {\displaystyle \sum _{i\in \Omega }p_{i}=1}

und nennen diese Folgen Wahrscheinlichkeitsvektoren[5] oder stochastische Folgen[6][7].

Eine Wahrscheinlichkeitsfunktion wird dann definiert als

f : Ω [ 0 , 1 ] {\displaystyle f\colon \Omega \to [0,1]}

gegeben durch

f ( i ) = p i {\displaystyle f(i)=p_{i}} für alle i Ω {\displaystyle i\in \Omega }

Umgekehrt definiert dann jede Wahrscheinlichkeitsverteilung oder Zufallsvariable auf Ω {\displaystyle \Omega } auch eine stochastische Folge/Wahrscheinlichkeitsvektor über ( P ( { i } ) ) i Ω {\displaystyle (P(\{i\}))_{i\in \Omega }} beziehungsweise ( P ( X = i ) ) i Ω {\displaystyle (P(X=i))_{i\in \Omega }}

Andere Autoren nennen bereits die Folge ( p i ) i Ω {\displaystyle (p_{i})_{i\in \Omega }} eine Zähldichte.[8]

Weitere Beispiele

Typisches Beispiel für Wahrscheinlichkeitsfunktionen auf beliebigen Mengen ist die diskrete Gleichverteilung auf einer endlichen Menge Ω {\displaystyle \Omega } . Sie besitzt dann per Definition die Wahrscheinlichkeitsfunktion

f ( i ) = 1 | Ω | {\displaystyle f(i)={\tfrac {1}{|\Omega |}}} für alle i Ω {\displaystyle i\in \Omega } .

Der Zugang über die stochastischen Folgen erlaubt die folgende Konstruktion von Wahrscheinlichkeitsfunktionen: Ist eine beliebige (höchstens abzählbare) Folge von positiven reellen Zahlen ( a i ) i Ω {\displaystyle (a_{i})_{i\in \Omega }} mit Indexmenge Ω {\displaystyle \Omega } gegeben, für die

i Ω a i < {\displaystyle \sum _{i\in \Omega }a_{i}<\infty }

gilt, so definiert man

c = i Ω a i {\displaystyle c=\sum _{i\in \Omega }a_{i}} .

Dann ist ( a i c ) i Ω {\displaystyle ({\tfrac {a_{i}}{c}})_{i\in \Omega }} eine stochastische Folge und definiert damit auch eine Wahrscheinlichkeitsfunktion. Betrachtet man zum Beispiel die Folge

a k := λ k k ! {\displaystyle a_{k}:={\frac {\lambda ^{k}}{k!}}} für k N {\displaystyle k\in \mathbb {N} } ,

so ist

k = 0 λ k k ! = e λ {\displaystyle \sum _{k=0}^{\infty }{\frac {\lambda ^{k}}{k!}}=e^{\lambda }} .

Somit ist die Normierungskonstante c = e λ {\displaystyle c=e^{\lambda }} und als Wahrscheinlichkeitsfunktion ergibt sich

f ( k ) = e λ λ k k ! {\displaystyle f(k)=e^{-\lambda }{\frac {\lambda ^{k}}{k!}}} .

Dies ist die Wahrscheinlichkeitsfunktion der Poisson-Verteilung.

Bestimmung von Kennzahlen durch Wahrscheinlichkeitsfunktionen

Viele der wichtigen Kennzahlen von Zufallsvariablen und Wahrscheinlichkeitsverteilungen lassen sich bei Existenz der Wahrscheinlichkeitsfunktion direkt aus dieser herleiten.

Erwartungswert

Ist X {\displaystyle X} eine Zufallsvariable mit Werten in N {\displaystyle \mathbb {N} } und Wahrscheinlichkeitsfunktion f X {\displaystyle f_{X}} , so ist der Erwartungswert gegeben durch

E ( X ) = k = 0 k f X ( k ) {\displaystyle \operatorname {\mathbb {E} } (X)=\sum _{k=0}^{\infty }k\cdot f_{X}(k)} .

Er existiert immer, kann aber auch unendlich sein. Ist allgemeiner Ω R {\displaystyle \Omega \subset \mathbb {R} } eine höchstens abzählbare Teilmenge der reellen Zahlen und X {\displaystyle X} eine Zufallsvariable mit Werten in Ω {\displaystyle \Omega } und Wahrscheinlichkeitsfunktion f X {\displaystyle f_{X}} so ist der Erwartungswert gegeben durch

E ( X ) = k Ω k f X ( k ) {\displaystyle \operatorname {\mathbb {E} } (X)=\sum _{k\in \Omega }k\cdot f_{X}(k)}

falls die Summe existiert.

Varianz

Analog zum Erwartungswert lässt sich auch die Varianz direkt aus der Wahrscheinlichkeitsfunktion herleiten. Sei dazu

E ( X ) = μ {\displaystyle \operatorname {\mathbb {E} } (X)=\mu }

der Erwartungswert. Ist dann X {\displaystyle X} eine Zufallsvariable mit Werten in N {\displaystyle \mathbb {N} } und Wahrscheinlichkeitsfunktion f X {\displaystyle f_{X}} , so ist die Varianz gegeben durch

Var ( X ) = k = 0 ( k μ ) 2 f X ( k ) {\displaystyle \operatorname {Var} (X)=\sum _{k=0}^{\infty }(k-\mu )^{2}f_{X}(k)}

oder aufgrund des Verschiebungssatzes äquivalent dazu

Var ( X ) = μ 2 + k = 0 k 2 f X ( k ) {\displaystyle \operatorname {Var} (X)=-\mu ^{2}+\sum _{k=0}^{\infty }k^{2}f_{X}(k)}

Entsprechend gilt im allgemeineren Fall einer Zufallsvariable mit Werten in Ω {\displaystyle \Omega } (vgl. oben), dass

Var ( X ) = k Ω ( k μ ) 2 f X ( k ) {\displaystyle \operatorname {Var} (X)=\sum _{k\in \Omega }(k-\mu )^{2}f_{X}(k)}

Auch hier gelten alle Aussagen nur, wenn die entsprechenden Summen existieren.

Modus

Für diskrete Wahrscheinlichkeitsverteilungen wird der Modus direkt über die Wahrscheinlichkeitsfunktion definiert: Ist X {\displaystyle X} eine Zufallsvariable mit Werten in N {\displaystyle \mathbb {N} } und Wahrscheinlichkeitsfunktion f {\displaystyle f} oder ist P {\displaystyle P} eine Wahrscheinlichkeitsverteilung auf N {\displaystyle \mathbb {N} } mit Wahrscheinlichkeitsfunktion f {\displaystyle f} , so heißt k mod {\displaystyle k_{\text{mod}}} ein Modus oder Modalwert von X {\displaystyle X} oder P {\displaystyle P} , wenn

f ( k 1 ) f ( k mod ) f ( k + 1 ) {\displaystyle f(k-1)\leq f(k_{\text{mod}})\geq f(k+1)}

ist. Ist etwas allgemeiner eine höchstens abzählbare Menge Ω {\displaystyle \Omega } gegeben, deren Elemente x k {\displaystyle x_{k}} in aufsteigender Ordnung sortiert sind, das heißt < x k 1 < x k < x k + 1 < {\displaystyle \dots <x_{k-1}<x_{k}<x_{k+1}<\dots } , so heißt ein x k {\displaystyle x_{k}} ein Modus oder Modalwert, wenn

f ( x k 1 ) f ( x k ) f ( x k + 1 ) {\displaystyle f(x_{k-1})\leq f(x_{k})\geq f(x_{k+1})}

gilt.[9]

Eigenschaften und aufbauende Begriffe

Verteilungsfunktionen und Wahrscheinlichkeitsfunktionen

Verteilungsfunktion eines Wahrscheinlichkeitsmaßes, das sich über eine Wahrscheinlichkeitsfunktion definieren lässt. Charakteristischerweise hat die Verteilungsfunktion an der Stelle i {\displaystyle i} einen Sprung um f ( i ) = P ( { i } ) {\displaystyle f(i)=P(\{i\})} nach oben.

Ist f {\displaystyle f} eine Wahrscheinlichkeitsfunktion auf N {\displaystyle \mathbb {N} } , so ist die Verteilungsfunktion des entsprechenden Wahrscheinlichkeitsmaßes gegeben als

F P ( x ) = i = 0 x f ( i ) {\displaystyle F_{P}(x)=\sum _{i=0}^{\lfloor x\rfloor }f(i)} .

Dabei bezeichnet {\displaystyle \lfloor \cdot \rfloor } die Abrundungsfunktion, das heißt x {\displaystyle \lfloor x\rfloor } ist größte ganze Zahl, die kleiner oder gleich x {\displaystyle x} ist.

Ist f {\displaystyle f} auf einer höchstens abzählbaren Teilmenge der reellen Zahlen definiert, also auf A R {\displaystyle A\subset \mathbb {R} } , so ist die Verteilungsfunktion des Wahrscheinlichkeitsmaßes definiert durch

F P ( x ) = i x f ( i ) {\displaystyle F_{P}(x)=\sum _{i\leq x}f(i)} .

Beispiel hierfür ist A = Z {\displaystyle A=\mathbb {Z} } .

Faltung und Summe von Zufallsvariablen

Für Wahrscheinlichkeitsverteilungen mit Wahrscheinlichkeitsfunktionen kann die Faltung (von Wahrscheinlichkeitsverteilungen) auf die Faltung (von Funktionen) der entsprechenden Wahrscheinlichkeitsfunktionen zurückgeführt werden. Sind P , Q {\displaystyle P,Q} Wahrscheinlichkeitsverteilungen mit Wahrscheinlichkeitsfunktionen f P {\displaystyle f_{P}} und f Q {\displaystyle f_{Q}} , so ist

f P Q = f P f Q {\displaystyle f_{P*Q}=f_{P}*f_{Q}} .

Hierbei bezeichnet P Q {\displaystyle P*Q} die Faltung von P {\displaystyle P} und Q {\displaystyle Q} und f g {\displaystyle f*g} die Faltung der Funktionen f {\displaystyle f} und g {\displaystyle g} . Die Wahrscheinlichkeitsfunktion der Faltung zweier Wahrscheinlichkeitsverteilungen ist somit genau die Faltung der Wahrscheinlichkeitsfunktionen der Wahrscheinlichkeitsverteilungen.

Diese Eigenschaft überträgt sich direkt auf die Summe von stochastisch unabhängigen Zufallsvariablen. Sind zwei stochastisch unabhängige Zufallsvariablen X , Y {\displaystyle X,Y} mit Wahrscheinlichkeitsfunktionen f X {\displaystyle f_{X}} und f Y {\displaystyle f_{Y}} gegeben, so ist

f X + Y = f X f Y {\displaystyle f_{X+Y}=f_{X}*f_{Y}} .

Die Wahrscheinlichkeitsfunktion der Summe ist somit die Faltung der Wahrscheinlichkeitsfunktionen der einzelnen Zufallsvariablen.

Wahrscheinlichkeitserzeugende Funktion

Auf N {\displaystyle \mathbb {N} } lässt sich jeder Wahrscheinlichkeitsverteilung eine wahrscheinlichkeitserzeugende Funktion zuordnen. Dies ist ein Polynom oder eine Potenzreihe mit der Wahrscheinlichkeitsfunktion als Koeffizienten. Sie ist somit definiert als

m P ( t ) = k = 0 f P ( k ) t k {\displaystyle m_{P}(t)=\sum _{k=0}^{\infty }f_{P}(k)t^{k}}

für die Wahrscheinlichkeitsfunktion f P {\displaystyle f_{P}} einer Wahrscheinlichkeitsverteilung P {\displaystyle P} . Die wahrscheinlichkeitserzeugende Funktion einer Zufallsvariable wird analog definiert.

Wahrscheinlichkeitserzeugende Funktionen erleichtern die Untersuchung von und das Rechnen mit Wahrscheinlichkeitsverteilungen. So ist beispielsweise die wahrscheinlichkeitserzeugende Funktion der Faltung zweier Wahrscheinlichkeitsverteilungen genau das Produkt der wahrscheinlichkeitserzeugenden Funktionen der einzelnen Wahrscheinlichkeitsverteilungen. Ebenso finden sich wichtige Kennzahlen wie der Erwartungswert und die Varianz in den Ableitungen der wahrscheinlichkeitserzeugenden Funktionen wieder.

Literatur

  • Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, doi:10.1515/9783110215274. 
  • Achim Klenke: Wahrscheinlichkeitstheorie. 3. Auflage. Springer-Verlag, Berlin Heidelberg 2013, ISBN 978-3-642-36017-6, doi:10.1007/978-3-642-36018-3. 
  • David Meintrup, Stefan Schäffler: Stochastik. Theorie und Anwendungen. Springer-Verlag, Berlin Heidelberg New York 2005, ISBN 978-3-540-21676-6, doi:10.1007/b137972. 
  • Klaus D. Schmidt: Maß und Wahrscheinlichkeit. 2., durchgesehene Auflage. Springer-Verlag, Heidelberg Dordrecht London New York 2011, ISBN 978-3-642-21025-9, doi:10.1007/978-3-642-21026-6. 
  • Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, doi:10.1007/978-3-642-17261-8. 
  • Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Für Studium, Berufspraxis und Lehramt. 8. Auflage. Vieweg, Wiesbaden 2005, ISBN 3-8348-0063-5, doi:10.1007/978-3-663-09885-0. 

Einzelnachweise

  1. Georgii: Stochastik. 2009, S. 18.
  2. Klenke: Wahrscheinlichkeitstheorie. 2013, S. 13.
  3. Schmidt: Maß- und Wahrscheinlichkeit. 2011, S. 196.
  4. Czado, Schmidt: Mathematische Statistik. 2011, S. 4.
  5. Klenke: Wahrscheinlichkeitstheorie. 2013, S. 13.
  6. Meintrup, Schäffler: Stochastik. 2005, S. 63.
  7. Schmidt: Maß- und Wahrscheinlichkeit. 2011, S. 234.
  8. Georgii: Stochastik. 2009, S. 18.
  9. A.V. Prokhorov: Mode. In: Michiel Hazewinkel (Hrsg.): Encyclopedia of Mathematics. Springer-Verlag und EMS Press, Berlin 2002, ISBN 1-55608-010-7 (englisch, encyclopediaofmath.org).