Betrouwbaarheidsinterval

Een betrouwbaarheidsinterval is in de statistiek een intervalschatting voor een parameter. In tegenstelling tot een puntschatting geeft een betrouwbaarheidsinterval een heel interval van betrouwbare waarden (schattingen) van de parameter. Een betrouwbaarheidsinterval is een realisatie van een stochastisch interval, dat overigens zelf ook met betrouwbaarheidsinterval wordt aangeduid. De ondergrens en de bovengrens van het stochastische interval zijn stochastische variabelen, die dus bij elke herhaling van het experiment een (mogelijk) andere waarde aannemen. De te schatten parameter daarentegen heeft een, weliswaar onbekende, maar vaste waarde. Van alle realisaties van het interval zullen sommige de parameter wel bevatten, maar sommige ook niet. Hoe groter de betrouwbaarheid, hoe "vaker" het interval de parameter bevat. De kans dat een waargenomen interval de parameter bevat, heet de betrouwbaarheid van het interval. De onder- en de bovengrens worden berekend uit de steekproefgegevens, en wel zo dat er een sterk vermoeden is dat de echte waarde van de populatieparameter zich ertussen bevindt.

Definitie

De stochastische variabelen X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} vormen een steekproef uit een verdeling met onbekende parameter θ {\displaystyle \theta } . Als voor de steekproeffuncties U {\displaystyle U} en V {\displaystyle V} geldt:

P ( U < θ < V ) = γ {\displaystyle P(U<\theta <V)=\gamma } ,

heet het (stochastische) interval ( U , V ) {\displaystyle (U,V)} een betrouwbaarheidsinterval voor θ {\displaystyle \theta } met betrouwbaarheid γ {\displaystyle \gamma } of een γ {\displaystyle \gamma } -betrouwbaarheidsinterval. Hierin is de parameter θ {\displaystyle \theta } zelf geen stochastische variabele. Voor de realisaties u {\displaystyle u} en v {\displaystyle v} van respectievelijk U {\displaystyle U} en V {\displaystyle V} geldt dezelfde kansuitspraak uiteraard niet. Men zegt:

"met betrouwbaarheid γ {\displaystyle \gamma } geldt: u < θ < v {\displaystyle u<\theta <v} ".

Als de grenzen van het betrouwbaarheidsinterval uit de steekproef kunnen worden berekend, zijn het dus steekproeffuncties en daarom zelf ook stochastische variabelen.

Interpretatie

Wat betekent een uitspraak: "met betrouwbaarheid 95% ligt de parameter in het waargenomen interval ( u , v ) {\displaystyle (u,v)} "?

Gezien de definitie houdt dit in dat in 95% van de keren dat het interval op dezelfde manier wordt waargenomen, de parameter in het gevonden interval ligt. De parameter heeft steeds dezelfde onbekende waarde, maar iedere keer wordt een (meestal) ander interval waargenomen. In een grote serie waargenomen intervallen zullen van de intervallen ruwweg 95% de parameterwaarde bevatten.

Of het gevonden betrouwbaarheidsinterval de parameter bevat, blijft in het algemeen onbekend. De parameter ligt er wel of ligt er niet in. Het is dus foutief te zeggen dat met kans 95% de parameter in het gevonden interval ligt.

Voorbeelden

Voorbeeld 1: Verkiezingen

Om een beeld te krijgen van de opkomst bij de naderende verkiezingen, is een enquête onder 1000 aselect gekozen stemgerechtigden gehouden. Van deze steekproef zeiden 700 ondervraagden te zullen gaan stemmen. Het opkomstpercentage is natuurlijk een nog onbekende parameter p {\displaystyle p} . Een voor de hand liggende (punt)schatting van p {\displaystyle p} is: 0,70. Maar het kan ook wat meer of minder zijn. Mogelijk 0,75 of 0,60. Is het aannemelijk dat het 0,50 zou zijn? Om deze vraag te beantwoorden zoekt men een interval [ p onder , p boven ] {\displaystyle [p_{\text{onder}},p_{\text{boven}}]} , waarvan met een zekere mate van betrouwbaarheid gezegd kan worden dat p {\displaystyle p} daarin zal liggen. Met 100%-betrouwbaarheid kan men zeggen dat p {\displaystyle p} tussen 0 en 1 zal liggen, maar dat geeft geen informatie. Maar wat is de betrouwbaarheid van het interval [0,65; 0,75]? En hoe moeten de grenzen worden gekozen, als een betrouwbaarheid van 95% gewenst is?

Noem X {\displaystyle X} het aantal stemgerechtigden die zeggen te gaan stemmen. X {\displaystyle X} is een stochastische variabele met een binomiale verdeling met parameters n = 1000 {\displaystyle n=1000} en kans p {\displaystyle p} dat iemand gaat stemmen. Voor de steekproeffuncties:

U = p ^ 2 p ^ ( 1 p ^ ) 1000 {\displaystyle U={\hat {p}}-2{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{1000}}}}

en

V = p ^ + 2 p ^ ( 1 p ^ ) 1000 {\displaystyle V={\hat {p}}+2{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{1000}}}} ,

waarin p ^ = X / 1000 {\displaystyle {\hat {p}}=X/1000} de steekproeffractie is, geldt:

P ( U < p < V ) 0 , 95 {\displaystyle P(U<p<V)\approx 0{,}95}

Het interval ( U , V ) {\displaystyle (U,V)} is dus een 0,95-betrouwbaarheidsinterval voor p {\displaystyle p} . Omdat voor X {\displaystyle X} de waarde 700 gevonden is, kunnen de realisaties u {\displaystyle u} en v {\displaystyle v} van respectievelijk U {\displaystyle U} en V {\displaystyle V} berekend worden:

u = 0 , 70 2 0 , 70 ( 1 0 , 70 ) 1000 = 0 , 70 0 , 03 = 0 , 67 {\displaystyle u=0{,}70-2{\sqrt {\frac {{0{,}70}(1-0{,}70)}{1000}}}=0{,}70-0{,}03=0{,}67}

en

v = 0 , 70 + 2 0 , 70 ( 1 0 , 70 ) 1000 = 0 , 70 + 0 , 03 = 0 , 73 {\displaystyle v=0{,}70+2{\sqrt {\frac {{0{,}70}(1-0{,}70)}{1000}}}=0{,}70+0{,}03=0{,}73}

Men zegt daarom dat met betrouwbaarheid (let wel: niet met kans) 0,95 geldt dat 0 , 67 < p < 0 , 73 {\displaystyle 0{,}67<p<0{,}73} .

Voorbeeld 2: Kuipjes vullen

Een machine vult kuipjes margarine en is zo ingesteld dat in elk kuipje 250 gram margarine moet komen. Natuurlijk is het niet mogelijk om ieder kuipje met precies 250 gram te vullen. Het vulgewicht is een stochastische variabele X {\displaystyle X} , waarvan wordt aangenomen dat die een normale verdeling heeft met verwachting μ {\displaystyle \mu } en, voor de eenvoud, bekende standaardafwijking σ = 2 , 5 {\displaystyle \sigma =2{,}5} gram. Om de afstelling van de machine te controleren neemt men een steekproef van n = 25 {\displaystyle n=25} aselect gekozen kuipjes en weegt die. De gewichten aan margarine zijn X 1 , , X 25 {\displaystyle X_{1},\ldots ,X_{25}} , een aselecte steekproef van X {\displaystyle X} .

Om alleen maar een indruk te krijgen van de verwachting μ {\displaystyle \mu } , is het voldoende een schatting te geven. Het steekproefgemiddelde

μ ^ = X ¯ = 1 n i = 1 n X i {\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}}

is daarvoor geschikt. Maar kunnen er ook grenzen bepaald worden waartussen de parameter μ {\displaystyle \mu } met een zekere waarschijnlijkheid ligt? Is er een betrouwbaarheidsinterval voor μ {\displaystyle \mu } ?

De gewichten x 1 , , x 25 {\displaystyle x_{1},\ldots ,x_{25}} , die in de steekproef zijn gemeten, hebben een gemiddelde van:

x ¯ = 1 n i = 1 n x i = 250 , 2 {\displaystyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}=250{,}2} gram.

Dat is een min of meer toevallige waarde. Het had ook 250,4 of 251,1 gram kunnen zijn. Een waarde van 280 gram is daarentegen weer onwaarschijnlijk. Er is een heel interval rond het waargenomen gemiddelde van 250,2 met schattingen die ook betrouwbaar zijn, dat wil zeggen waarvan tamelijk zeker is dat de parameter in dat interval ligt. Tamelijk zeker, want absoluut zeker is alleen het interval (0,∞), maar dat is triviaal.

In ons geval kunnen de grenzen bepaald worden door te bedenken dat het steekproefgemiddelde X ¯ {\displaystyle {\bar {X}}} van een normaal verdeelde steekproef, zelf ook normaal verdeeld is, met dezelfde verwachting μ {\displaystyle \mu } , maar met standaardafwijking σ / n = 0 , 5 {\displaystyle \sigma /{\sqrt {n}}=0{,}5} gram. Het gestandaardiseerde gemiddelde is:

Z = X ¯ μ σ / n = X ¯ μ 0 , 5 {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0{,}5}}} ,

dat zelf van μ {\displaystyle \mu } afhangt, maar standaardnormaal is verdeeld, dus met een verdeling onafhankelijk van de te schatten parameter μ {\displaystyle \mu } . Er is daarom een getal z {\displaystyle z} , onafhankelijk van μ {\displaystyle \mu } , zodanig dat het gestandaardiseerde gemiddelde Z {\displaystyle Z} met een voorgeschreven kans 1 α {\displaystyle 1-\alpha } tussen z {\displaystyle -z} en z {\displaystyle z} ligt. De betrouwbaarheid 1 α {\displaystyle 1-\alpha } geeft aan hoe betrouwbaar het interval gevonden wordt. Voor de keuze 1 α = 0 , 95 {\displaystyle 1-\alpha =0{,}95} krijgt men:

P ( z Z z ) = 1 α = 0 , 95 {\displaystyle P(-z\leq Z\leq z)=1-\alpha =0{,}95}

Het getal z {\displaystyle z} volgt uit:

P ( Z z ) = 1 α 2 = 0,975 {\displaystyle P(Z\leq z)=1-{\frac {\alpha }{2}}=0{,}975} ,

dus z = 1 , 96 {\displaystyle z=1{,}96} , en er geldt:

0 , 95 = 1 α = P ( z Z z ) = P ( 1 , 96 X ¯ μ σ / n 1 , 96 ) = {\displaystyle 0{,}95=1-\alpha =P(-z\leq Z\leq z)=P\left(-1{,}96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1{,}96\right)=}
= P ( X ¯ 1 , 96 σ n μ X ¯ + 1 , 96 σ n ) = {\displaystyle =P\left({\bar {X}}-1{,}96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1{,}96{\frac {\sigma }{\sqrt {n}}}\right)=}
= P ( X ¯ 1 , 96 × 0 , 5 μ X ¯ + 1 , 96 × 0 , 5 ) = {\displaystyle =P\left({\bar {X}}-1{,}96\times 0{,}5\leq \mu \leq {\bar {X}}+1{,}96\times 0{,}5\right)=}
= P ( X ¯ 0 , 98 μ X ¯ + 0 , 98 ) {\displaystyle =P\left({\bar {X}}-0{,}98\leq \mu \leq {\bar {X}}+0{,}98\right)}

De interpretatie hiervan is: met kans 0,95 wordt een interval gevonden met stochastische grenzen

X ¯ 0 , 98 {\displaystyle {\bar {X}}-0{,}98}

en

X ¯ + 0 , 98 {\displaystyle {\bar {X}}+0{,}98} ,

waar μ {\displaystyle \mu } tussenin ligt.

Elke keer dat de metingen worden herhaald, vindt men een andere waarde voor het steekproefgemiddelde X ¯ {\displaystyle {\bar {X}}} . In 95% van de gevallen zal μ {\displaystyle \mu } tussen de met dit gemiddelde berekende grenzen liggen, in 5% van de gevallen echter ook niet. Het actuele betrouwbaarheidsinterval wordt berekend door de waarden van de gevonden gewichten in te vullen. Het 0,95-betrouwbaarheidsinterval voor μ {\displaystyle \mu } is:

( x ¯ 0 , 98 ; x ¯ + 0 , 98 ) = ( 250 , 2 0 , 98 ; 250 , 2 + 0 , 98 ) = ( 249 , 22 ; 251 , 18 ) {\displaystyle ({\bar {x}}-0{,}98;{\bar {x}}+0{,}98)=(250{,}2-0{,}98;250{,}2+0{,}98)=(249{,}22;251{,}18)}

In de onderstaande figuur zijn 50 realisaties van een betrouwbaarheidsinterval met betrouwbaarheid 95% voor een onbekende parameter μ {\displaystyle \mu } aangegeven.

De meeste, in doorsnee 95%, van deze intervallen bevatten de parameter. Enkele daarentegen ook niet. In de praktijk hebben we te maken met een van deze intervallen. Welke dat is weten we niet. Toen we de steekproef namen, hadden we een kans van 95% om een interval te vinden waarin zich de parameter bevindt. Daarom zeggen we dat de parameter met betrouwbaarheid 95% in dit interval ligt. Daarmee bedoelen we niets meer dan dat.

Betrouwbaarheidsintervallen bij verschillende verdelingen

Normale verdeling

Laat X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} een aselecte steekproef uit de normale verdeling N ( μ , σ 2 ) {\displaystyle N(\mu ,\sigma ^{2})} zijn, X ¯ {\displaystyle {\overline {X}}} het steekproefgemiddelde en S 2 {\displaystyle S^{2}} de variantie.

Bij bekende variantie σ 2 {\displaystyle \sigma ^{2}} wordt een ( 1 α ) {\displaystyle (1-\alpha )} -betrouwbaarheidsinterval voor μ {\displaystyle \mu } gegeven door:

μ = X ¯ ± z α / 2 σ n {\displaystyle \mu ={\overline {X}}\pm z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}}} ,

met z α / 2 {\displaystyle z_{\alpha /2}} het ( 1 α / 2 ) {\displaystyle (1-\alpha /2)} -fractiel van de standaardnormale verdeling, dus Φ ( z α / 2 ) = 1 1 2 α {\displaystyle \Phi (z_{\alpha /2})=1-{\tfrac {1}{2}}\alpha } .


Als σ 2 {\displaystyle \sigma ^{2}} niet bekend is, wordt deze geschat, en wordt het ( 1 α ) {\displaystyle (1-\alpha )} -betrouwbaarheidsinterval voor μ {\displaystyle \mu } :

μ = X ¯ ± t n 1 , α / 2 S n {\displaystyle \mu ={\overline {X}}\pm t_{n-1,\alpha /2}{\frac {S}{\sqrt {n}}}} ,

met t n 1 , α / 2 {\displaystyle t_{n-1,\alpha /2}} het ( 1 α / 2 ) {\displaystyle (1-\alpha /2)} -fractiel van de t ( n 1 ) {\displaystyle {\rm {t}}(n-1)} -verdeling.

Een ( 1 α ) {\displaystyle (1-\alpha )} -betrouwbaarheidsinterval voor σ 2 {\displaystyle \sigma ^{2}} is:

n 1 c 2 S 2 < σ 2 < n 1 c 1 S 2 {\displaystyle {\frac {n-1}{c_{2}}}S^{2}<\sigma ^{2}<{\frac {n-1}{c_{1}}}S^{2}}

met c 1 {\displaystyle c_{1}} en c 2 {\displaystyle c_{2}} respectievelijk het α / 2 {\displaystyle \alpha /2} - en het ( 1 α / 2 ) {\displaystyle (1-\alpha /2)} -kwantiel van de χ 2 ( n 1 ) {\displaystyle \chi ^{2}(n-1)} -verdeling.

Exponentiële verdeling

Laat X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} een aselecte steekproef zijn uit de exponentiële verdeling met verwachting μ {\displaystyle \mu } en X ¯ {\displaystyle {\overline {X}}} het steekproefgemiddelde.

Een ( 1 α ) {\displaystyle (1-\alpha )} -betrouwbaarheidsinterval voor μ {\displaystyle \mu } wordt gegeven door:

2 n c 2 X ¯ < μ < 2 n c 1 X ¯ {\displaystyle {\frac {2n}{c_{2}}}\,{\overline {X}}<\mu <{\frac {2n}{c_{1}}}\,{\overline {X}}} ,

met c 1 {\displaystyle c_{1}} en c 2 {\displaystyle c_{2}} respectievelijk het α / 2 {\displaystyle \alpha /2} - en het ( 1 α / 2 ) {\displaystyle (1-\alpha /2)} -kwantiel van de χ 2 ( 2 n ) {\displaystyle \chi ^{2}(2n)} -verdeling.

Binomiale verdeling

Laat X {\displaystyle X} binomiaal verdeeld zijn met parameters n {\displaystyle n} en p {\displaystyle p} , en p ^ = X / n {\displaystyle {\hat {p}}=X/n} een schatter van p {\displaystyle p} .

Voor relatief grote n {\displaystyle n} wordt een benaderend ( 1 α ) {\displaystyle (1-\alpha )} -betrouwbaarheidsinterval voor p {\displaystyle p} gegeven door:

p = p ^ ± z α / 2 p ^ ( 1 p ^ ) n {\displaystyle p={\hat {p}}\pm z_{\alpha /2}\,{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}} ,

met z α / 2 {\displaystyle z_{\alpha /2}} het ( 1 α / 2 ) {\displaystyle (1-\alpha /2)} -kwantiel van de standaardnormale verdeling, dus Φ ( z α / 2 ) = 1 1 2 α {\displaystyle \Phi (z_{\alpha /2})=1-{\tfrac {1}{2}}\alpha } .

Poissonverdeling

Laat X {\displaystyle X} Poisson-verdeeld zijn met verwachtingswaarde μ {\displaystyle \mu } . Uit de relatie tussen de verdelingsfuncties van de Poissonverdeling en de chi-kwadraatverdeling kan het volgende ( 1 α ) {\displaystyle (1-\alpha )} -betrouwbaarheidsinterval voor μ {\displaystyle \mu } afgeleid worden:

1 2 χ 2 ( 1 2 α , 2 X ) μ 1 2 χ 2 ( 1 1 2 α , 2 X + 2 ) {\displaystyle {\tfrac {1}{2}}\chi ^{2}({\tfrac {1}{2}}\alpha ,2X)\leq \mu \leq {\tfrac {1}{2}}\chi ^{2}(1-{\tfrac {1}{2}}\alpha ,2X+2)} ,

met χ 2 ( p , m ) {\displaystyle \chi ^{2}(p,m)} het p {\displaystyle p} -kwantiel van de χ 2 ( m ) {\displaystyle \chi ^{2}(m)} -verdeling.

Websites

  • (en) Interpreting Confidence Intervals. visualisatie van gesimuleerde betrouwbaarheidsintervallen