De context is moeilijk vast te stellen welke kennis wordt verondersteld. Ik zal trachten een uitleg te geven. Maar dit is misschien kennis allang bekend bij jullie.
Dus ik zie deze bijdrage als zelfstudie iets proberen uit te leggen. Mijn begripsvorming in boxplots en betrouwbaarheid interval van de mediaan:
1) Confidence interval CLT normale verdeling:
Stel men heeft een willekeurige populatie met standaarddeviatie
\(\sigma\). Als men een steekproef neemt van
\(n\) stuks kan men het gemiddelde bepalen. Indien men een heleboel gemiddelden neemt levert dit een normale verdeling op van het gemiddelde (in de meeste gevallen *). De centrale limietstelling CLT toont dit aan.
Het blijkt dat deze normaalverdeling van het gemiddelde een standaard afwijking heeft van:
$$\sigma_\bar{x}=\frac{\sigma}{\sqrt{n}}$$
Middels deze vergelijking kan men aan de hand van de
\(z\)-score bekijken hoe waarschijnlijk een geobserveerde waarneming is. Voor de
\(z\)-score zijn opzoek tabellen waarmee de oppervlakte normaal verdeling (lees de "kans") als functie van
\(\sigma\) kan worden opgezocht. Voor betrouwbaarheid interval
\(95\%\) dat is
\(z=2\) neemt men dan:
\(2 \cdot \sigma_\bar{x}\)
2) Confidence interval mediaan:
Hier begeef ik mij op glad ijs. Maar neem een poging het uit te leggen. In plaats van te kijken naar een continue normaalverdeling gaat men uit van een binomiaal verdeling.
In de meeste gevallen gaat men uit van een binomiaalverdeling met:
\(p=0.5\) met
\(q=1-p\). De mediaan voor
\(p=0.5\) ligt precies in het middel van populatie omvang
\(n\) (
Wiki).
De
\(mediaan\) en
\(\sigma\) in binomiale verdeling:
$$mediaan=np$$
$$\sigma^2=nq(q-1)$$
Lower bound:
$$LB=nq-z\sqrt{nq(1-q)}$$
Upper bound:
$$UB=nq+z\sqrt{nq(1-q)}$$
Net als bij de normaalverdeling aanpak kan men een betrouwbaarheid interval kiezen. Deze zijn voor de mediaan/binomiaal aanpak net een beetje anders. Voor
\(95 \%\) vind ik een
\(z=1.96\).
Het handige is dat deze binomiaalverdeling direct genormaliseerd is, alleen de steekproef grootte
\(n\) heeft invloed. Dit in tegenstelling tot punt 1), waarbij de standaard deviatie van de populatie word gedeeld door:
\(\sqrt{n}\).
Een rekenvoorbeeld (en betere uitleg wellicht) is hieronder te vinden en volgens mij bijna direct toepasbaar op de vraag.
https://www.statology.org/confidence-in ... or-median/
Zelf gebruik ik de CI van de mediaan bijna dagelijks. Dan maak ik analyses met boxplots. Dan laat ik de betrouwbaarheid intervallen plotten van de mediaan. Stel er zijn twee of meer process/productie instellingen getest, indien de CI's overlappen dan is een mogelijke verbetering niet waarneembaar. Dan hoeft men niet direct naar abstracte ANOVA's te grijpen welke moeilijk uitlegbaar zijn (en juist verwarrend kunnen werken).
Met boxplots werken met CI mediaan heeft mijn voorkeur. Zo kunnen ook mensen met minder ervaring in statistiek (zoals ik) zelf een oordeel maken zonder in techno babbel te komen.
* Indien het niet normaal verdeeld is dient men een black belt te vragen. Zo kreeg ik dat geleerd
. Zelf heb ik maar bescheiden basale statistiek kennis en van veel fouten moeten leren.