boxplot

ukster · za 20 nov 2021, 19:27

: boxplot 2523 keer bekeken

Wordt hier een eenduidige conclusie bedoelt of een aantal conclusies?

wnvl1 · zo 21 nov 2021, 18:51

De middelste (bij rangschikking van weinig naar veel) jongen doet 2 uur meer aan sport dan het middelste meisje. De spreiding bij jongens en meisjes is ongeveer dezelfde. Je kan iets concluderen over het aantal uren sport en de spreiding van de verdeling. Veel verder dan herhalen in woorden dan wat er staat in de tabel ga je niet komen qua conclusie.

OOOVincentOOO · ma 22 nov 2021, 20:38

De context is moeilijk vast te stellen welke kennis wordt verondersteld. Ik zal trachten een uitleg te geven. Maar dit is misschien kennis allang bekend bij jullie.

Dus ik zie deze bijdrage als zelfstudie iets proberen uit te leggen. Mijn begripsvorming in boxplots en betrouwbaarheid interval van de mediaan:

1) Confidence interval CLT normale verdeling:
Stel men heeft een willekeurige populatie met standaarddeviatie $\sigma$. Als men een steekproef neemt van $n$ stuks kan men het gemiddelde bepalen. Indien men een heleboel gemiddelden neemt levert dit een normale verdeling op van het gemiddelde (in de meeste gevallen *). De centrale limietstelling CLT toont dit aan.

Het blijkt dat deze normaalverdeling van het gemiddelde een standaard afwijking heeft van:
$$\sigma_\bar{x}=\frac{\sigma}{\sqrt{n}}$$
Middels deze vergelijking kan men aan de hand van de $z$-score bekijken hoe waarschijnlijk een geobserveerde waarneming is. Voor de $z$-score zijn opzoek tabellen waarmee de oppervlakte normaal verdeling (lees de "kans") als functie van $\sigma$ kan worden opgezocht. Voor betrouwbaarheid interval $95\%$ dat is $z=2$ neemt men dan: $2 \cdot \sigma_\bar{x}$

2) Confidence interval mediaan:
Hier begeef ik mij op glad ijs. Maar neem een poging het uit te leggen. In plaats van te kijken naar een continue normaalverdeling gaat men uit van een binomiaal verdeling.

In de meeste gevallen gaat men uit van een binomiaalverdeling met: $p=0.5$ met $q=1-p$. De mediaan voor $p=0.5$ ligt precies in het middel van populatie omvang $n$ (Wiki).

De $mediaan$ en $\sigma$ in binomiale verdeling:
$$mediaan=np$$
$$\sigma^2=nq(q-1)$$
Lower bound:
$$LB=nq-z\sqrt{nq(1-q)}$$
Upper bound:
$$UB=nq+z\sqrt{nq(1-q)}$$
Net als bij de normaalverdeling aanpak kan men een betrouwbaarheid interval kiezen. Deze zijn voor de mediaan/binomiaal aanpak net een beetje anders. Voor $95 \%$ vind ik een $z=1.96$.

Het handige is dat deze binomiaalverdeling direct genormaliseerd is, alleen de steekproef grootte $n$ heeft invloed. Dit in tegenstelling tot punt 1), waarbij de standaard deviatie van de populatie word gedeeld door: $\sqrt{n}$.

Een rekenvoorbeeld (en betere uitleg wellicht) is hieronder te vinden en volgens mij bijna direct toepasbaar op de vraag.
https://www.statology.org/confidence-in ... or-median/

Zelf gebruik ik de CI van de mediaan bijna dagelijks. Dan maak ik analyses met boxplots. Dan laat ik de betrouwbaarheid intervallen plotten van de mediaan. Stel er zijn twee of meer process/productie instellingen getest, indien de CI's overlappen dan is een mogelijke verbetering niet waarneembaar. Dan hoeft men niet direct naar abstracte ANOVA's te grijpen welke moeilijk uitlegbaar zijn (en juist verwarrend kunnen werken).

Met boxplots werken met CI mediaan heeft mijn voorkeur. Zo kunnen ook mensen met minder ervaring in statistiek (zoals ik) zelf een oordeel maken zonder in techno babbel te komen.

^* Indien het niet normaal verdeeld is dient men een black belt te vragen. Zo kreeg ik dat geleerd

. Zelf heb ik maar bescheiden basale statistiek kennis en van veel fouten moeten leren.

OOOVincentOOO · ma 22 nov 2021, 21:11

nb. De $UB$ en $LB$ zijn uitgedrukt in welke waarneming in de lijst gesorteerde getallen/waarnemingen. Bijvoorbeeld de $LB=3.7$ betekend de afgerond: $4$^e waarneming in de gesorteerde lijst.

wnvl1 · di 23 nov 2021, 01:48

@OOOVincentOOO
Ben nieuwsgierig hoe je dit gaat toepassen op deze concrete case.
Ik ga er van uit dat je een 95% betrouwbaarheidsinterval wil schatten voor de mediaan voor de jongens en de meisjes mits de nodige aannames met betrekking tot de originele verdeling. Er is zeker iets mogelijk...

OOOVincentOOO · di 23 nov 2021, 09:15

Ik weet de achtergrond en context niet van de vraag. Mijn aanpak kan verkeerd zijn maar zou iets dergelijks als dit zijn:

Voor de Jongens:
n=73
q=0.5
z=1.96

Bounds waarnemingen UB en LB (95%):
LB=nq-z sqrt(nq(1-q))
LB=(73)(0.5)-(1.96) sqrt((73)(0.5)(1-0.5))
LB=28
UB=45

De mediaan is op positie:
Mediaan=(73)(0.5)=37
Eerste Kwartiel=(73)(0.25)=18
Derde Kwartiel=(73)(0.75)=55

Hieruit blijkt dat de LB en UB voor de jongens binnen de kwartielen valt.

Voor de Meisjes:
n=102
q=0.5
z=1.96

Bounds waarnemingen UB en LB (95%):
LB=nq-z sqrt(nq(1-q))
LB=(102)(0.5)-(1.96) sqrt((102)(0.5)(1-0.5))
LB=41
UB=61

De mediaan is op positie:
Mediaan=(102)(0.5)=51
Eerste Kwartiel=(102)(0.25)=25
Derde Kwartiel=(102)(0.75)=77

Hieruit blijkt dat de LB en UB voor de meisjes binnen de kwartielen valt.

Mijn conclusie.
Door alleen naar de kwartielen te te kijken kan men inschatten of de verschillen relevant zijn.

De kwartiel intervallen:
Jongens: 1.8<4<6
Meisjes: 0.3<2<4.3

In grafiekvorm:

: boxplot 2228 keer bekeken

De kwartielen overlappen. Dit betekend dat de verschillen tussen jongens en meisjes niet aannemelijk zijn.

De bovenste kwartiel meisjes komt bijna tegen mediaan van Jongens.

Echter de betrouwbaarheid (95%) intervallen liggen hierbinnen. Hoe dit hierin goed te betrekken weet ik niet nu direct. Inschatten kan en dan nog overlappen de kwartielen.

Voetnote:
Rekenfouten voorbehouden. Ik heb totaal geen routine dergelijke analysis met de hand te doen.

Wellicht zijn er ook vuistregels die stellen dat de betrouwbaarheids intervallen binnen de kwartielen vallen bij een bepaald minimum aantal waarnemingen.

Afhankelijk uit welk boek deze opgave komt lijkt het mij aannemelijk dat men met vuistregels moet werken. Echter deze kan ik niet halen uit de opgave.

Betreffende het laatste zou ik moeten studeren.

OOOVincentOOO · di 23 nov 2021, 09:27

Zie zojuist dat mediaan in grafiek jongens dient: 4 te zijn en niet 5. Dit zou correct moeten zijn:

: boxplot 2204 keer bekeken

ukster · di 23 nov 2021, 09:58

Het vraagstukje (opgave 2) is onderdeel van het onderwerp "verschil tussen kwantitatieve variabelen" (wiskunde A Havo4)
als antwoord wordt gegeven:
Er is overloop en de medianen vallen binnen de andere boxen, dus is het verschil gering.
https://content.math4all.nl/view?comp=h ... em=answers

di 23 nov 2021, 11:17

ukster schreef: ↑di 23 nov 2021, 09:58 Het vraagstukje (opgave 2) is onderdeel van het onderwerp "verschil tussen kwantitatieve variabelen" (wiskunde A Havo4)
als antwoord wordt gegeven:
Er is overloop en de medianen vallen binnen de andere boxen, dus is het verschil gering.

Hoe verzinnen ze het

De helft van de meisjes sport minder dan 2 uur/week, terwijl dat bij de jongens iets meer dan een kwart is.
Een kwart van de meisjes sport niet of nauwelijks. Hoeveel dat bij de jongens is valt niet uit de gegevens te herleiden maar waarschijnlijk een veel kleinere fractie.
De helft van de jongens sport meer dan 4 uur/week, bij de meisjes is dat iets meer dan een kwart.

Noem dat verschil maar gering.

Je zal maar beoordeeld worden op je antwoord op zo'n vraagstuk.

OOOVincentOOO · di 23 nov 2021, 12:22

Xilvo schreef: ↑di 23 nov 2021, 11:17 Je zal maar beoordeeld worden op je antwoord op zo'n vraagstuk.

Precies, men zou meer focus kunnen leggen wat de afwijking van gemiddelde en/of mediaan betekend.

Volgens Cross Validated (relatie CI mediaan en IQR):
$$95\%\ CI_{\rm median} = {\rm Median} \pm \frac{1.57\times IQR}{\sqrt{N}}$$
Bron: Cross Validated

Of dit tot de lesstof behoort betwijfel ik.

Volgens bovenstaande formule kom ik op onderstaande plot:

: boxplot 2140 keer bekeken

Komt overeen met handmatig berekende LB en UB zie eerder antwoord.

Uit deze plot zou ik voor engineering doeleinden (95%) zeggen dat er aanwijzingen zijn voor een verschil tussen jongens en meisjes. De CI(95%) raken elkaar bijna/niet.

Waarom in de vraag over "conclusies" gesproken word weet ik niet. Statistiek is niet zwart wit kijken met een uniek antwoord. Conclusies trekken doe je samen in een groep.

wnvl1 · di 23 nov 2021, 21:38

Ik ga uit van een normale verdeling. En reken alles om naar standaard deviaties. In het geval van parametrische statistiek schatten we de grootte van een verschil in via Cohen’s d. We nemen het verschil van de gemiddeldes en delen dat door de gepoolde SD. Hieronder mijn code in R.

De output is

Verschil gemiddelden Standaard Fout t p-value d
2.000000e+00 2.320917e-01 8.617284e+00 4.182497e-15 1.321076e+00

Je verwoordt dat dan mooi als:

Een onafhankelijke t-toets toont aan dat er een significant verschil is tussen de tijd dat jongens en meisjes sporten, t(173)=8.61, p<.001. De effectgrootte is 1.32. Dit wijst op een sterk effect van geslacht op het aantal uur sport.

Mogelijk is de niet-parametrische variant wel meer op zijn plek.

Code: Selecteer alles

t.test2 <- function(m1,m2,s1,s2,n1,n2,m0=0,equal.variance=FALSE)
{
  # pooled standard deviation, scaled by the sample sizes
  se <- sqrt( (1/n1 + 1/n2) * ((n1-1)*s1^2 + (n2-1)*s2^2)/(n1+n2-2) ) 
  sp <- sqrt( ((n1-1)*s1^2 + (n2-1)*s2^2)/(n1+n2-2) ) 
  df <- n1+n2-2
    t <- (m1-m2-m0)/se 
  d <- (m1-m2)/sp
  dat <- c(m1-m2, se, t, 2*pt(-abs(t),df), d)    
  names(dat) <- c("Verschil gemiddelden", "Standaard Fout", "t", "p-value", "d")
  return(dat) 
}



(tt2 <- t.test2(4, 2, 4.2/1.34896/2, 4.0/1.34896/2, 73, 102))

wnvl1 · di 23 nov 2021, 23:07

Correctie, moet zijn

(tt2 <- t.test2(4, 2, 4.2/1.34896, 4.0/1.34896, 73, 102))

in de code, zonder die gedeeld door 2.

OOOVincentOOO · wo 24 nov 2021, 09:11

Knap, hoe je dat allemaal berekend en uitzoekt! Onze methoden verschillen nogal. Nooit van Cohen's d gehoord ik zou niet weten hoe dat uit te leggen aan anderen! Is jouw normaal benadering wel mogelijk? De gegevens komen uit binomiaal met IRQ en mediaan, ik zie niet hoe jij dit bepaald/aantoond? Effecten zullen denk ik gering zjin omdat de populatie omvang redelijk groot is $>73$.

Zelf probeer ik immer de meest eenvoudige manier van statistiek te bedrijven. Anova alleen wanneer nodig, hypothese testen zijn verwarrend als je dat niet dageljiks doet. Vaak ook problemen met niet normaal verdeelde residuals. Een beerput voor mij!

Liever op een manier wat ik kan uitleggen aan anderen. Ook probeer ikzelf woorden als significant te vermijden. Uit eigen ervaring weet ik dat mensen in (mijn) werkomgeving hun eigen conclusie/bevinding willen trekken. Veel boze blikken in meetings gezien als ik het woord significant zeg

!

Als ik met nul hypothesis kom en p-values gaat het vaak mis. Verwarrend voor mijzelf en collega's. Ik kan mij goed voorstellen dat statistici onderling graag zo praten of in officiele documenten.

Zoals onderstaande had ik nog een intuitieve uitleg voor onderstaande formule:
$$95\%\ CI_{\rm median} = {\rm Median} \pm \frac{1.57\times IQR}{\sqrt{N}}$$
Uitleg:
Bij een normaal verdeling is de $95 \%$ CI van (gemiddelde) op $±2 \sigma$. De CI van de mediaan heeft een correctie factor $1.57$. Een normaal verdeling: $±1 \sigma$ is $68 \%$ de IRQ is $50 \%$. Dit geeft als $68/50=1.36$ de rest is de correctie factor van binomiaal naar de normaal verdeling.

: boxplot 1980 keer bekeken

Dit zouden mijn bevindingen zijn van resultaten hoe ik dat in een ppt zou vermelden:

Er zijn groepen jongens en meisjes waarbij geen verschil in aantal uren sport is. De halve interkwartielen $25 \%$ j/m overlappen elkaar. Gedetailieerde gegevens over populatie verdelingen is onbekend.

Op basis van de mediaan is een aantoonbaar verschil tussen aantal uren sport tussen j/m. De medianen overlappen elkaar (bijna) niet met een CI van $95 \%$. De "gemiddelde" jongen sport meer dan een "gemiddeld" meisje.

Conclusies? Weet ik niet. Als het een technisch probleem was zou ik zeggen eerst de reprocuceerbaarheid verbeteren, de spreiding is te groot. Hierna kunnen we process verbeteren door offset (verschil gemiddelden) te verkleinen.

Wel begrijp ik nu de insteek wat een HAVO student moet leren herkennen (punt 1) en een simpel box plotje maken van IRQ).

boxplot

boxplot

Re: boxplot

Re: boxplot

Re: boxplot

Re: boxplot

Re: boxplot

Re: boxplot

Re: boxplot

Re: boxplot

Re: boxplot

Re: boxplot

Re: boxplot

Re: boxplot

Contact

Educatie

Community