1 van 1
Geen correlatie, wel goed P-waardes
Geplaatst: vr 11 nov 2016, 10:31
door Joran van den Brink
Goedendag allen,
in Excel komen de volgende gegevens uit mijn regressie analyse
Op dag niveau:
Meervoudige correlatiecoëfficiënt R: 0,384963
R-kwadraat : 0,148197
Snijpunt P-waarde: 9,92E-35
Variabele X 1 P-waarde: 2,17E-12
Op week niveau:
Meervoudige correlatiecoëfficiënt R: 0,881301
R-kwadraat : 0,776691
Snijpunt P-waarde: 8,32027E-44
Variabele X 1 P-waarde: 3,8673E-13
De vraag is dus: Kan ik doorgaan op dag niveau als mijn correlatiecoëfficiënt laag is maar mijn P waardes wel goed zijn?
Nou krijg ik alleen op week niveau een redelijk beeld. Maar om een goede prognose te maken wil ik op dag niveau meten.
Ik hoor het graag van jullie!
Re: Geen correlatie, wel goed P-waardes
Geplaatst: do 01 dec 2016, 02:05
door robertus58a
Heb je hier al een antwoord opgevonden?
Re: Geen correlatie, wel goed P-waardes
Geplaatst: do 01 dec 2016, 09:04
door Joran van den Brink
Beste Robertus,
er wordt mij verteld dat zodra er geen correlatie is, de P waarde niks uitmaakt.
Zelfs niet als deze P waarde 0 is.
Vanuit dit uitgangspunt ben ik nu analyses aan het maken.
Denk jij hier anders over?
Re: Geen correlatie, wel goed P-waardes
Geplaatst: do 01 dec 2016, 10:25
door robertus58a
Bij regressie van een rechte lijn y=ax+b schat je de parameters a en b uit de data. Om te kijken of a en b statistisch significant zijn stel je eerst de nul hypotheses op:
H0(1): a = 0
H0(2): b = 0
De p-waarde geeft aan wanneer je de nul-hypothese kan aannemen of verwerpen. De grens van de p-waarde wordt vaak op 0.05 aangenomen (maar kan anders zijn). Indien p<0.05 dan verwerp je de nul-hypothese. In jouw geval betekent dat, dat je met 95% zekerheid kan je zeggen dat de geschatte parameters a en b ongelijk zijn aan 0 voor zowel de dag als de week data. (b zal nooit verworpen worden omdat dit in een extreme geval (a=0) altijd de gemiddelde waarde van de y's zal zijn). Je doet echter geen precieze uitspraak over de waarden van a en b.
Wat zinvol is om het (95%) betrouwbaarheids interval voor de voorspelling te berekenen. Daar mee kan je dus zeggen met 95% zekerheid binnen welke grenzen je voorspelling ligt. Dit vereist wel gevorderde statistische kennis (maar kan in excel berekend worden). Het zal misschien duidelijk zijn dat de kwaliteit van de voorspelling samenhangt met de correlatie coefficient. Bij een lage correlatie coefficient ligt je voorspelling tussen ruimere grenzen.
Het 95% betrouwbaarheids interval van de voorspelling is naar mijn mening veel zinvoller dan de correlatie coefficient. Wanneer is de correlatie coefficient goed of slecht? De correlatie coefficient (R2 eigenlijk) is wel zinvol in de context van een nul-hypothese: H0 : R2=0. M.a.w. met deze nul-hypothese stel je dat er geen verband is tussen x en y. Na berekening van R2 zal een kleine p-waarde (p<0.05) leiden tot het verwerpen van H0, m.a.w. met 95% zekerheid kan je zeggen dat er wel een verband is tussen x en y. Maar nogmaals wil je een voorstelling maken hoe goed je voorspelling is dan is het meest tastbare de voornoemde 95% betrouwbaarheids intervallen voor de voorspelling.
Het doen van betere voorspellingen (verhogen van correlatie) is natuurlijk een ander verhaal (ander model, meer metingen, betere metingen, meer spreiding van de x-waarden,...)
Misschien heb ik nu een antwoord gegeven dat je zelf al gevonden heb. In dat geval verontschuldig ik mij.
Re: Geen correlatie, wel goed P-waardes
Geplaatst: do 01 dec 2016, 10:42
door Joran van den Brink
Bedankt voor je uitleg!
Hieronder even een wedervraag om te kijken of ik nu in de goede richting denk:
Mijn R2 is 0,31. Dit houdt dus in dat ik mijn 0 hypothese kan verwerpen aangezien mijn P waarde exact 0 is.
Dus met 100% zekerheid. Alleen heb ik nog niet voldoende gegevens om er een waarheid aan vast te hangen in de vorm van een prognose.
Dit zou ik kunnen oplossen door meer meetpunten toe te voegen of meer variabelen, toch?
Om vervolgens te kijken of mijn metingen ook daadwerkelijk kunnen leiden tot een prognose moet ik de betrouwbaarheidsinterval gaan berekenen. Dit kan inderdaad met Excel. Is deze interval ook te berekenen met bijvoorbeeld een Chi kwadraatanalyse?
Re: Geen correlatie, wel goed P-waardes
Geplaatst: do 01 dec 2016, 17:05
door robertus58a
Indien je R2 0.31 is dan is je correlatie behoorlijk matig (om niet te zeggen niet goed). Maar het is toch interessant om het betrouwbaarheids interval (per voorspelling) uit te rekenen. Dan zal je wel zien hoe goed (of hoe slecht) je voorspelling is.
Mbt. van de H0: indien p<0.05 dan kan je met 95% zekerheid zeggen dat H0 wordt verworpen. De 0-hypothese is voor deze regressive mbt tot de parameters a en b (uit y=ax+b), dwz. de 0-hypothese veronderstelt dat a=0 en b=0. Vanwege de kleine waarde (P<0.05) wordt de 0-hypothese verworpen, dwz. dat met 95% zekerheid kan je zeggen dat zowel a als b ongelijk aan 0 zijn.
100% zekerheid?? Onmogelijk. bereken maar de betrouwbaarheids intervallen voor verschillende niveaus van significantie: 0.05, 0.025, 0.01, 0.001 Je zal dan zien dat het betrouwbaarheids interval voor 0.05 smaller is dan voor 0.001: Je kan met 100% zekerheid zeggen dat een parameter tussen plus en min oneindig (hertgeen een onzinnige uitspraak is). Het 95% betrouwbaarheids niveau is een vaak gebruikte waarde.
Het betrouwbaarheids interval moet je berekenen per voorspelde waarde. Dit zal smaller zijn voor waarden dichter bij het gemiddelde en weider zijn voor waarden verder van het gemiddelde verwijderd.
Re: Geen correlatie, wel goed P-waardes
Geplaatst: vr 02 dec 2016, 09:21
door Joran van den Brink
Robertus,
Bedankt voor je uitleg!
Ik ga kijken naar de betrouwbaarheidsintervallen.