Spss, factoranalyse en error

door **ferry** » za 22 jan 2011, 10:47

Mooi!

door **Imengine** » za 22 jan 2011, 09:33

Hoi ferry,

ik ben er ondertussen wel uit

dus bedankt voor je hulp. De oplossing van 11 factoren lijkt me inhoudelijk nl. niet de beste gezien er factoren zijn die slechts uit 2 items bestaan, waarvan die items bovendien inhoudelijk niet zo interessant zijn om op te nemen.

Het percentage verklaarde variantie is dus niet van doorslaggevend belang in het kader van het doel van de factoranalyse die ik doe (maar het bleef wel handig te weten in het kader van eventueel toekomstige factor analyses). Het belangrijkste is die factoren te verzamelen waar meerdere items op laden en die inhoudelijk interessant zijn om verder mee te werken.

door **ferry** » wo 19 jan 2011, 07:35

Ok, in dat geval is die oplossing met 11 factoren het mooist is. Grote vraag daarover is of die oplossing ook de beste is. Dus, levert het een "schone" uitkomst is waarin de verschillende items mooi in de verschillende dimensies vallen. En, waarbij de factoren een inhoudelijke betekenis hebben.

Zou je voor alle zekerheid de tabel met de 11 factoren/items kunnen plaatsen? Dat levert nog wat meer inzicht op.

Groeten

Ferry

door **Imengine** » di 18 jan 2011, 11:54

Hoi ferrie,

ik heb weer heel wat nieuwe analyses doorlopen gezien ik opmerkte dat ik eigenlijk unweighted least squares had gebruikt als extractie methode. Ik heb ergens gelezen dat de extractie-methode niet veel uitmaakte, maar goed, ik heb dan ook maar principale componenten analyse (PCA) en principal axis factoring (PAF) uitgeprobeerd en 't lijkt me wel goed als ik begrijp wat de specifieke verschillen zijn tussen extractiemethoden. PCA vind ik wel iets moeilijker aangezien je daar een "pattern matrix" en "structure matrix" krijgt, in plaats van die (al dan niet geroteerde) factor matrix. Maar ik zal mij hier eens rustig achter moeten zetten en zelf wat lezen/opzoeken voor ik hierover met vragen begin te vuren

Wat betreft de verklaarde variantie.

Bijvoorbeeld oplossing op basis van eigenvalue --> 11 factoren: 68% verklaarde variantie

Oplossingen op basis van scree plot:

- 2 factoren: 29% explained variance (EV)

- 6 factoren: 53% EV

- 11 factoren: 68% EV

door **ferry** » di 11 jan 2011, 17:30

Uiteraard geldt hoe meer variantie verklaard wordt, hoe beter. Maar, dat wil niet zeggen dat 50% per se weinig is. Dat heeft er ook mee te maken hoeveel variabelen zijn toegevoegd. Als je de FA overnieuw doet met de items waaruit de 5 factoren zouden moeten bestaan, op welk percentage kom je dan?

door **Imengine** » wo 05 jan 2011, 10:37

Oké bedankt, er lijkt me inderdaad interpretatie van de factoren mogelijk. Toch zeker voor de eerste 3 factoren die geëxtraheerd worden, komt dit redelijk sterk naar voren en vind ik het ook relatief "betrouwbaar" gezien de items niet uit 1 en dezelfde vragenlijst komen.

----

Verder toch nog even een extra vraag. Bijvoorbeeld: visueel gezien op de scree plot, lijkt 5 factoren een goede keuze. Deze 5 factoren verklaren ongeveer 50% van de variantie in de data. Dit lijkt me echter weinig, dus toch beter van meerdere factoren op te nemen.

Vanaf welk percentage kan je de proportie verklaarde variantie als voldoende beschouwen? Nog eens bedankt voor de tijd die je hebt gestopt in het beantwoorden van de vragen

ik weet dat het er nogal veel zijn.

door **ferry** » wo 05 jan 2011, 10:36

Ah, dat klinkt allemaal erg goed!

Eens kijken. De FA die je hier gebruikt is "explorerend", wat wil zeggen dat je gaandeweg tot je factoren komt. Het is ook mogelijk een "confirmerende" FA te doen. In dat geval bepaal je eerst de factoren (op basis van theoretische veronderstellingen) en toetst deze vervolgens. Het is gebruikelijk daarvoor een programma als LISREL te gebruiken.

Het weglaten van een item dat op 2 dimensies scoort heeft ermee te maken dat je ervoor wilt zorgen dat de gevonden dimensies zo onafhankelijk mogelijk van elkaar zijn. Als een item op 2 dimensies laadt, is het een kenmerk van beide factoren en dat wil je voorkomen. De gehanteerde rotatiemethode kan daarbij uiteraard verschil maken.

Er zit inderdaad een subjectief element in FA. SPSS vertelt je niet wat de inhoudelijke interpretatie is van de gevonden dimensies. Als een item of dimensie niet inhoudelijk te interpreteren is, heeft het vervolgens weinig zin daar iets mee te doen. Wat je kunt doen is vooraf een idee te hebben over welke items een dimensie vormen en dan bekijken of het overeenkomt met de data. Dat is niet toetsend, maar wel meer gestuurd.

door **Imengine** » wo 05 jan 2011, 09:55

Heel hard bedankt voor je hulp! Ik denk dat ik er uit ben wat betreft het probleem. Het heeft alleszins te maken met enkele variabelen die ik zelf berekend had uit een combinatie van twee andere items. Alhoewel het maximaal aantal missende waarden op 1200 lag, en er nog andere items zijn die bijvoorbeeld 1100 missende waarden hebben, heeft het wegnemen van deze variabelen als gevolg dat er in de correlatiematrix geen foutmelding meer voorkomt. Zelfs als ik alle items uit de oorspronkelijke dataset in de analyse stop en de zelfberekende variabelen eruit haal, doet het probleem zich niet voor en krijg ik enkel het probleem van de communaliteiten (wat normaal is gezien er storende items inzitten).

Verder heb ik nog 1 algemeen vraagje wat betreft FA. Wat is eigenlijke de meest gangbare manier om FA te doen. Werkwijze die ik nu hanteer:

correlatiematrix inspecteren: items >0.9 eruithalen en items die geen enkele correlatie >=.3 hebben (indien er maar 1 enkele .30 correlatie voorkomt kan het ook zijn dat ik het item weglaat).
ik verkrijg dan ongeroteerde factoroplossing en geroteerde versie via VARIMAX (maar in principe zou het wel kunnen dat factoren nog gecorreleerd zijn, dus misschien hier toch ook een oblieke rotatie testen)
SPSS geeft zelf het aantal factoren aan op basis van eigenwaarden >=1
ik inspecteer de geroteerde versie op factoren waar slechts 1, 2 of 3 items op laden en verwijder eventueel deze items (richtlijn lading van 0.30)
nieuwe factoroplossing
eventueel items excluderen die op meer dan 1 factor laden
uiteindelijke factoroplossing

Nu mijn vragen:

Is het verplicht van items die op meer dan 1 factor laden te verwijderen? Waarom is het beter dit te doen of waarom niet?

Is het goed van af te gaan op de oplossing van SPSS, of kan ik best de oplossing bekijken, beslissen over het aantal factoren dat mij de best interpreteerbare oplossing lijkt, en vervolgens de analyse opnieuw uitvoeren, maar deze keer a-priori het aantal factoren aangegeven

Vb. van de code dan als ik bijvoorbeeld 3 sterke factoren zie terugkomen

FACTOR

/VARIABLES=...

/MISSING LISTWISE

/ANALYSIS ...

/PRINT INITIAL CORRELATION SIG EXTRACTION ROTATION

/FORMAT SORT

/PLOT EIGEN ROTATION

/CRITERIA FACTORS(3) ITERATE(25)

/EXTRACTION ULS

/CRITERIA ITERATE(100)

/ROTATION VARIMAX.

Alleszins al bedankt. Ik kan nu sowieso verder. Het enige probleem dat ik nu dus ondervind is dat het geen straight forward analyse-procedure is, met naar mijn aanvoelen een relatief sterke subjectieve component die ik toch zoveel mogelijk wil uitsluiten. Vandaar dus mijn vraag nog naar een soort "stappenplan". Maar goed, ik kan weer verder

door **ferry** » ma 03 jan 2011, 21:29

Ook nog even de beste wensen.

En, het lijkt erop dat het de goede kant opgaat met de analyses?

Nog wel een vraag: die missende waarden zijn dat allemaal dezelfde respondenten? Zo ja, dan vallen die gewoon uit de analyses. Zo nee, dan verkleint je totale set enorm (stel dat bij 1 variabele 100 mensen missen en bij de volgende variabele 100 andere, dan zijn er al 200 totale missende waarden).

Succes!

door **Imengine** » ma 03 jan 2011, 16:21

Als ik alle "time/date-variabelen" eruit haal lost het probleem zich op. Dit zijn er echter toch redelijk wat en reduceert het aantal items tot 33, terwijl ik opmerk dat er uit die 33 items ook nog redelijk wat zouden moeten wegvallen (vb. items die dubbel laden of factors die slechts uit 2 items bestaan).

Als ik gewoon puur op de correlaties afga, dan bekom ik 37 items na exclusies, maar hier zitten dus nog wel heel deel date-variabelen in en is er het probleem van de communaliteiten en het niet vinden van bepaalde gekwadrateerde correlaties.

Ik zal eens proberen te kijken of het probleem zich nog voordoet na conversie van de date-variabelen aangezien er in deze variabelen toch ook nog nuttige informatie zit naar de factoroplossing toe en ik toch wil proberen om die mee in de analyse te betrekken.

door **Imengine** » ma 03 jan 2011, 10:42

Eerst en vooral mijn beste wensen voor het nieuwe jaar!

hopelijk heb je het goed in kunnen zetten. Bij deze ook bedankt voor je snelle reacties. Verder... wat betreft de factor analyse:

1. Het kan zijn dat het probleem ontstaat doordat 59 items worden toegevoegd. Als er een groot aantal is dat weinig met elkaar te maken heeft en een eigen dimensie meet, kan het zijn dat SPSS moeite heeft te convergeren. Op basis van de uitkomsten van de analyses die je nu hebt gedaan kun je zien of er zulke items zijn (die geen dimensie vormen met andere items). Deze kun je uit de analyses laten en vervolgens nog een keer de factoranalyse draaien. Zo kun je al explorerend bij een steeds betere oplossing komen.

Ik heb inderdaad opgemerkt dat dit het geval was, maar probleem bleek nog steeds. Ook heb ik items eruit gehaald die te hoog correleren (> 0.90). Ik denk dat er dan ongeveer 15 items wegvallen, maar het probleem bleef nog steeds.

2. De dataset bestaat uit 2500 respondenten. Hebben alle respondenten ook waardes op alle items? Of is er sprake van nonrespons op bepaalde items. Zo ja, dan kan het zijn dat de uiteindelijke dataset veel kleiner is dan de 2500 waarmee je bent begonnen. Dan is het een optie de slecht scorende items weg te laten.

Het is inderdaad wel zo dat niet alle respondenten waarden hebben op alle items. Nonrespons op bepaalde items bestaat echter niet. Over het algemeen varieert het aantal missende waarden tussen 50 en 400, er zijn echter ook items die een ongeveer 1000-1200 missende waarden hebben, dus ongeveer 1700 overblijvende waarden. Zou dit nog voldoende zijn? Of kan dit eventueel het probleem verklaren?

3. Zijn alle items gemeten op hetzelfde meetniveau?

Ze zijn allemaal ordinaal, maar het is wel zo dat er ook "data-variabelen" inzitten (met tijdsnotatie hh:mm) en dat de schalen wel verschillen. Die datavariabelen zou ik eventueel nog kunnen converteren. Zal de data-variabelen er eens tussenuit halen om te kijken of dit het probleem misschien verhelpt.

4. Heb je andere programma's dan SPSS tot je beschikking waarmee je de analyses kunt uitvoeren?

Ik beschik nog over Matlab, R en Stata. Met Stata heb ik wel nog nooit gewerkt.

Bedankt voor je vragen, het helpt me alleszins al om verder na te denken over mogelijke problemen bij de data.

door **ferry** » do 30 dec 2010, 08:26

Hoi Imengine,

Ok, bedankt voor de informatie. Dat maakt het een stuk inzichtelijker. Zo te zien is er verder niks mis met je aanpak (afgaand op je syntax). Volgens mij ligt het daar dus niet aan. Dan maar wat andere schoten in de lucht die misschien helpen.

1. Het kan zijn dat het probleem ontstaat doordat 59 items worden toegevoegd. Als er een groot aantal is dat weinig met elkaar te maken heeft en een eigen dimensie meet, kan het zijn dat SPSS moeite heeft te convergeren. Op basis van de uitkomsten van de analyses die je nu hebt gedaan kun je zien of er zulke items zijn (die geen dimensie vormen met andere items). Deze kun je uit de analyses laten en vervolgens nog een keer de factoranalyse draaien. Zo kun je al explorerend bij een steeds betere oplossing komen.

2. De dataset bestaat uit 2500 respondenten. Hebben alle respondenten ook waardes op alle items? Of is er sprake van nonrespons op bepaalde items. Zo ja, dan kan het zijn dat de uiteindelijke dataset veel kleiner is dan de 2500 waarmee je bent begonnen. Dan is het een optie de slecht scorende items weg te laten.

3. Zijn alle items gemeten op hetzelfde meetniveau?

4. Heb je andere programma's dan SPSS tot je beschikking waarmee je de analyses kunt uitvoeren?

Groeten

Ferry

door **Imengine** » wo 29 dec 2010, 13:58

Hoi ferry, eerst en vooral bedankt voor je snelle reactie!

Hieronder deel van de SPSS-syntax (ingekort met betekenisloze variabelenamen), in dit geval gewoon de PCA die ik gebruik (heb ook PAF eens uitgeprobeerd, door ULS te vervangen door PAF, maar die loopt dus helemaal niet). Zelf beperk ik me dus momenteel tot PCA, moet nog eens goed bekijken wat het verschil tussen PCA en PAF precies inhoudt en of dit onderscheid voor mij wel relevant is (ik gebruik de factor analyse nl. niet om schalen of vragenlijsten te valideren, het is eerder exploratief).

FACTOR

/VARIABLES=Variable01 Variable02 Variable03...

/MISSING LISTWISE

/ANALYSIS Variable01 Variable02 Variable03...

/PRINT INITIAL CORRELATION SIG EXTRACTION ROTATION FSCORE

/FORMAT SORT

/PLOT EIGEN ROTATION

/CRITERIA MINEIGEN(1) ITERATE(25)

/EXTRACTION ULS

/CRITERIA ITERATE(100)

/ROTATION VARIMAX.

Voor de correlatiematrix krijg ik volgende foutmeldingen:

"This matrix is not positive definite"

"This matrix is ill-conditioned and may produced invalid results"

Voor de communaliteiten krijg ik volgende foutmeldingen:

"Squared multiple correlations cannot be found. The initial estimate of each communality is the maximum absolute correlation between the variable and many other variable in the analysis."

"One or more communalitiy estimates greater than 1 were encountered during iterations. The resulting solution should be interpreted with caution."

Alhoewel ik dus wel een factoroplossing verkrijg, sta ik een beetje skeptisch ten opzichte van het gebruik ervan, mede door mijn gebrek aan kennis met betrekking tot factor analyse en hoe de eigenschappen van matrix en communaliteiten de uiteindelijke factoroplossing hebben beïnvloed.

door **ferry** » wo 29 dec 2010, 13:40

Beste Imengine,

Uiteraard zijn er bij dit soort onderwerpen/problemen zelfde standaardoplossingen. Ik denk dat het zou helpen als je de syntax en de uitvoer hier zou kunnen plaatsen. Dan is het gemakkelijker te bekijken wat er gebeurt en wat de foutmeldingen precies zijn.

Een andere mogelijkheid is het bekijken van het bestand, maar dit is denk ik iets van later zorg.

Groeten

Ferry

door **Imengine** » wo 29 dec 2010, 13:34

Dit komt een heel pak later, maar ik zit met hetzelfde probleem en de voorgestelde oplossing is niet echt informatief. PCA laat inderdaad toe de analyses uit te voeren, maar er komt wel een foutmelding dat de gevonden factoroplossing met zorg moet geïnterpreteerd worden. Dus PCA gebruiken in plaats van PAF, is niet echt hulpzaam om het probleem te begrijpen.

Na in wat boeken gedoken te hebben, heb ik factor analyse meer op een beredeneerde manier proberen uit te voeren, in plaats van het trial and error proberen. Hierin staat aangegeven dat op basis van de correlatiematrix je items die consistent te laag correleren (vb. tussen -0.2 en 0.2 voor alle correlaties met een bepaald item) en items die te hoog correleren (hoger dan 0.9) best kan uitsluiten. Dit heb ik gedaan, maar ik krijg vervolgens nog steeds de foutmelding.

Eerder had ik wel al eens enkel items uitgesloten die hoog correleren, en de laag correlerende items er wel nog ingehouden, en toen kreeg ik geen foutmelding meer.

Ik ben momenteel dus verward hoe de foutmelding tot stand komt en hoe ik een juiste oplossing kan bekomen zonder blindweg analyses te doen. Ik heb in totaal 59 items, waarbij ik wil nagaan of dit items kunnen gereduceerd worden tot een aantal betekenisvolle factoren. Initiaal sluit ik ongeveer 16 items uit. Het aantal subjecten in de dataset is ongeveer 2500. Is het omdat ik zoveel items uitsluit dat er problemen komen met de factoroplossing, terwijl te veel items dan ook weer problemen geven.

Als iemand me hier in wegwijs kan maken, zou dat super zijn. Alvast bedankt!!

Spss, factoranalyse en error

Plaats een reactie

Weergave uitklappen Voorafgaande berichten: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Re: Spss, factoranalyse en error

Contact

Community