1 van 1

Efficient indelen data in groepen

Geplaatst: vr 30 nov 2012, 13:59
door Dire
Ik heb een tabel waarin grote hoeveelheden diktes staan. Het gewicht is het gevolg van deze diktes (geen 1op1 verhouding).

Wij mogen altijd hogere diktes toepassen, maar nooit lagere. Nu willen wij deze lijst indelen in groepen, zie het voorbeeld. De lijst is nooit hetzelfde en nooit evenlang. Nog zijn de groepen gelijk in hoeveelheid, maar deze mikken wij meestal op 6 stuks.

Dit doen wij iedere keer handmatig waarbij iemand steeds de afweging maakt hoeveel groepen toe te passen waar deze splitsing te maken.

Nu is mijn vraag, is hier niet een wetenschappelijke benadering voor, zodat wij dit in een formule kunnen verwerken, of een visual basic loopje van te maken.

Met vriendelijk groet,

Daniel

Re: Efficient indelen data in groepen

Geplaatst: vr 30 nov 2012, 16:59
door dannypje
Je kan uiteraard altijd een programmaatje schrijven om deze verdeling te maken, maar als je zegt dat iemand handmatig kijkt en dan beslist hoeveel groepen er gemaakt moeten worden, denk ik dat je zal moeten trachten te modelleren hoe die iemand zijn beslissing neemt.

Je zou lineair kunnen splitsen, afhankelijk van hoeveel groepen je wil. Anderzijds zou je ook rekening kunnen houden met een zekere 'verdeling' van de gewichten (ttz. als er veel afstand is tussen gewichten zou je die kunnen groeperen, en daar waar de gewichten dichter bij mekaar liggen meer groepen gaan toekennen. Dan zou je de distributie van de gewichten moeten opstellen en op basis daarvan beslissen. Zelf niet zeker hoe je dit best zou aanpakken.

Re: Efficient indelen data in groepen

Geplaatst: vr 30 nov 2012, 17:22
door Drieske

Opmerking moderator

Verplaatst naar Programmeren.

Re: Efficient indelen data in groepen

Geplaatst: vr 30 nov 2012, 17:28
door Xenion
Er bestaat een techniek die K-means clustering heet.

Simpel uitgelegd onderstel je dat je in een dataset K verschillende groepen hebt. Elk van die groepen heeft een gemiddelde. Een datapunt hoor tot de groep waarvan het gemiddelde het dichtste bij is.

Het algoritme zal iteratief de K gemiddeldes proberen te bepalen die voor een goeie indeling zorgen.