202511121943 Status: school Tags: Datascience, dimensionality reduction
Principal Component Analysis PCA
PCA is een vorm van dimensionality reduction. Of nouja, je kan het beter omschrijven als een methode die je kan gebruiken voor dimensionality reduction.
De theory is als volgt, je hebt een dataset met heel vele numerical data kolommen, en wilt weten of dat er een verband is. Hiervoor kan je PCA gebruiken om de kollomen te mergen. Dat is de samenvatting.
Maar om het echt goed te kunnen gebruiken moet je het snappen.
Stel, je maakt een scatterplot van colom X en Y. Daarbij zie je een ongeveer lineare lijn. Wat je kan doen is X en Y mergen, dan wordt het dus een kolom.
Je merged het door een nieuwe lijn te trekken tussen de punten, en dat dan als nieuwe axis te gebruiken. zie plaatje:

je wilt hierbij wel dat er veel ruimte zit tussen de items. zie volgend plaatje:

Verder kan je dit doen in zo veel dimensies als je wilt. Kijk dit 3d voorbeeld:

Of dit volgende 3d voorbeeld:

Het is niet al te makkelijk om te begrijpen. Wat mij persoonlijk erg hiermee heeft geholpen is het snappen van de theory achter 4D. Om daar uitleg over te krijgen raad ik je aan om de gemiddelde standaard uitleg te luisteren van gamedev youtubers.
- Mashpoe’s explenation - maker of 4D Miner.
- marktenbosch’s example - the creator of Miegakure and 4D toys.
het maakt niet uit hoeveel kolommen je tegelijk wilt mergen / compressen, behalve dat je wel in de gaten moet houden dat als je heel veel compressed, je messchien wel relaties ziet, maar dat je ook heel veel informatie verliest.

notes
- PCA werkt alleen met lineare relaties.
- gebruik PCA alleen als het nodig is: (disk, memory, slow learning)
- als je teveel merged (dus van 50 naar 2 bijv) krijg je een redelijke kans op overfitting, omdat je de kans loopt om belangrijke data weg te gooien.
- Het is beter om regularization te gebruiken om overfitting te voorkomen.
- Je kan PCA gebruiken voor noise reduction.
References
Dit is iets wat we leren voor Datascience. dit was informatie vanuit deze les. en daarbij horen deze slides