202511121948 Status: school Tags: Datascience

Dimensionality reduction

De theory is als volgt, je hebt een dataset met heel vele numerical data kolommen, en wilt weten of dat er een verband is. Hiervoor kan je methodes gebruiken om de kollomen te mergen. Dat is de samenvatting.

Waarom wil je dit? nou het scheelt heel veel opslag als je kolommen kunt mergen. dit wordt data compression genoemd. Verder versnelt dit ook de algorithmes.

Je hebt verschillende methodes voor Dimensionality Reduction:

Maar wanneer gebruik je welke?

methode guide

Nou ik zou kunnen zeggen, lees de losse pagina’s, want je moet het snappen om een goede keuze te kunnen nemen. Maar hieronder heb ik een samenvatting: (samenvatting is gegenereerd door ChatGPT gebaseerd op mijn artikelen.)

PCA

Je gebruikt PCA wanneer:

  • Je data lineaire relaties bevat.
  • Je doel is om de data sneller te verwerken of minder opslag te gebruiken.
  • Je gewoon even snel de belangrijkste patronen of richtingen in je data wilt zien.
  • Je voorverwerking doet voor een andere techniek (zoals t-SNE of UMAP). Je gebruikt PCA NIET wanneer:
  • Je data non-linear is (zoals bij beeld- of tekstdata).
  • Je alleen geïnteresseerd bent in clusters of vormen in complexe data.

PCA is vaak de eerste stap in een pipeline:
➡️ Gebruik PCA om van 1000 dimensies naar bijvoorbeeld 30 te gaan
➡️ En gebruik daarna t-SNE of UMAP voor visualisatie

T-SNE

Je gebruikt T-SNE wanneer:

  • Je vooral geïnteresseerd bent in clustering of lokale relaties in de data.
  • Je wilt patronen of groepen ontdekken in complexe data (zoals afbeeldingen, tekst of biomedische data).
  • Je data al is verkleind met PCA (bijv. tot 30 dimensies). Je gebruikt T-SNE NIET wanneer:
  • Je dataset groot is (t-SNE is traag).
  • Je de globale structuur wilt behouden (t-SNE focust vooral op lokale patronen).
  • Je interpretatie belangrijk vindt (de assen hebben geen betekenis).

Gebruik t-SNE als je vooral wilt weten “welke punten horen bij elkaar?”, niet “hoe ver liggen clusters van elkaar?”

UMAP

Je gebruikt UMAP wanneer:

  • Je dezelfde doelen hebt als bij t-SNE, maar sneller en op grotere datasets wilt werken.
  • Je een balans wilt tussen lokale én globale structuur.
  • Je wilt werken met non-lineaire relaties, net als bij t-SNE, maar met meer controle. Je gebruikt UMAP NIET wanneer:
  • Je geen zin hebt om te tunen aan hyperparameters (zoals n_neighbors).
  • Je precieze interpretatie van de plot wilt (assen hebben net als bij t-SNE geen betekenis).

UMAP is vaak de moderne vervanger van t-SNE:
➡️ t-SNE is beter als je alleen lokale clusters wilt zien.
➡️ UMAP is beter als je ook de grotere structuur van de data wilt behouden.


References

Dit is iets wat we leren voor Datascience. dit was informatie vanuit deze les. en daarbij horen deze slides