202511122032 Status: school Tags: Datascience, dimensionality reduction

Uniform Manifold Approximation and Projection UMAP

UMAP is een vorm van dimensionality reduction. Of nouja, je kan het beter omschrijven als een methode die je kan gebruiken voor dimensionality reduction.

De theory is als volgt, je hebt een dataset met heel vele numerical data kolommen, en wilt weten of dat er een verband is. Hiervoor kan je UMAP gebruiken om de kollomen te mergen. Dat is de samenvatting.

Maar om het echt goed te kunnen gebruiken moet je het snappen.

notes

  • pro: state of the art
  • pro: sneller dan T-SNE
  • pro: kan grote datasets aan
  • pro: behoudt locale en globale structuur. (beter dan T-SNE)
  • pro: kan non-linear correlation aan. (beter dan PCA)
  • con: Neighbors hyperparameter, UMAP heeft een parameter die bepaalt hoeveel nabije punten gebruikt worden bij het berekenen van de structuur. Deze keuze beïnvloedt sterk of de nadruk ligt op lokale of globale patronen, dus het vergt wat experimenteren om de juiste waarde te vinden.
  • con: Moeilijk te interpreteren, Net als bij t-SNE hebben de assen van de UMAP-plot geen betekenis. De oriëntatie of absolute positie van clusters mag je niet letterlijk interpreteren, het gaat alleen om de relatieve afstanden en vormen.

References

Dit is iets wat we leren voor Datascience. dit was informatie vanuit deze les. en daarbij horen deze slides