202511122012 Status: school Tags: Datascience, dimensionality reduction

T-Distributed Stochastic Neighbor Embedding T-SNE

T-SNE is een vorm van dimensionality reduction. Of nouja, je kan het beter omschrijven als een methode die je kan gebruiken voor dimensionality reduction.

De theory is als volgt, je hebt een dataset met heel vele numerical data kolommen, en wilt weten of dat er een verband is. Hiervoor kan je T-SNE gebruiken om de kollomen te mergen. Dat is de samenvatting.

Maar om het echt goed te kunnen gebruiken moet je het snappen.

T-SNE kijkt naar punten in een dataset en berekend hoe groot de kans is dat de punten buren van elkaar zijn. En dan verplaatst hij het punt in “low-dimensional space” keer voor keer (iteratively) todat de overeenkomsten tussen low-dimensional space en het echt kloppen.

PCA met T-SNE

je kan ze samen gebruiken, maar gebruik eerst PCA todat je bijvoorbeeld nog maar 30 dimensions over hebt. Het haalt de noise weg zonder heel erg de “interpoint distance” aan te passen. Je wilt dit doen omdat PCA veel efficienter is dan T-SNE.

notes

  • pro: het kan werken met non-linear correlation.
  • pro: Het helpt goed bij het ontdekken van clusters of patronen in complexe datasets, bijvoorbeeld bij beeld- of tekstdata met veel kenmerken.
  • pro: t-SNE is erg goed in het behouden van lokale relaties in de data. Dat betekent dat punten die in de oorspronkelijke hoge dimensie dicht bij elkaar liggen, ook dicht bij elkaar blijven in de 2D/3D-plot.
  • con: het is traag
  • con: Terwijl lokale relaties goed behouden blijven, kunnen globale afstanden (de positie tussen verre clusters) minder betrouwbaar zijn.
  • con: De assen van de t-SNE-plot hebben geen betekenis. Je kunt dus niet zeggen “dit is de X- of Y-richting van een bepaalde eigenschap”. Nu vraag je je misschien af, dat deed PCA toch ook niet? maar bij PCA, als er iets links staat, kan je er vanuitgaan dat het ook op een uithoekje stond eerst. waarbij T-SNE de hele scatterplot warped.
  • con: Hyperparameter ‘perplexity’, Deze parameter bepaalt de balans tussen lokale en globale structuur. Het kiezen van de juiste waarde is niet altijd eenvoudig en kan grote invloed hebben op het resultaat.

References

Dit is iets wat we leren voor Datascience. dit was informatie vanuit deze les. en daarbij horen deze slides