Datascience lifecycle stappen:

  • Uitzoeken welke data je nodig hebt, verdiepen in wat de stakeholder wilt en wat daar voor nodig is.
  • cleanen van je dataset, data analysis.

Dimensionality Reduction.

Non-linear correlation

corellation between 2 numerical values refers to their ā€œrelatednessā€, someone who is tall generally has bigger feet, that is a correlation. the stronger the correlation, the more 1 tells about the other. the more you can predict.

⇐ 0.3 no relation 0.4 - 0.6 is some relation

= 0.7 strong relation

pearsum correlation P is calculatable with a heatmap, where 0 is not a correlation, and closer to -1 or 1 means there is correlation. aka, the darker the heatmap (doesn’t matter if its blue or red) the better the correlation.

A negative correlation has a line in this direction
A positive correlation has a line in / this direction.

but the pearsum correlation is only about linear correlation, there might be other correlations present. this is a non-linear relationship.

so if a heatmap says there is no correlation, you have to look at more other things.

if you don’t see a pattern in a heatmap nor a scatterplot, there is not a correlation.

how to detect non linear correlations?

you can visualise it and see it in a scatterplot.

there are also other methods with statistics to observe this.

spearman correlation coefficient

a heatmap by default follows the pearsum correlation, but you can change this for a spearman correlation.

something something ordinal and something something monotonic function

a monotonic function always goes in a single direction, always up or always down, but not /\/\/\/\, a non monotonic function can go /\/\/\/\

kijk de slides over hoe je dingen moet berekenen.

er kan ruis ā€œnoiseā€ in zitten wat het verstoort om een cunclusie te trekken.

maximal information coefficient MC

gekke figuren zoals een parabool, circel of sinus wave kan opgevat worden alsof het geen correlatie is als je spearman en pearsum gebruikt, maar wij kunnen toch wel echt zien dat er correlatie is in de scatterplot.

something something duck helmet dataset yupiter notebook?

dimensionality reduction

meestal gebruiken we feature selectien om te kijekn of er correlatie is. maar nu gaan we aan de slag met feature extraction feature extraction is een waarde verzinnen gebaseerd op andere features. je kan oude colommen die nutteloos zijn. dat is data compression.

dit klinkt een beetje vaag, dus ff uitzoeken zelf.

als je een hele rij verwijdert omdat er een NaN in zit raak je ook feutures kwijt uit andere kolommen, dat is niet handig.

dit maakt het sneller.

dimensionality reduction 2D → 1D

dit is een slide.

als er 2 dingen zijn die logisch zijn en samenvoegbaar zijn, kan je ze ook samenvoegen, dan ga je van een diagonale correlatie naar een vlakke lijn die je weer kan vergelijken met andere data. het is een beetje een toepassing van linear regression. je zoekt de lijn waar de punten er het dichste bij zitten, en dan wordt die lijn de axis waarop de nieuwe samengevoegde values komen. dit wordt trwns gedaan door een algorythme, dit hoef je niet manual te doen.

je wilt natuurlijk wel dat je punten verspreidt worden over de lijn.

what happens with a different projection line?

dit is ook een slide

iedere kolom in een dataset kun je zien als een dimensie. als je al met chatgpt / embedding hebt gewerkt / de theory weet, dan is dit wat makkelijker te begrijpen.

dimensionality reduction 3D → 2D

dit is ook weer een slide.

als alles ongeveer plat licht in hoogte kan je net zo goed 3D omzetten naar 2D. het is in theory het zelfde als 2D → 1D, alleen in de achtergrond is het meer processing unit.

je kan ook van 3D naar 1D, maar dat kan exreme zijn. je kan aangevebn aan het algorythme wat je allemaal wilt behouden.

something something vectors.

1% verliezen van data is niet erg, dus 99% accuracy is goed.

de volgende slide is handig met visualiseren als je niet weet wat er bedoelt wordt of hoe je het voor je moet zien more graph to illustrate dimensionality reduction.

je kan ook van 50D naar 12D, het boeit niet echt hoeveel D je wilt compressen. je verliest misschien meer data, maar het kan.

je gebruikt principal component analysis alleen op numerical, nooit op categorische.

het is een lineare transformatie.

2D → 1D: find 1 vector 3D → 2D: find 2 vectors n-D → k-D: find k vectors

PCA is not linear regression, the difference is dat bij linear regression je weet wat je wilt voorspellen. bij pca weet je de labels niet.

je kan de dimensionality reduction ook reversen.

PCA gebruiken we om training etc te versnellen

op de slide pca in practice, in a good way geeft een stappenplan.

dit is ook hoe LLM’s text omzetten in embeddings vgm.

als je normaliseerd moet je het zelfde doen op de test als training dataset.

tip, je kan overfitting krijgen als er teveel kollomen zijn, PCA kan daar niet mee helpen. gebruik regularisatie in plaats daar van.

pca noise filtering kan gebruikt worden om noise ā€œruisā€ weg te halen uit handschrift fotos. pca met een varience van 50%

voor donderdag moet je een presenatie maken over TSNE en PCA in een groepje, of alleen??? komt nog online op brightspace. TSNE uitzoeken is huiswerk

er komt een notebook online op brightspace over PCA

references

tags