jupyter notebooks
setup
- open âanaconda promptâ
- type and run
conda create -n "datascience"
- type and run
conda activate datascience
- type and run
conda install pip
- type and run
pip install notebook
- type and run
jupyter notebook
maak de dir niet startend met een punt :3
pip install pandas
pip install numpy
pip install seaborn
re-launch
- open âanaconda promptâ
- type and run
conda activate datascience
- type and run
jupyter notebook
Datasets
kaggle is a website to find datasets, and so is huggingface
Begrippen
Univariate analysis
- Univariate analysis - Notebook 1
je pakt hierbij een row aan data en die ligt je uit
- Categorisch Hierbij kijk ja naar hoevaak een key voorkomt en zet dit in een grafiek, barchart bijv.
- Numeric Hierbij kan je boxplots gebruiken om te kijken naar uitliggers, maar ook kijken naar Gemiddelde, Mediaan, Modus en Berijk
Boxplot
- Boxplot (Box-and-Whisker Plot) â Notebook 1
Een boxplot is een grafiek die helpt om de verdeling van numerieke data snel te begrijpen.
Het laat zien:- Mediaan (middelste waarde)
- Kwartielen (Q1 = 25%, Q3 = 75%)
- Whiskers (lijnen die data binnen bereik tonen, zonder uitbijters)
- Outliers (uitbijters: extreem lage of hoge waarden, getoond als stipjes)
- De box (doos):
Geeft het middenste 50% van de data weer (tussen Q1 en Q3) - De lijn in de box:
Dat is de mediaan (het middelste datapunt) - Whiskers:
Lijnen die gaan van de box naar de kleinste/grootste niet-uitbijtende waarden - Outliers:
Waarden die ver buiten de rest vallen, worden apart weergegeven als stipjes Voorbeeld: Stel je hebt deze data:
[80, 82, 78, 85, 79, 81, 400]
- De meeste waardes liggen rond de 80
- Maar 400 ligt er ver buiten â dat is een outlier
Distributies
- Distributies - Notebook 2
Een distributie is een manier om te kijken hoevaak dingen voorkomen in verband tot elkaar. De meer data er is, de smoother de analysis grafiek.
- Uniform distributie Dit is wat je krijgt als je ongeveer een rechte lijn hebt, als je met 1 dobbelsteen vaak genoeg gooit zal elk nummer ongv net zo vaak gegooid worden.
- Normaal distributie dit is curve die je krijgt als je bijcoorbeeld met 2 dobbelstenen gooit. de 2 en 12 is weinig gegooid vergeleken de 7. example picture irl examples of this
- Er zijn er nog meer, die kan je hier vinden.
Centrale Limietstelling
- Central Limit Theorem (Centrale Limietstelling) - Notebook 2
Als je veel willekeurige steekproeven neemt van een bepaalde grootte uit elke populatie (maakt niet uit hoe die verdeeld is), en je berekent het gemiddelde van elke steekproef, dan geldt het volgende:
- De verdeling van die steekproefgemiddelden wordt ongeveer normaal verdeeld (belvormig)
- Het gemiddelde van die steekproefgemiddelden is gelijk aan het populatiegemiddelde
- De spreiding (standaardafwijking) van die gemiddelden wordt kleiner naarmate de steekproeven groter zijn
- Dit geldt ook als de oorspronkelijke data niet normaal verdeeld is!
Waarom is dit handig?
Omdat je dan: - Hulpmiddelen van de normale verdeling kunt gebruiken (zoals betrouwbaarheidsintervallen) ook bij niet-normale data
- Voorspellingen en uitspraken kunt doen over gemiddelden van de populatie
- Kunt verklaren waarom het steekproefgemiddelde bij grote steekproeven betrouwbaar is
Betrouwbaarheidsinterval
- Confidence Interval (Betrouwbaarheidsinterval) â Notebook 2
Een betrouwbaarheidsinterval is een bereik van waarden waarvan we denken dat het met een bepaalde zekerheid de echte populatiewaarde bevat (zoals het gemiddelde of een proportie), gebaseerd op een steekproef.- Meestal gaat het over het gemiddelde, dus daar focussen we op.
- Een 95% betrouwbaarheidsinterval zegt: âWe zijn 95% zeker dat het echte populatiegemiddelde binnen dit interval ligt.â
- Hoe hoger de zekerheid (bijv. 99% in plaats van 95%), hoe groter het interval wordt.
- Bij 100% zekerheid krijg je een interval van -â tot +â, wat nutteloos is.
- Daarom is in de wetenschap 95% betrouwbaarheid standaard afgesproken.
Bivariate analyse
-
Bivariate analyse â Notebook 3
Hierbij kijk je naar de relatie tussen twee variabelen (twee kolommen).Afhankelijk van het type van beide variabelen kies je de juiste techniek:
- Numeriek VS Numeriek
- Numeriek VS Categoraal
- Categoraal VS Categoraal
Numeriek VS Numeriek
- Voorbeelden
- Lichaamslengte VS Schoenmaat
- Leeftijd VS Tijd om 1âŻkm te lopen
- Landsâwerkloosheidspercentage VS Geluksindex
- Omzet per klant VS Klantlevensduur
- Aantal wenslijstâtoevoegingen VS Aantal aankopen
- Cijfer student VS Aanwezigheidspercentage
Scatterplot
-
Scatterplot (Puntenwolk) â Notebook 3
Een scatterplot toont de relatie tussen twee numerieke variabelen.- Xâas: waarden van variabele 1 (bijv. sepal_length)
- Yâas: waarden van variabele 2 (bijv. petal_length)
- Punt: één waarneming (één bloem in de Irisâdataset)
Waarvoor handig?
- Correlaties of lineaire relaties spotten
- Clusters of groepen herkennen
- Uitbijters zien
Pearsonâcorrelatie
-
Pearsonâcorrelatie â Notebook 3
Een maat voor de lineaire relatie tussen twee numerieke variabelen. Geeft een waarde tussen â1 en +1:- â1: perfecte negatieve lineaire relatie
- **Â 0**: geen lineaire relatie
- +1: perfecte positieve lineaire relatie
Interpretatie
- Dicht bij ±1 â sterke lineaire samenhang
- Dicht bij 0 â zwakke of geen lineaire samenhang
Numeriek VS Categoraal
- Numeriek VS Categoraal â Notebook 3 Hier vergelijken we een numerieke variabele met een categorische variabele.
Voorbeelden
- Maandelijks inkomen VS Hoogst behaald diploma
- Lichaamslengte VS Land van herkomst
- Gelukswaardering VS Land van herkomst
- Omzet VS Accountmanager
- Omzet VS Productcategorie
- Omzet VS Gameâgenre
- Retentie (%) VS Softwareâversie
Gemiddelden per categorie
In univariate analyse gebruikten we betrouwbaarheidsintervallen voor numerieke data.
Bij numeriekâŻVSâŻcategoraal kunnen we per categorie het gemiddelde berekenen Ă©n een betrouwbaarheidsinterval tonen om te zien of categorieĂ«n echt van elkaar verschillen.
Categoraal VS Categoraal
- Categoraal VS Categoraal â Notebook 3
Hier onderzoeken we de relatie tussen twee categorische variabelen.
Voorbeelden
- Inboundâkanaal VS Type klant
- Opleidingsniveau VS Functie
- Regio burger VS Stemgedrag
- Shirtkleur crewâlid in Star Trek VS Overleving crewâlid
- Nieuwsbriefâinschrijving (Ja/Nee) VS Churn (Ja/Nee)
- Eiland van pinguĂŻn VS PinguĂŻnâsoort
Contingentietabel (crosstab)
-
Een contingentietabel toont hoe vaak elke combinatie van categorieën voorkomt.
-
Rijen = waarden van variabele A, kolommen = waarden van variabele B, cellen = tellingen.
TypeâŻA1 TypeâŻA2 TypeâŻA3 CategorieâŻB1 12 5 8 CategorieâŻB2 4 15 2 CategorieâŻB3 7 3 10
stack() en unstack() in pandas
- unstack(level)
Kantelt een indexniveau (MultiIndexârij) naar kolommen â bredere DataFrame. - stack(level)
Kantelt een kolomniveau naar rijen â diepere MultiIndex op de rijâas.
Gebruik unstack om een crosstab overzichtelijker als DataFrame te tonen; gebruik stack om weer terug te gaan naar lange vorm.
Chiâkwadraatâtoets van onafhankelijkheid
-
chi2_contingency
â scipy.stats
Test of twee categorische variabelen onafhankelijk zijn.- Chiâkwadraatâstatistiek: maat voor verschil tussen waargenomen en verwachte frequenties (onder aanname van onafhankelijkheid).
- pâwaarde: kans dat zoân groot verschil toevallig ontstaat.
- pâŻ<âŻ0.05 â verwerpâŻHâ (onafhankelijkheid), er is een significante associatie.
- Verwachte frequenties: cellentellingen bij geen relatie.
Interpretatie
- Grote ÏÂČ en zeer kleine pâwaarde â cellentellingen wijken significant af van onafhankelijkheidsâverwachting.
- Conclusie: de twee categorische variabelen hangen samen (niet door toeval).
In gewone taal
- Je maakt een tabel van kruistellingen (contingentietabel).
- Je voert de chiâkwadraatâtoets uit op die tabel.
- Een pâwaarde <âŻ0.05 betekent: âEr is meer verschil dan je door toeval zou verwachten.â
- Dus: categorieën zijn niet onafhankelijk, er is een verband.
SeabornâŻbarplot
-
seaborn.barplot()
â Notebook 3 Maakt een staafdiagram waarin per categorie:- De staafhoogte het gemiddelde is van de numerieke waarden
- De foutbalk (error bar) standaard een 95% betrouwbaarheidsinterval toont
Voordelen t.o.v. een simpele barplot
- Automatisch berekenen van gemiddelden bij meerdere datapunten per categorie
- Tonen van betrouwbaarheidsintervallen
Wat is NumPy?
-
NumPy (Numerical Python) â Notebook 3
Krachtige Pythonâbibliotheek voor numerieke berekeningen.- ndarray: multiâdimensionale array
- Rekenkundige bewerkingen: som, gemiddelde, dotâproduct, enz.
- Lineaire algebra, randomânummers, Fourierâtransformaties, âŠ
Waarom gebruiken?
- Zeer snel op grote arrays
- Basis voor veel andere libraries (pandas, scikitâlearn, etc.)
- Handige functies voor statistiek en wiskunde