datascience life cycle

80% tijd van data analysis is data opschonen

je switcht vaak tussen data engineering, machine learning en decision making heen en weer.

Uitschieters kunnen handig zijn voor een dataset, soms ook niet. denk logisch na. Vergeet dit soort dingen niet te vermelden. het zelfde als je colommen aanpast: je kan bijv geboorte jaar aanpassen naar leeftijd om het logischer / makkelijker voor jezelf te maken.

het is handig om colommen te forceren sl een type zodat nummers niet worden gezien als strings

het is handig om dingen zoald US, USA, en United states consistant te maken.

Let ook op verschillende meet methodes zoals farenheit en feet.

laat altijd weten dat je dit soort dingen doet.

je kan kiezen om dingen te verwijderen, omzetten, gemiddelde invullen. hangt van de context af. als iemand een toets niet maakt wil je niet dat het mee telt in het gemiddelde.

vergeet niet te valideren.

Critical thinking is key, Never drop the data blindly.

Het is niet erg om chatgpt te gebruiken voor dit soort dingen, zolang je er van leert. (want de toets is een assesment ofc)

vraag altijd na wie de data gecollecteerd heeft. Want dat kan bias implementeren. zo kan er iets overrepresented / missing zijn, let ook op dat cleaning geen bias introduceert.

kies zelf of dat 1 of 2 personen het cleanen. er is geen aangeraden manier om dit aan te pakken.

visualisatie is nodig, maar hoe je het doet boeit niet.

de standaard yupitter notebook komt online.

je meot 2 opdrachten inleveren voor maandag avond. opdracht 1 is een gekregen dataset, 2 is vind een nieuwe dataset.

het assesment is in duo op teams. ergens eind week 4 / 5 is de booking voor het assesment.

er is een assessment en een presentatie?