202511191245 Status: idea Tags: Datascience, NLP, Stemming
Porters Stemmer NLTK
De Porter-stemmer is een populair algoritme uit 1980 dat wordt gebruikt in de natuurlijke taalverwerking om woorden te reduceren tot hun stam door middel van heuristische regels die achtervoegsels verwijderen. Het is snel en efficiĂ«nt, maar kan soms tot linguĂŻstisch incorrecte stammen leiden omdat het enkel voor het Engels is ontworpen en geen woordenboek gebruikt. Â
Hoe het werkt:
- Het algoritme past een reeks van vijf stappen toe, waarbij elke stap bestaat uit meerdere regels om achtervoegsels te verwijderen. Doel:
- Het normaliseert woorden door ze terug te brengen naar een basisvorm, wat handig is voor taken zoals tekstanalyse en informatie-extractie. Voorbeeld:
- Het woord “agreed” wordt “agree” door de “eed”-regel toe te passen, terwijl “running” en “runs” beide worden gereduceerd tot “run”. Beperkingen:
- De resulterende stam is niet gegarandeerd een bestaand woord (bijvoorbeeld “was” wordt “wa”).Â
- Het werkt alleen voor Engelse woorden, en de output kan linguĂŻstisch incorrect zijn.
References
- Dit is iets wat we leren voor Datascience. dit was informatie vanuit avans 2-2 datascience 2025-11-12. en daarbij horen deze slides
- Porter’s Stemmer is een vorm van Stemming.