202511121016 Status: school Tags: Datascience

avans 2-2 datascience 2025-11-12

Natural language processing (NLP)

NLP vormen:

  • speech recognition
  • language translation
  • text summarization

NLP zet onze vormen vna informatie, text, om in iets wat AI kan snappen.

natural language understanding is het achterhalen van de betekenis van menselijke text. natural language generation is het maken van mens leesbare text gebaseerd op data.

NLP techniques:

  1. text normalization
  2. tokenization
  3. stopword removal
  4. stemming: het weghalen van achtervoegsels: -ing, beschikbaar -> beschik
  5. lemmatization: gewerkt -> werken. het omzetten naar de stam
  6. POS Tagging: het labellen van woorden

lees geeks for geeks voor meer info (link in slides)

NLP tasks NLP applications

Natural Language Processing is the combination of natural language generation and natural language understanding.

RNNs: Recurrent Neural Networks.

STEPS of text normalization:

  1. Convert to lowercase
  2. remove numbers met regex.
  3. remove punctuation
  4. remove leading and trailing whitespaces
  5. remove stopwords with NLTK. als het in NL is, zijn er communities die het hebben gedaan, want NL zit niet in NLTK, je kan het ook translaten naar EN.

deze stappen zijn te zien in de slides.

tokenization split text op in tokens, dit kan per character of per woord. gpt doet het ± 3 characters.

Porters stemmer is NLTK. is een package voor engelse text. maar het kan zorgen voor niet bestaande woorden.

Text representation techniques

  • One-hot encoding
  • Bag of Words (BOW)
  • TF-IDF
  • N-Gram Models (e.g. with NLTK)
  • Latest Semantic Analysis (LSA)

One hot encoding

convert categorische variabelen naar een binary format each category becomes a seperate colum where 1 or 0 resembles whether it is present.

kijk slides voor voorbeeld.

bag of words

kijkt hoevaak een woord voor komt, en gaat daarmee text classificeren

lees de slide

opdracht is zonder demo. neem hem zelf serieus door.

maak de model evaluation af maak een nlp opdracht


References