Een technisch perspectief op meertalige LLMs en het Nederlands.
AIUP8 @ Wintercircus
Ghent, Belgium
Abstract
GPT‑5 spreekt vloeiend Nederlands. Hebben we dan nog Nederlandse modellen nodig? Een technische blik op waar meertalige modellen stuk gaan — en waarom bouwen voor het Nederlands de moeite blijft.
De talk is opgebouwd rond drie vragen: taal en cultuur (waarom tokenization en data‑ratio's Engels structureel bevoordelen), sovereign AI (wat er gebeurt met je prompts in de cloud, en wat lokaal draaien realistisch kost), en onze waarden (hoe de keuze van trainingsdata — DeepSeek vs. westerse modellen, en het werk rond GeitJe en ChocoLlama — bepaalt wat een model uitstraalt).
Bedoeld voor een technisch publiek dat comfortabel is met transformers. Geen Nederlands vereist.
Outline
Resources
Trans-Tokenization and Cross-lingual Vocabulary Transfers
arXiv:2408.04303 · COLM 2024
Large Language Models Reflect the Ideology of their Creators
Buyl et al. (2024) — referenced in the “Our values” section
RobBERT — Dutch RoBERTa
Pretraining details, downloads and benchmarks
Dutch Language Models @ VUB Ada Lovelace Lectures
The longer, more research‑focused version of the same story