Pieter Delobelle

Ik bouw en bestudeer grote taalmodellen. Pretraining, tokenisatie, synthetische data & AI-veiligheid.

dr. ing. · Lead AI Scientist bij Pleias · Postdoc aan de KU Leuven

Pieter Delobelle bij Station F, Parijs

Waar ik aan werk

Bij Pleias werk ik aan LLM-pretraining en synthetische data — recent publiceerde ik Nemotron-Personas-Belgium samen met NVIDIA. Aan de KU Leuven richt mijn onderzoek zich op tokenisatie, eerlijkheid en Nederlandse taalmodellen.

Ik creëerde RobBERT, de Nederlandse taalmodelfamilie in de top 80 op Hugging Face, en heb meegewerkt aan de meeste open Nederlandse LLM's — van Tweety tot ChocoLlama. Wat veiligheid betreft, werk ik aan het meten van bias, het verminderen van toxiciteit (met Apple, op ICML), en de vraag wie bepaalt wat “eerlijk” betekent. Ik werk ook aan tokenisatie en ontwikkelde trans-tokenization, een methode om LLM's van de ene taal naar de andere te vertalen.

Mijn werk is gepubliceerd op topconferenties zoals ICML, NAACL en EMNLP, inclusief werk bij Apple en Aleph Alpha. Ik deed onderzoeksbezoeken aan MilaNLP (Bocconi), HU Berlin en het Weizenbaum Institute, en verzamelde 1.000+ citaties over 32 publicaties. Mijn onderzoek is verschenen in WIRED, MIT Technology Review, De Tijd en VTM Nieuws.

Ik draag bij aan AI-beleid als NLP-expert voor de gedragscode van het EU AI Office en was lid van de GenAI-adviescommissie van KU Leuven.

Ik geef ook regelmatig talks over AI en taalmodellen. Ik heb gesproken bij bedrijven zoals Apple, KBC, VRT, TechWolf, ML6 en Superlinear, en op verschillende evenementen, zoals bij Wintercircus. Onderwerpen variëren van LLM-pretraining en technische deep dives over LLM-inferentie tot AI-veiligheid en inleidende talks over het Nederlandse NLP-ecosysteem.

Nieuws

June 18, 2026 We brachten samen met NVIDIA Nemotron-Personas-Belgium uit. Aankondiging op de Pleias-blog 🇧🇪. June 04, 2026 Ik nam deel aan een panel over "AI is changing our research" op SMiLee 2026, onze DTAI-onderzoeksworkshop. June 04, 2026 Onze paper over query-efficiënte fairness auditing van black-box LLMs werd geaccepteerd op ACL 2026 Findings 🎉. May 26, 2026 Ik gaf een talk over wat LLMs wel en niet kunnen bij Bonus advocaten. May 22, 2026 Ik leidde een workshop over synthetische data op de OSFM-workshop bij Keulen. May 19, 2026 Onze preprint over wat het uitfaseren van Perspective API betekent werd uitgelicht in Tagesspiegel Background. May 06, 2026 I gave a lecture on fairness in LLMs at TU Berlin. April 28, 2026 Nieuwe preprint op arXiv over wat het uitfaseren van Google's Perspective API betekent. April 23, 2026 Ik gaf een half-day lecture over safety en fairness in LLMs aan KU Leuven. April 22, 2026 Ik gaf een talk over Belgische LLMs op de Jura Falconis studiedag. February 24, 2026 Ik werd geïnterviewd voor het Nieuwsblad over AI-modeldiefstal. February 11, 2026 Ik ga spreken over 'building LLM inference from scratch' bij AI Tinkerers Ghent. January 26, 2026 Ik werk nu bij Pleias aan synthetische data en small language models 🥖🇫🇷. January 24, 2026 Ik werd live geïnterviewd op VTM Nieuws over LLM hallucinations.
Alle talks & presentaties