Wie voor het eerst met een AI-model werkt, is vaak verrast door wat het kan. Het schrijft samenhangende teksten, legt complexe begrippen uit, vertaalt tussen talen, en produceert code die compileert. Waar komt die kennis vandaan? Het antwoord is pretraining: het proces waarmee een model de patronen van menselijke taal vastlegt door biljoenen stukken tekst te verwerken. Dat proces legt het fundament voor alles wat een AI-model later kan. En het verklaart waarom datzelfde model soms overtuigend fout zit.
Roland Bieleveldt

Er is één mechanisme dat de werking van alle huidige taalmodellen samenvat in drie woorden: voorspel het volgende. Dat is het. Dat is de kern van pretraining.
Pretraining is het proces waarmee een AI-model wordt getraind op een enorme hoeveelheid tekst, met als doel de statistische patronen van taal vast te leggen. Het model leest geen tekst zoals een mens dat doet. Het verwerkt biljoenen stukken tekst en leert bij elk stuk voorspellen welk woord het meest waarschijnlijk volgt op de voorgaande woorden.
Neem de zin: “De directeur opende de vergadering met een kort…” Het model heeft uit miljoenen vergelijkbare zinnen geleerd dat “welkomstwoord” of “overzicht” hier waarschijnlijk volgt, en niet “banaan” of “vliegtuig.” Dat is geen begrip. Het is patroonherkenning op een schaal die menselijk onvoorstelbaar is.
Dit mechanisme heet next-token prediction. Het model krijgt een reeks woorden en voorspelt het volgende. De voorspelling wordt vergeleken met het werkelijke woord in de tekst. Bij elke afwijking worden de parameters van het model bijgesteld, miljoenen keren per minuut, biljoenen keren gedurende het hele trainingsproces.
Dat is dezelfde trainingslogica als bij machine learning: voorspellen, vergelijken, bijstellen. Het verschil zit in de schaal en in de trainingsopgave. Bij supervised learning levert een mens de uitkomsten aan: deze e-mail is spam, deze transactie is fraude. Bij pretraining levert de tekst zelf de opgave. Elk woord in een zin is het antwoord op de vraag: wat komt hierna? Dat maakt het mogelijk om te trainen op een hoeveelheid data die bij supervised learning ondenkbaar zou zijn. Er is niet genoeg menskracht om biljoenen stukken tekst handmatig te labelen. De tekst labelt zichzelf.
Na dat proces heeft het model de patronen van menselijke taal vastgelegd in zijn parameters. Het heeft geleerd welke woorden vaak samen voorkomen, welke zinsstructuren gangbaar zijn, welke redeneerpatronen in teksten terugkeren. Het “weet” niets in de menselijke zin van het woord. Het heeft statistische verbanden opgeslagen die zo rijk en gelaagd zijn dat het resultaat lijkt op kennis. En hoe meer parameters het model heeft, hoe meer van deze verbanden het kan opslaan.
De kwaliteit van een pretrained model hangt af van de tekst waarop het is getraind. Dat klinkt vanzelfsprekend, maar de consequenties zijn verstrekkend.
De trainingsdata voor moderne taalmodellen komen uit een brede verzameling bronnen: webpagina’s, boeken, wetenschappelijke publicaties, nieuwsartikelen, fora, coderepositories en encyclopedieën. De schaal is moeilijk voor te stellen. Huidige modellen worden getraind op biljoenen stukken tekst, een hoeveelheid die gelijk staat aan miljoenen boeken. Dat is meer tekst dan een mens in duizend levens zou kunnen lezen.
Maar het is niet “het hele internet.” Dat is een wijdverbreid misverstand. De ruwe data van het web zijn vervuild met spam, dubbele pagina’s, lage kwaliteit en misleidende inhoud. Modelbouwers investeren maanden in het filteren, opschonen en samenstellen van de trainingsdata. Die stap heet datacuratie, en de impact ervan op het eindresultaat is minstens zo groot als de keuze voor een netwerkarchitectuur.
Het principe is hetzelfde als bij elk machine-learning-model, maar de schaal is anders. Een creditcardfraude-model dat is getraind op vertekende data reproduceert die vertekening. Een taalmodel dat is getraind op een tekstverzameling waarin bepaalde perspectieven oververtegenwoordigd zijn, reproduceert dat onevenwicht. Alleen gebeurt het hier op een schaal van biljoenen woorden, waar handmatige inspectie onmogelijk is.
De beschikbaarheid van hoogwaardige trainingstekst is eindig. Onderzoekers verwachten dat de voorraad publiek beschikbare, kwalitatief sterke tekst de komende jaren uitgeput raakt. Modelbouwers reageren daarop met synthetische data: tekst die door AI-modellen zelf wordt gegenereerd als trainingsmateriaal voor volgende generaties modellen. De gevolgen van die verschuiving zijn nog niet volledig zichtbaar. Het is een ontwikkeling om in de gaten te houden.
Een neuraal netwerk kan niet met woorden rekenen. Het kan alleen met getallen werken. Voordat een model tekst kan verwerken, moet die tekst worden omgezet in een reeks getallen. Die omzetting heet tokenisatie.
Een token is de kleinste eenheid waarmee een taalmodel tekst verwerkt. Dat is lang niet altijd een heel woord. Het woord “vergaderruimte” wordt door de meeste modellen opgesplitst in twee of drie stukken: “vergader”, “ruimte”, of zelfs “ver”, “gader”, “ruimte.” Veelgebruikte korte woorden (“de”, “en”, “is”) zijn meestal één token. Zeldzame of samengestelde woorden worden opgesplitst in kleinere eenheden die het model vaker heeft gezien.
De gangbare methode voor die opsplitsing werkt op basis van frequentie. Patronen die vaak voorkomen in de trainingstekst worden samengevoegd tot één token. Patronen die zelden voorkomen, worden opgesplitst in kleinere stukken. Het resultaat is een vocabulaire van tienduizenden tot honderdduizend tokens waarmee het model elke tekst kan representeren.
Dit klinkt als een technisch detail. Maar het verklaart een reeks eigenaardigheden die iedereen die met AI-modellen werkt vroeg of laat tegenkomt.
Vraag een model hoeveel keer de letter “r” voorkomt in “strawberry”, en het antwoord is regelmatig fout. Niet omdat het model niet kan tellen, maar omdat het de individuele letters niet ziet. “Strawberry” is voor het model niet s-t-r-a-w-b-e-r-r-y, maar een reeks tokens die niet op lettergrenzen vallen. Het model opereert op een niveau boven de letter, en dat niveau matcht niet altijd met de taak die je het geeft.
Hetzelfde geldt voor rekenen met grote getallen. Het getal “1234” wordt soms opgesplitst in “123” en “4”. Het model ziet die stukken als afzonderlijke symbolen, niet als posities in een decimaal stelsel. Rekenen vereist inzicht in posities. Tokenisatie wist dat inzicht uit.
Voor organisaties is er een directe praktische consequentie. AI-diensten rekenen af per token. Hoe meer tokens een tekst bevat, hoe hoger de kosten. Teksten in het Nederlands gebruiken meer tokens dan dezelfde tekst in het Engels, omdat de meeste modellen zijn geoptimaliseerd voor Engelse tekst. Code is vaak token-efficiënt. Juridische teksten met lange samenstellingen kosten meer tokens per woord. Wie de kosten van AI-inzet wil begrijpen, moet tokens begrijpen.
Na pretraining is het resultaat een basismodel: een neuraal netwerk met miljarden parameters die de patronen van menselijke taal hebben vastgelegd. Dat basismodel vormt de grondstof voor alles wat een AI-model later kan.
De reikwijdte is breed. Een pretrained basismodel kan tekst aanvullen, zinnen afmaken, patronen in taal herkennen en nieuwe tekst genereren die grammaticaal correct, inhoudelijk samenhangend en stilistisch consistent is. Het kan code produceren, vertalingen maken en samenvattingen schrijven. Het doet dit allemaal op basis van hetzelfde mechanisme: de volgende token voorspellen op basis van de voorgaande context.
Hier zit een inzicht dat de moeite waard is om even bij stil te staan. Vrijwel alle kennis die een taalmodel bezit, is vastgelegd tijdens pretraining. De latere fases, posttraining, voegen relatief weinig nieuwe kennis toe. Wat ze wel toevoegen is gedrag: het vermogen om instructies op te volgen en behulpzaam te reageren. Maar de taalpatronen, de feitenkennis en de redeneerstructuren die daaronder liggen, dat is het werk van pretraining.
Dat fundament is indrukwekkend. Maar een pretrained model is nog geen product. Stel het een vraag, en het genereert de meest waarschijnlijke vervolgtekst. Soms is dat een antwoord. Soms is dat een volgende vraag. Soms is het een willekeurige voortzetting van de tekst alsof het een artikel schrijft. Het model heeft geen instructie-opvolgend gedrag. Het vult tekst aan. Meer niet.
Een pretrained model weigert ook niet. Het genereert wat statistisch het meest waarschijnlijk is, ongeacht of dat behulpzaam, schadelijk of onzinnig is. De veiligheidsmaatregelen en het vermogen om schadelijke verzoeken te weigeren komen pas bij posttraining.
Dit onderscheid is fundamenteel voor iedereen die beslissingen neemt over AI. Het verklaart waarom hetzelfde basismodel zich totaal anders kan gedragen na verschillende vormen van posttraining, en waarom modellen van verschillende aanbieders toch heel anders reageren terwijl ze op vergelijkbare basismodellen zijn gebouwd. Het verklaart ook waarom de kwaliteit van pretraining de bovenkant bepaalt: posttraining kan een model niet laten presteren op kennis die tijdens pretraining niet is vastgelegd.
Wij presenteren pretraining en posttraining als twee gescheiden fases. Dat is een nuttige vereenvoudiging die het geheel begrijpelijk maakt. In de praktijk is de grens minder scherp. Modelbouwers experimenteren met tussenliggende fases, soms midtraining genoemd, waarin ze al tijdens het latere deel van de pretraining hoogwaardige data toevoegen of de trainingsaanpak geleidelijk verschuiven richting het gedrag dat bij posttraining wordt aangeleerd. Die tussenliggende fases zijn nog niet gestandaardiseerd. De indeling verschilt per modelbouwer en verandert bij elke nieuwe generatie modellen. Voor het begrip van hoe een AI-model wordt opgebouwd is de tweedeling pretraining-posttraining het meest verhelderende vertrekpunt.
Wat pretraining concreet oplevert, en waar het tekortschiet, wordt zichtbaar in de manier waarop organisaties AI-modellen inzetten.
Een ziekenhuis gebruikt een AI-model om artsen te ondersteunen bij het opstellen van ontslagbrieven. Het model kan medische terminologie correct gebruiken, de structuur van een ontslagbrief volgen en een coherente samenvatting van het behandeltraject produceren. Die vaardigheid komt uit pretraining: het model heeft tijdens training enorme hoeveelheden medische tekst verwerkt en de patronen daarvan vastgelegd. Maar het model controleert niet of de inhoud klopt. Het kan een medicijnnaam verwisselen, een dosering verzinnen of een bijwerking toekennen aan het verkeerde middel, zolang het resultaat er taalkundig plausibel uitziet. De arts die de brief ondertekent, is verantwoordelijk voor de inhoud. Pretraining levert taalbeheersing. De medische beoordeling blijft mensenwerk.
Een adviesbureau gebruikt een AI-model om conceptteksten te schrijven voor projectvoorstellen. Het model produceert structureel sterke teksten die de conventies van het genre volgen: probleemschets, aanpak, planning, investering. Het kan dat omdat het tijdens pretraining duizenden vergelijkbare documenten heeft verwerkt. Het bureau merkt dat het model twee dingen niet kan. Het kan niet toetsen of de voorgestelde aanpak realistisch is voor deze specifieke klant. En het maakt soms beweringen over de markt die plausibel klinken maar feitelijk niet kloppen. Het model genereert op basis van patronen. De verificatie komt van de adviseur die het voorstel ondertekent.
Een zelfstandig jurist gebruikt een AI-model om juridische teksten samen te vatten. Het model herkent juridische structuren, identificeert kernbepalingen en produceert compacte samenvattingen in begrijpelijke taal. Bij een contract in het Nederlands presteert het model merkbaar minder dan bij een vergelijkbaar contract in het Engels. Zinnen worden langer, samenstellingen worden onhandig afgebroken, nuances gaan verloren. De verklaring zit in pretraining: de trainingsdata bevatten aanzienlijk meer Engelstalige juridische tekst dan Nederlandstalige. Het model heeft minder patronen in het Nederlands vastgelegd. Dat verschil in trainingsdata vertaalt zich direct naar een verschil in kwaliteit.
Wie wil begrijpen hoe een basismodel na pretraining wordt omgevormd tot een bruikbare assistent die instructies opvolgt en behulpzaam reageert, leest verder bij Posttraining: van basismodel naar assistent (cluster 2.3).
Wie wil weten hoe het trainingsmechanisme van machine learning werkt en welke soorten er zijn, vindt dat bij Wat is machine learning?
Wie wil zien hoe de transformer-architectuur pretraining op grote schaal mogelijk maakte, leest Transformers en foundation models: de architectuursprong (cluster 1.2).