Stel een pretrained model een vraag en het genereert geen antwoord, maar het genereert de meest waarschijnlijke vervolgtekst. Soms lijkt dat op een antwoord. Soms is het een volgende vraag. Soms maakt het de zin af alsof het een Wikipedia-artikel schrijft. Het model doet wat pretraining het heeft geleerd: tekst aanvullen. Dat is alles. De stap van “tekst aanvullen” naar “een gesprek voeren, instructies opvolgen en weigeren wanneer dat nodig is” vereist een apart trainingsproces. Dat proces heet posttraining, en het verschil dat het maakt is groter dan de meeste mensen beseffen.
Roland Bieleveldt

Na pretraining beschikt een model over een enorme hoeveelheid vastgelegde taalpatronen. Het heeft feitenkennis, grammaticale structuren, redeneerpatronen en stijlconventies opgeslagen in miljarden parameters. Dat fundament is indrukwekkend. Maar het resultaat is een model dat tekst aanvult, geen model dat samenwerkt.
Het verschil wordt concreet als je een pretrained basismodel vergelijkt met de AI-assistenten die de meeste mensen kennen, zoals Claude, ChatGPT of Gemini. Typ “Wat zijn de drie belangrijkste risico’s van cloud computing voor een middelgroot bedrijf?” in een pretrained model, en het genereert misschien een vierde risico, of een vervolg dat klinkt als het midden van een blogpost. Typ dezelfde vraag in een AI-assistent na posttraining, en je krijgt een gestructureerd antwoord met drie punten, in een toon die past bij de vraag.
Dat verschil is geen kwestie van meer kennis. Beide modellen beschikken over dezelfde taalpatronen uit pretraining. Het verschil zit in gedrag: het vermogen om een instructie te herkennen, een gepaste reactie te formuleren en grenzen te bewaken.
Posttraining is het proces waarmee een pretrained basismodel wordt omgevormd tot een bruikbaar AI-systeem. Het omvat meerdere trainingsstappen die elk een ander aspect van het gedrag vormen. Twee daarvan zijn het meest bepalend: fine-tuning, waarmee het model leert hoe het moet reageren, en alignment, waarmee het model leert wanneer het moet reageren en wanneer niet.
Hier zit een inzicht dat de moeite waard is om even bij stil te staan. Het fundament aan kennis — taalpatronen, feitenkennis, redeneerstructuren — dat is het werk van pretraining. Posttraining verandert niet wat het model kan, maar hoe het dat inzet: hoe het omgaat met vragen, hoe het een gesprek structureert, in welke toon het antwoordt, en welke verzoeken het weigert. De verhouding is te vergelijken met het verschil tussen een encyclopedie en een adviseur. De encyclopedie bevat de kennis. De adviseur weet hoe die kennis toe te passen in een gesprek: luisteren naar de vraag, de juiste informatie selecteren, die begrijpelijk presenteren en waarschuwen wanneer de informatie onvolledig is. Pretraining bouwt de encyclopedie. Posttraining leidt de adviseur op.
De eerste stap in posttraining is supervised fine-tuning, afgekort als SFT. Het basismodel wordt getraind op zorgvuldig samengestelde voorbeelden van gewenst gedrag: duizenden tot tienduizenden paren van instructies en antwoorden.
Elk paar toont het model hoe een goede reactie eruitziet. “Vat deze tekst samen in drie punten” met daaronder een heldere samenvatting in drie punten. “Leg uit wat inflatie is voor een twaalfjarige” met een begrijpelijke uitleg in dagelijkse taal. “Schrijf een professionele e-mail die een vergadering verzet” met een correct geformuleerd bericht.
Die voorbeelden zijn geen zoekresultaten of Wikipedia-fragmenten. Het zijn door mensen geschreven demonstraties van hoe het model zich zou moeten gedragen. Elke demonstratie bevat impliciet tientallen lessen: dat een samenvatting korter is dan het origineel, dat taal voor een kind anders klinkt dan voor een vakgenoot, dat een professionele e-mail een aanhef heeft.
Het mechanisme is supervised learning. Het model vergelijkt zijn eigen output met het gewenste antwoord, berekent het verschil en stelt zijn parameters bij. Na duizenden van die bijstellingen heeft het model geleerd wat het formaat van een goed antwoord is: wanneer het een lijst moet geven, wanneer lopende tekst, wanneer het moet doorvragen.
De schaal verschilt fundamenteel van pretraining. Bij pretraining verwerkt het model biljoenen stukken tekst. Bij SFT gaat het om duizenden tot tienduizenden voorbeelden. De investering is niet schaal maar precisie: elk voorbeeld is met zorg samengesteld om het juiste gedrag te demonstreren.
→ Lees meer: Fine-tuning
Na SFT kan het model instructies opvolgen en een gesprek voeren. Maar het mist nog iets wezenlijks: het vermogen om te beoordelen welk antwoord beter is dan een ander.
Het model produceert nu antwoorden die het juiste formaat hebben. Maar sommige antwoorden zijn helderder, eerlijker, veiliger of nuttiger dan andere. SFT leert het model wat een antwoord is. Preference learning leert het model wat een goed antwoord is.
Het principe is opvallend helder. Het model genereert twee antwoorden op dezelfde vraag. Een beoordelaar vergelijkt de twee en geeft aan welk antwoord beter is. Het model leert van die keuze. Na duizenden van zulke vergelijkingen heeft het model een intern richtsnoer opgebouwd voor wat mensen als behulpzaam, helder en veilig ervaren.
De oorspronkelijke methode hiervoor heet RLHF: reinforcement learning from human feedback. Het maakt gebruik van reinforcement learning, de trainingstechniek waarbij een model leert door feedback op zijn acties. Bij RLHF komt die feedback van mensen die antwoorden beoordelen.
Menselijke beoordelaars zijn nauwkeurig maar duur en langzaam. Bij duizenden beoordelingen per dag zijn de kosten substantieel, en de snelheid beperkt de schaal. Modelbouwers hebben daarom een variant ontwikkeld: RLAIF, reinforcement learning from AI feedback. Hierbij beoordeelt een AI-model de antwoorden in plaats van een mens, op basis van een reeks principes die mensen hebben opgesteld.
Het resultaat is vergelijkbaar. Het model leert welke antwoorden beter scoren, en stelt zijn gedrag daarop bij. Het verschil zit in de bron van de feedback: menselijk oordeel of geautomatiseerd oordeel op basis van menselijke principes. In de praktijk combineren modelbouwers beide. Menselijke feedback voor de lastigste afwegingen, AI-feedback voor de schaal.
Wij gebruiken op deze pagina de term preference learning als overkoepelend begrip. Of de feedback nu van mensen komt of van AI-modellen, het principe is hetzelfde: het model leert keuzes maken op basis van vergelijkend oordeel.
Na fine-tuning en preference learning kan het model instructies opvolgen en kwalitatief goede antwoorden produceren. De derde laag van posttraining gaat over een fundamenteel andere vraag: hoe voorkom je dat het model schade aanricht?
Een model dat elke instructie opvolgt zonder beoordeling, is gevaarlijk. Het kan gedetailleerde instructies geven voor het maken van wapens, overtuigend klinkende medische adviezen produceren die levensgevaarlijk zijn, of manipulatieve teksten schrijven op verzoek. Een AI-assistent die alles doet wat je vraagt, is niet behulpzaam. Die is onverantwoord.
Alignment is het proces waarmee een model wordt afgestemd op menselijke waarden: behulpzaam zijn waar dat kan, eerlijk zijn over onzekerheid en weigeren waar dat moet. Het doel is een model dat kan én oordeelt. Dat het verschil maakt tussen een verzoek om hulp bij een sollicitatiebrief en een verzoek om hulp bij het schrijven van phishing-e-mails. Dat het antwoord geeft op medische vragen in algemene zin, maar waarschuwt dat het geen arts vervangt.
De technieken achter alignment overlappen met preference learning. Het verschil zit in het doel: bij preference learning gaat het primair om kwaliteit (welk antwoord is beter), bij alignment gaat het om grenzen (welk gedrag is verantwoord). In de praktijk lopen die doelen door elkaar, en worden ze met dezelfde methoden getraind.
Alignment is geen schakelaar die je aan- of uitzet. Het is een continu spanningsveld. Te weinig alignment maakt een model onveilig: het volgt schadelijke instructies op zonder aarzeling. Te veel alignment maakt een model onbruikbaar: het weigert onschuldige vragen omdat het een risico ziet dat er niet is.
Wie ooit een AI-model heeft gevraagd naar een historisch conflict en als antwoord kreeg “Ik kan daarover geen informatie geven”, heeft dat spanningsveld aan den lijve ervaren. Het model weigerde niet omdat de vraag onverantwoord was, maar omdat de alignment-training het had geleerd om voorzichtig te zijn bij gevoelige onderwerpen, soms voorzichtiger dan nodig.
Modelbouwers werken voortdurend aan die balans. Elke nieuwe versie van een model is ook een nieuwe poging om het model behulpzamer te maken zonder het onveiliger te maken, en veiliger zonder het overdreven voorzichtig te maken. Alignment is geen opgelost probleem. Het is een doorlopend ontwerpproces.
→ Lees meer: Alignment
Na posttraining is het product een AI-assistent: een model dat instructies opvolgt, in de juiste toon antwoordt, schadelijke verzoeken weigert en eerlijk is over wat het niet kan. Het verschil met het ruwe basismodel is fundamenteel, hoewel de onderliggende kennis dezelfde is.
Dat verklaart een fenomeen dat voor veel gebruikers raadselachtig is: waarom reageren Claude, ChatGPT en Gemini zo anders op dezelfde vraag, terwijl ze alle drie op vergelijkbare hoeveelheden trainingsdata zijn gebouwd? Het antwoord zit in posttraining. Elke modelbouwer maakt andere keuzes in hoe het model wordt afgesteld: welk gedrag wordt beloond, welke grenzen worden getrokken, hoeveel ruimte het model krijgt om te interpreteren. Die keuzes zijn net zo bepalend als de pretraining zelf.
Het verschil dat posttraining maakt, wordt concreet als je ziet hoe organisaties dagelijks met AI-assistenten werken.
Een ziekenhuis gebruikt een AI-model om artsen te ondersteunen bij het beantwoorden van patiëntvragen via een online portaal. Het model kan medische informatie helder uitleggen, past de toon aan op het kennisniveau van de patiënt en structureert het antwoord met een samenvatting bovenaan. Dat is het werk van fine-tuning: het model heeft geleerd hoe een behulpzaam, gestructureerd antwoord eruitziet. Tegelijkertijd voegt het model bij elke medische vraag een waarschuwing toe dat het antwoord geen vervanging is voor professioneel advies. En bij vragen over medicijndoseringen weigert het specifieke aanbevelingen te doen. Dat is het werk van alignment: het model heeft geleerd waar de grens ligt tussen informatief en onverantwoord.
Een accountantskantoor laat medewerkers conceptrapporten opstellen met behulp van een AI-assistent. Het model volgt gedetailleerde instructies op: “Schrijf een samenvatting van drie alinea’s voor de directie, focus op de drie grootste afwijkingen, gebruik een formele toon.” De output volgt die instructie nauwkeurig. Maar het model doet meer dan gehoorzamen. Het kiest actief de meest relevante afwijkingen uit het bronmateriaal, structureert de samenvatting logisch en vermijdt absolute beweringen over feiten die het niet kan verifiëren. Die combinatie van instructieopvolging en oordeelsvorming is het resultaat van posttraining: fine-tuning voor het formaat, preference learning voor de kwaliteit.
Een freelance communicatieadviseur merkt het verschil tussen posttraining-aanpakken aan het gedrag van de modellen die ze dagelijks gebruikt. Het ene model schrijft graag mee aan controversiële posities als ze daarom vraagt, het andere weigert en biedt een genuanceerder alternatief aan. Het ene model geeft bij creatieve opdrachten een breed palet aan opties, het andere houdt zich nauwer aan de instructie. De adviseur ervaart die verschillen als “karakter” van het model. In werkelijkheid zijn het de keuzes die modelbouwers tijdens posttraining hebben gemaakt: hoeveel ruimte het model krijgt, waar de grenzen liggen, wat als behulpzaam geldt en wat als risicovol. Hetzelfde basismodel, anders opgeleid.
Wie wil begrijpen wanneer fine-tuning relevant is voor een organisatie en hoe het zich verhoudt tot prompting en RAG als manieren om AI-gedrag te sturen, leest verder bij Fine-tuning (cluster 2.3a).
Wie wil weten hoe modelbouwers bepalen wat een model wel en niet mag doen, hoe preference learning werkt en waarom alignment een doorlopend ontwerpproces is, vindt dat bij Alignment (cluster 2.3b).
Wie wil begrijpen hoe het basismodel wordt opgebouwd dat als grondstof voor posttraining dient, leest Pretraining: het fundament bouwen (cluster 2.2).
Wie wil begrijpen hoe dezelfde basistechnologie tot heel verschillende modellen leidt — van gesloten diensten tot vrij beschikbare downloads — vindt dat bij Open versus gesloten modellen (cluster 2.4).