Posttraining: van basismodel naar assistent

Posttraining: van basismodel naar assistent: De Complete Gids

Stel een pretrained model een vraag en het genereert geen antwoord, maar het genereert de meest waarschijnlijke vervolgtekst. Soms lijkt dat op een antwoord. Soms is het een volgende vraag. Soms maakt het de zin af alsof het een Wikipedia-artikel schrijft. Het model doet wat pretraining het heeft geleerd: tekst aanvullen. Dat is alles. De stap van “tekst aanvullen” naar “een gesprek voeren, instructies opvolgen en weigeren wanneer dat nodig is” vereist een apart trainingsproces. Dat proces heet posttraining, en het verschil dat het maakt is groter dan de meeste mensen beseffen.

Roland Bieleveldt

01
Waarom het basismodel niet genoeg is

Na pretraining beschikt een model over een enorme hoeveelheid vastgelegde taalpatronen. Het heeft feitenkennis, grammaticale structuren, redeneerpatronen en stijlconventies opgeslagen in miljarden parameters. Dat fundament is indrukwekkend. Maar het resultaat is een model dat tekst aanvult, geen model dat samenwerkt.

Het verschil wordt concreet als je een pretrained basismodel vergelijkt met de AI-assistenten die de meeste mensen kennen, zoals Claude, ChatGPT of Gemini. Typ “Wat zijn de drie belangrijkste risico’s van cloud computing voor een middelgroot bedrijf?” in een pretrained model, en het genereert misschien een vierde risico, of een vervolg dat klinkt als het midden van een blogpost. Typ dezelfde vraag in een AI-assistent na posttraining, en je krijgt een gestructureerd antwoord met drie punten, in een toon die past bij de vraag.

Dat verschil is geen kwestie van meer kennis. Beide modellen beschikken over dezelfde taalpatronen uit pretraining. Het verschil zit in gedrag: het vermogen om een instructie te herkennen, een gepaste reactie te formuleren en grenzen te bewaken.

Posttraining is het proces waarmee een pretrained basismodel wordt omgevormd tot een bruikbaar AI-systeem. Het omvat meerdere trainingsstappen die elk een ander aspect van het gedrag vormen. Twee daarvan zijn het meest bepalend: fine-tuning, waarmee het model leert hoe het moet reageren, en alignment, waarmee het model leert wanneer het moet reageren en wanneer niet.

Kennis versus gedrag

Hier zit een inzicht dat de moeite waard is om even bij stil te staan. Het fundament aan kennis — taalpatronen, feitenkennis, redeneerstructuren — dat is het werk van pretraining. Posttraining verandert niet wat het model kan, maar hoe het dat inzet: hoe het omgaat met vragen, hoe het een gesprek structureert, in welke toon het antwoordt, en welke verzoeken het weigert. De verhouding is te vergelijken met het verschil tussen een encyclopedie en een adviseur. De encyclopedie bevat de kennis. De adviseur weet hoe die kennis toe te passen in een gesprek: luisteren naar de vraag, de juiste informatie selecteren, die begrijpelijk presenteren en waarschuwen wanneer de informatie onvolledig is. Pretraining bouwt de encyclopedie. Posttraining leidt de adviseur op.

02
Hoe een model leert reageren

De eerste stap in posttraining is supervised fine-tuning, afgekort als SFT. Het basismodel wordt getraind op zorgvuldig samengestelde voorbeelden van gewenst gedrag: duizenden tot tienduizenden paren van instructies en antwoorden.

Elk paar toont het model hoe een goede reactie eruitziet. “Vat deze tekst samen in drie punten” met daaronder een heldere samenvatting in drie punten. “Leg uit wat inflatie is voor een twaalfjarige” met een begrijpelijke uitleg in dagelijkse taal. “Schrijf een professionele e-mail die een vergadering verzet” met een correct geformuleerd bericht.

Die voorbeelden zijn geen zoekresultaten of Wikipedia-fragmenten. Het zijn door mensen geschreven demonstraties van hoe het model zich zou moeten gedragen. Elke demonstratie bevat impliciet tientallen lessen: dat een samenvatting korter is dan het origineel, dat taal voor een kind anders klinkt dan voor een vakgenoot, dat een professionele e-mail een aanhef heeft.

Het trainingsproces

Het mechanisme is supervised learning. Het model vergelijkt zijn eigen output met het gewenste antwoord, berekent het verschil en stelt zijn parameters bij. Na duizenden van die bijstellingen heeft het model geleerd wat het formaat van een goed antwoord is: wanneer het een lijst moet geven, wanneer lopende tekst, wanneer het moet doorvragen.

De schaal verschilt fundamenteel van pretraining. Bij pretraining verwerkt het model biljoenen stukken tekst. Bij SFT gaat het om duizenden tot tienduizenden voorbeelden. De investering is niet schaal maar precisie: elk voorbeeld is met zorg samengesteld om het juiste gedrag te demonstreren.

→ Lees meer: Fine-tuning

03
Hoe een model leert kiezen

Na SFT kan het model instructies opvolgen en een gesprek voeren. Maar het mist nog iets wezenlijks: het vermogen om te beoordelen welk antwoord beter is dan een ander.

Het model produceert nu antwoorden die het juiste formaat hebben. Maar sommige antwoorden zijn helderder, eerlijker, veiliger of nuttiger dan andere. SFT leert het model wat een antwoord is. Preference learning leert het model wat een goed antwoord is.

Het mechanisme

Het principe is opvallend helder. Het model genereert twee antwoorden op dezelfde vraag. Een beoordelaar vergelijkt de twee en geeft aan welk antwoord beter is. Het model leert van die keuze. Na duizenden van zulke vergelijkingen heeft het model een intern richtsnoer opgebouwd voor wat mensen als behulpzaam, helder en veilig ervaren.

De oorspronkelijke methode hiervoor heet RLHF: reinforcement learning from human feedback. Het maakt gebruik van reinforcement learning, de trainingstechniek waarbij een model leert door feedback op zijn acties. Bij RLHF komt die feedback van mensen die antwoorden beoordelen.

Menselijke en geautomatiseerde feedback

Menselijke beoordelaars zijn nauwkeurig maar duur en langzaam. Bij duizenden beoordelingen per dag zijn de kosten substantieel, en de snelheid beperkt de schaal. Modelbouwers hebben daarom een variant ontwikkeld: RLAIF, reinforcement learning from AI feedback. Hierbij beoordeelt een AI-model de antwoorden in plaats van een mens, op basis van een reeks principes die mensen hebben opgesteld.

Het resultaat is vergelijkbaar. Het model leert welke antwoorden beter scoren, en stelt zijn gedrag daarop bij. Het verschil zit in de bron van de feedback: menselijk oordeel of geautomatiseerd oordeel op basis van menselijke principes. In de praktijk combineren modelbouwers beide. Menselijke feedback voor de lastigste afwegingen, AI-feedback voor de schaal.

Wij gebruiken op deze pagina de term preference learning als overkoepelend begrip. Of de feedback nu van mensen komt of van AI-modellen, het principe is hetzelfde: het model leert keuzes maken op basis van vergelijkend oordeel.

04
Waarom een model weigert

Na fine-tuning en preference learning kan het model instructies opvolgen en kwalitatief goede antwoorden produceren. De derde laag van posttraining gaat over een fundamenteel andere vraag: hoe voorkom je dat het model schade aanricht?

Een model dat elke instructie opvolgt zonder beoordeling, is gevaarlijk. Het kan gedetailleerde instructies geven voor het maken van wapens, overtuigend klinkende medische adviezen produceren die levensgevaarlijk zijn, of manipulatieve teksten schrijven op verzoek. Een AI-assistent die alles doet wat je vraagt, is niet behulpzaam. Die is onverantwoord.

Alignment

Alignment is het proces waarmee een model wordt afgestemd op menselijke waarden: behulpzaam zijn waar dat kan, eerlijk zijn over onzekerheid en weigeren waar dat moet. Het doel is een model dat kan én oordeelt. Dat het verschil maakt tussen een verzoek om hulp bij een sollicitatiebrief en een verzoek om hulp bij het schrijven van phishing-e-mails. Dat het antwoord geeft op medische vragen in algemene zin, maar waarschuwt dat het geen arts vervangt.

De technieken achter alignment overlappen met preference learning. Het verschil zit in het doel: bij preference learning gaat het primair om kwaliteit (welk antwoord is beter), bij alignment gaat het om grenzen (welk gedrag is verantwoord). In de praktijk lopen die doelen door elkaar, en worden ze met dezelfde methoden getraind.

Het spanningsveld

Alignment is geen schakelaar die je aan- of uitzet. Het is een continu spanningsveld. Te weinig alignment maakt een model onveilig: het volgt schadelijke instructies op zonder aarzeling. Te veel alignment maakt een model onbruikbaar: het weigert onschuldige vragen omdat het een risico ziet dat er niet is.

Wie ooit een AI-model heeft gevraagd naar een historisch conflict en als antwoord kreeg “Ik kan daarover geen informatie geven”, heeft dat spanningsveld aan den lijve ervaren. Het model weigerde niet omdat de vraag onverantwoord was, maar omdat de alignment-training het had geleerd om voorzichtig te zijn bij gevoelige onderwerpen, soms voorzichtiger dan nodig.

Modelbouwers werken voortdurend aan die balans. Elke nieuwe versie van een model is ook een nieuwe poging om het model behulpzamer te maken zonder het onveiliger te maken, en veiliger zonder het overdreven voorzichtig te maken. Alignment is geen opgelost probleem. Het is een doorlopend ontwerpproces.

→ Lees meer: Alignment

05
Het resultaat

Na posttraining is het product een AI-assistent: een model dat instructies opvolgt, in de juiste toon antwoordt, schadelijke verzoeken weigert en eerlijk is over wat het niet kan. Het verschil met het ruwe basismodel is fundamenteel, hoewel de onderliggende kennis dezelfde is.

Dat verklaart een fenomeen dat voor veel gebruikers raadselachtig is: waarom reageren Claude, ChatGPT en Gemini zo anders op dezelfde vraag, terwijl ze alle drie op vergelijkbare hoeveelheden trainingsdata zijn gebouwd? Het antwoord zit in posttraining. Elke modelbouwer maakt andere keuzes in hoe het model wordt afgesteld: welk gedrag wordt beloond, welke grenzen worden getrokken, hoeveel ruimte het model krijgt om te interpreteren. Die keuzes zijn net zo bepalend als de pretraining zelf.

06
Voorbeelden

Het verschil dat posttraining maakt, wordt concreet als je ziet hoe organisaties dagelijks met AI-assistenten werken.

Voorbeeld

Medische kliniek

Een ziekenhuis gebruikt een AI-model om artsen te ondersteunen bij het beantwoorden van patiëntvragen via een online portaal. Het model kan medische informatie helder uitleggen, past de toon aan op het kennisniveau van de patiënt en structureert het antwoord met een samenvatting bovenaan. Dat is het werk van fine-tuning: het model heeft geleerd hoe een behulpzaam, gestructureerd antwoord eruitziet. Tegelijkertijd voegt het model bij elke medische vraag een waarschuwing toe dat het antwoord geen vervanging is voor professioneel advies. En bij vragen over medicijndoseringen weigert het specifieke aanbevelingen te doen. Dat is het werk van alignment: het model heeft geleerd waar de grens ligt tussen informatief en onverantwoord.

Voorbeeld

B2B-dienstverlener

Een accountantskantoor laat medewerkers conceptrapporten opstellen met behulp van een AI-assistent. Het model volgt gedetailleerde instructies op: “Schrijf een samenvatting van drie alinea’s voor de directie, focus op de drie grootste afwijkingen, gebruik een formele toon.” De output volgt die instructie nauwkeurig. Maar het model doet meer dan gehoorzamen. Het kiest actief de meest relevante afwijkingen uit het bronmateriaal, structureert de samenvatting logisch en vermijdt absolute beweringen over feiten die het niet kan verifiëren. Die combinatie van instructieopvolging en oordeelsvorming is het resultaat van posttraining: fine-tuning voor het formaat, preference learning voor de kwaliteit.

Voorbeeld

Zelfstandig professional

Een freelance communicatieadviseur merkt het verschil tussen posttraining-aanpakken aan het gedrag van de modellen die ze dagelijks gebruikt. Het ene model schrijft graag mee aan controversiële posities als ze daarom vraagt, het andere weigert en biedt een genuanceerder alternatief aan. Het ene model geeft bij creatieve opdrachten een breed palet aan opties, het andere houdt zich nauwer aan de instructie. De adviseur ervaart die verschillen als “karakter” van het model. In werkelijkheid zijn het de keuzes die modelbouwers tijdens posttraining hebben gemaakt: hoeveel ruimte het model krijgt, waar de grenzen liggen, wat als behulpzaam geldt en wat als risicovol. Hetzelfde basismodel, anders opgeleid.

07
Veelgestelde vragen

Fine-tuning is een onderdeel van posttraining, niet het geheel. Posttraining omvat alle trainingsstappen die na pretraining komen: supervised fine-tuning (het model leren instructies volgen), preference learning (het model leren welke antwoorden beter zijn) en alignment (het model afstemmen op veiligheid en verantwoord gedrag). Fine-tuning is de eerste stap. De termen worden in de praktijk vaak door elkaar gebruikt, wat begrijpelijk is maar niet correct. Een model dat alleen fine-tuning heeft ondergaan zonder alignment, is een model dat instructies opvolgt maar niet weigert en niet beoordeelt. Dat verschil is wezenlijk.

Dat is het directe resultaat van alignment. Tijdens posttraining leert het model niet alleen hoe het moet antwoorden, maar ook wanneer het beter kan weigeren of waarschuwen. Het model heeft via preference learning en specifieke alignment-training geleerd dat sommige verzoeken risico’s met zich meebrengen: verzoeken om schadelijke informatie, verzoeken die de privacy van anderen schenden, of verzoeken waarbij het model niet betrouwbaar genoeg kan antwoorden. De grens is niet altijd precies goed afgesteld. Soms weigert een model onschuldige vragen omdat het patroon lijkt op een risicovolle vraag. Modelbouwers werken continu aan die balans. Het is een van de lastigste ontwerpbeslissingen in de hele keten.

In de meeste gevallen niet. Posttraining is het werk van modelbouwers: Anthropic, OpenAI, Google en anderen investeren maanden en miljoenen euro’s in het posttraining-proces van hun modellen. De resultaten daarvan zijn beschikbaar via de AI-assistenten die zij aanbieden. Wat organisaties wel regelmatig doen, is fine-tuning op een specifieke taak of een specifiek domein, bovenop een model dat al volledig is geposttraind. Dat is een andere schaal: tienduizenden domeinspecifieke voorbeelden in plaats van de brede posttraining die het model zijn basale gedrag geeft. De vraag voor een organisatie is niet “moeten wij posttrainen?” maar “levert fine-tuning op ons domein iets op dat prompting en context niet kunnen bieden?” In veel gevallen is het antwoord nee.

De kennis komt vrijwel volledig uit pretraining. De taalpatronen, de feitenkennis, de redeneerstructuren, de kennis van code en van juridische of medische tekst, dat is allemaal vastgelegd tijdens de pretraining-fase. Posttraining voegt daar weinig inhoudelijke kennis aan toe. Wat posttraining toevoegt, is gedrag: het vermogen om instructies te herkennen en op te volgen, de vaardigheid om een gesprek te voeren, het oordeel om schadelijke verzoeken te weigeren en de stijl waarmee het model communiceert. Je zou het zo kunnen zien: pretraining bepaalt wat het model kan. Posttraining bepaalt hoe het model dat inzet.

08
Verder lezen

Wie wil begrijpen wanneer fine-tuning relevant is voor een organisatie en hoe het zich verhoudt tot prompting en RAG als manieren om AI-gedrag te sturen, leest verder bij Fine-tuning (cluster 2.3a).

Wie wil weten hoe modelbouwers bepalen wat een model wel en niet mag doen, hoe preference learning werkt en waarom alignment een doorlopend ontwerpproces is, vindt dat bij Alignment (cluster 2.3b).

Wie wil begrijpen hoe het basismodel wordt opgebouwd dat als grondstof voor posttraining dient, leest Pretraining: het fundament bouwen (cluster 2.2).

Wie wil begrijpen hoe dezelfde basistechnologie tot heel verschillende modellen leidt — van gesloten diensten tot vrij beschikbare downloads — vindt dat bij Open versus gesloten modellen (cluster 2.4).

Posttraining: van basismodel naar assistent

Posttraining: van basismodel naar assistent: De Complete Gids

Roland Bieleveldt

01
Waarom het basismodel niet genoeg is

Kennis versus gedrag

02
Hoe een model leert reageren

Het trainingsproces

→ Lees meer: Fine-tuning

03
Hoe een model leert kiezen

Na SFT kan het model instructies opvolgen en een gesprek voeren. Maar het mist nog iets wezenlijks: het vermogen om te beoordelen welk antwoord beter is dan een ander.

Het mechanisme

Menselijke en geautomatiseerde feedback

04
Waarom een model weigert

Alignment

Het spanningsveld

→ Lees meer: Alignment

05
Het resultaat

06
Voorbeelden

Het verschil dat posttraining maakt, wordt concreet als je ziet hoe organisaties dagelijks met AI-assistenten werken.

Voorbeeld

Medische kliniek

Voorbeeld

B2B-dienstverlener

Voorbeeld

Zelfstandig professional

07
Veelgestelde vragen

08
Verder lezen

Wie wil weten hoe modelbouwers bepalen wat een model wel en niet mag doen, hoe preference learning werkt en waarom alignment een doorlopend ontwerpproces is, vindt dat bij Alignment (cluster 2.3b).

Wie wil begrijpen hoe het basismodel wordt opgebouwd dat als grondstof voor posttraining dient, leest Pretraining: het fundament bouwen (cluster 2.2).

Posttraining: van basismodel naar assistent: De Complete Gids

01 Waarom het basismodel niet genoeg is

Kennis versus gedrag

02 Hoe een model leert reageren

Het trainingsproces

03 Hoe een model leert kiezen

Het mechanisme

Menselijke en geautomatiseerde feedback

04 Waarom een model weigert

Alignment

Het spanningsveld

05 Het resultaat

06 Voorbeelden

Medische kliniek

B2B-dienstverlener

Zelfstandig professional

07 Veelgestelde vragen

08 Verder lezen

Posttraining: van basismodel naar assistent: De Complete Gids

01 Waarom het basismodel niet genoeg is

Kennis versus gedrag

02 Hoe een model leert reageren

Het trainingsproces

03 Hoe een model leert kiezen

Het mechanisme

Menselijke en geautomatiseerde feedback

04 Waarom een model weigert

Alignment

Het spanningsveld

05 Het resultaat

06 Voorbeelden

Medische kliniek

B2B-dienstverlener

Zelfstandig professional

07 Veelgestelde vragen

08 Verder lezen

01
Waarom het basismodel niet genoeg is

02
Hoe een model leert reageren

03
Hoe een model leert kiezen

04
Waarom een model weigert

05
Het resultaat

06
Voorbeelden

07
Veelgestelde vragen

08
Verder lezen

01
Waarom het basismodel niet genoeg is

02
Hoe een model leert reageren

03
Hoe een model leert kiezen

04
Waarom een model weigert

05
Het resultaat

06
Voorbeelden

07
Veelgestelde vragen

08
Verder lezen