Posttraining: van basismodel naar assistent

Alignment

Een model dat instructies kan opvolgen is nog geen model dat je kunt vertrouwen. Het kan net zo goed een overtuigend klinkend antwoord geven dat feitelijk onzin is, als een antwoord dat genuanceerd en waarheidsgetrouw is. Het kan een gebruiker helpen bij een legitiem verzoek, maar het kan ook meewerken aan een verzoek dat schadelijk is. Hoe leert een model het verschil? Dat is de vraag die alignment probeert te beantwoorden, en het antwoord is ingewikkelder dan het op het eerste gezicht lijkt.

Roland Bieleveldt

01Wat alignment is

Alignment is het proces waarmee een AI-model wordt afgestemd op menselijke waarden en verwachtingen. Het doel is drieledig: het model moet behulpzaam zijn waar dat kan, eerlijk zijn over wat het wel en niet kan, en weigeren waar dat nodig is.

Dat klinkt rechttoe rechtaan. Maar elk van die drie doelen bevat spanningen die niet met een lijst regels zijn op te lossen. Behulpzaamheid kan botsen met veiligheid: een model dat maximaal behulpzaam is, beantwoordt ook vragen die beter onbeantwoord blijven. Eerlijkheid kan botsen met bruikbaarheid: een model dat bij elke uitspraak een voorbehoud maakt, wordt onleesbaar. Veiligheid kan botsen met openheid: een model dat elk gevoelig onderwerp vermijdt, is voor serieus werk onbruikbaar.

Alignment is het zoeken naar de balans in dat spanningsveld.

02Hoe een model leert beoordelen

Het kernmechanisme achter alignment is preference learning: het model leert welke antwoorden beter zijn door vergelijking.

Hoe dat werkt

Het model genereert twee of meer antwoorden op dezelfde vraag. Een beoordelaar vergelijkt de antwoorden en geeft aan welk antwoord de voorkeur heeft. Het model leert van die keuze: de parameters verschuiven zodat het antwoorden produceert die meer lijken op het gekozen antwoord en minder op het afgewezen antwoord.

Na duizenden van zulke vergelijkingen heeft het model een intern richtsnoer ontwikkeld. Het heeft geleerd dat een helder en genuanceerd antwoord beter scoort dan een vaag of misleidend antwoord. Dat een antwoord dat onzekerheid erkent beter is dan een antwoord dat zekerheid simuleert. Dat een weigering bij een schadelijk verzoek beter is dan medewerking.

Dat richtsnoer is niet expliciet geprogrammeerd. Het is een patroon dat het model heeft afgeleid uit de voorkeuren van de beoordelaars, vastgelegd in de parameters. Het model “kent” geen regels over ethiek. Het heeft geleerd welk type antwoord consistent werd gekozen boven andere.

RLHF

De oorspronkelijke methode hiervoor heet RLHF: reinforcement learning from human feedback. De naam beschrijft precies wat het is: reinforcement learning (het trainingsmechanisme waarbij een model leert door beloningen) toegepast op feedback van mensen.

Bij RLHF worden menselijke beoordelaars getraind om antwoorden van het model te vergelijken op criteria als behulpzaamheid, eerlijkheid en veiligheid. Hun oordelen worden gebruikt om een beloningsmodel te trainen: een apart model dat voorspelt hoe een mens een antwoord zou beoordelen. Vervolgens wordt het taalmodel getraind om antwoorden te produceren die hoog scoren bij dat beloningsmodel.

Het proces heeft drie stappen: menselijk oordeel verzamelen, een beloningsmodel trainen, het taalmodel optimaliseren op dat beloningsmodel. Die keten is effectief, maar complex en duur. Elke stap introduceert mogelijke fouten, en de menselijke beoordelingen zijn arbeidsintensiever dan ze klinken: beoordelaars moeten getraind worden, de criteria moeten helder zijn, en de onderlinge overeenstemming moet regelmatig worden gecontroleerd.

Varianten op RLHF

RLHF was de eerste methode, maar het veld is niet stilgestaan. Twee ontwikkelingen zijn het vermelden waard.

De eerste is RLAIF: reinforcement learning from AI feedback. In plaats van menselijke beoordelaars wordt een AI-model ingezet om antwoorden te vergelijken. Dat AI-model beoordeelt op basis van een reeks principes die mensen hebben opgesteld, een lijst met criteria als “het antwoord is eerlijk”, “het antwoord is niet schadelijk”, “het antwoord erkent onzekerheid waar die bestaat.” RLAIF is sneller en goedkoper dan RLHF, maar de kwaliteit hangt af van de principes en van het oordelende model. In de praktijk combineren modelbouwers menselijke feedback voor de moeilijkste afwegingen met AI-feedback voor de schaal.

De tweede is DPO: direct preference optimization. DPO bereikt hetzelfde doel als RLHF, het model leren welke antwoorden beter zijn, maar slaat de tussenstap van het beloningsmodel over. In plaats daarvan wordt het taalmodel rechtstreeks getraind op de vergelijkingsdata, zonder apart beloningsmodel. Het resultaat is vergelijkbaar, het proces is minder complex.

Voor koersbepalers is het verschil tussen deze methoden niet beslissingsrelevant. Wat ertoe doet is het principe: alle methoden leren het model kiezen op basis van vergelijking, en alle methoden zijn afhankelijk van de kwaliteit van de beoordelingscriteria. De technische route verschilt; het doel is hetzelfde.

03Constitutional AI

Een specifieke benadering die het vermelden waard is, is constitutional AI, ontwikkeld door Anthropic, het bedrijf achter Claude. Het idee: geef het model een reeks principes mee, een “grondwet”, en laat het model zijn eigen antwoorden beoordelen op basis van die principes.

Het proces werkt in twee fases. Eerst genereert het model een antwoord, bekritiseert dat antwoord op basis van de principes en produceert een verbeterde versie. Vervolgens worden die verbeterde antwoorden gebruikt als trainingsdata voor preference learning. Het model leert van zijn eigen zelfcorrectie.

Het voordeel is transparantie: de principes zijn expliciet en inspecteerbaar. Een organisatie kan lezen op basis van welke criteria het model is getraind. Bij klassieke RLHF zijn die criteria impliciet in de beoordelingen van de menselijke beoordelaars, en daarmee moeilijker te inspecteren. Het nadeel is dat de principes algemeen geformuleerd zijn en niet elke concrete situatie dekken. “Wees eerlijk” is een helder principe, maar het vertaalt zich niet vanzelf naar de juiste reactie op elke mogelijke vraag.

04Het spanningsveld

Alignment is geen eigenschap die een model heeft of niet heeft. Het is een continu spectrum met aan beide uiteinden een probleem.

Te weinig alignment

Een model met onvoldoende alignment volgt instructies op zonder beoordeling. Het helpt bij het schrijven van phishing-e-mails als dat wordt gevraagd. Het produceert medisch advies alsof het een arts is. Het schrijft overtuigende desinformatie zonder aarzeling. Dat is geen theoretisch risico: vroege versies van taalmodellen zonder alignment deden precies dit.

Te veel alignment

Een model met te strakke alignment weigert onschuldige vragen. Het behandelt een vraag over de Tweede Wereldoorlog als potentieel schadelijk. Het weigert een fictief gewelddadig scenario te schrijven voor een romanauteur. Het voegt aan elke bewering zoveel voorbehouden toe dat het antwoord onleesbaar wordt. Dat wordt in het vakgebied overrefusal of overcautious alignment genoemd, en het is een van de meest voorkomende klachten van gebruikers.

De balans

Modelbouwers zoeken bij elke modelversie opnieuw naar die balans. De feedback van miljoenen gebruikers laat zien waar het model te streng of te soepel is. Nieuwe technieken proberen het model te leren onderscheid te maken tussen daadwerkelijk riskante verzoeken en verzoeken die oppervlakkig op riskant lijken maar dat niet zijn.

Die zoektocht is niet af. Het is een ontwerpproces dat bij elke nieuwe modelversie verdergaat. Alignment is in dat opzicht vergelijkbaar met wetgeving: het is een continue poging om regels te formuleren die werken in een wereld die complexer is dan welke regelset ook kan vangen.

05Wie bepaalt wat “goed” is

Hier raakt alignment aan een vraag die verder reikt dan techniek. Als een model leert wat “behulpzaam” en “veilig” betekent op basis van menselijke voorkeuren, dan hangt het resultaat af van welke mensen die voorkeuren uitspreken. Beoordelaars komen uit specifieke landen, spreken specifieke talen, dragen specifieke culturele normen. Een antwoord dat in de ene cultuur als gepast geldt, is in een andere cultuur ongepast of onvolledig.

Modelbouwers zijn zich hiervan bewust. Initiatieven als collective constitutional AI, waarbij de principes voor het model worden opgesteld door een brede, diverse groep in plaats van door het team van de modelbouwer, proberen die blinde vlek te verkleinen. De vraag wie beslist wat een model wel en niet mag zeggen, is een van de belangrijkste onbeantwoorde vragen in het AI-veld. Het is geen technische vraag. Het is een maatschappelijke vraag die met technische middelen wordt aangesneden.

Voor koersbepalers is dit relevant omdat het verklaart waarom modellen van verschillende aanbieders zich anders gedragen op gevoelige onderwerpen. Elk model weerspiegelt de alignment-keuzes van de organisatie die het heeft getraind. Die keuzes zijn niet neutraal. Ze zijn expliciet of impliciet normatief.

06RL voor andere doelen

Reinforcement learning wordt bij posttraining niet alleen ingezet voor alignment. Dezelfde trainingstechniek wordt ook gebruikt om modellen beter te laten redeneren: langere denkstappen nemen, problemen opsplitsen in deelproblemen, en hun eigen tussenresultaten controleren. Die toepassing valt buiten het bereik van deze pagina. Wie wil begrijpen hoe redenerende modellen werken en wat ze kunnen, vindt dat bij Redenerende modellen (cluster 5.1).

07Voorbeelden

De effecten van alignment worden zichtbaar in situaties waar het model een afweging maakt tussen helpen en waarschuwen.

Voorbeeld

Medische kliniek

Een patiënt vraagt via het online portaal van een ziekenhuis: “Kan ik mijn dosering ibuprofen verhogen als de pijn niet afneemt?” Het AI-model dat het portaal ondersteunt, geeft geen direct antwoord. Het legt uit wat ibuprofen is, beschrijft de algemene richtlijnen voor gebruik, en adviseert de patiënt contact op te nemen met de behandelend arts voor een persoonlijk advies over dosering. Dat gedrag is het resultaat van alignment: het model heeft geleerd dat persoonlijke medische adviezen buiten zijn verantwoorde bereik vallen, ook al beschikt het over de kennis om een antwoord te formuleren. Het onderscheid is subtiel maar wezenlijk: het model beschikt over de kennis (uit pretraining), kan een antwoord formuleren (na fine-tuning), maar kiest ervoor dat niet te doen (door alignment).

Voorbeeld

B2B-dienstverlener

Een adviesbureau vraagt een AI-model om een concept-memo te schrijven die beargumenteert waarom een klant moet investeren in een specifiek technologieplatform. Het model schrijft de memo, maar voegt uit zichzelf een alinea toe waarin het benoemt dat de analyse is gebaseerd op publiek beschikbare informatie en dat het de specifieke situatie van de klant niet kan beoordelen. Een oudere versie van hetzelfde model schreef dezelfde memo zonder enig voorbehoud. Het verschil: de nieuwere versie heeft via alignment geleerd dat beweringen over investeringsbeslissingen een risico dragen als ze zonder context worden gepresenteerd. De adviseur besluit de waarschuwingsalinea te behouden. Het versterkt de geloofwaardigheid van het advies.

Voorbeeld

Zelfstandig professional

Een freelance journalist vraagt een AI-model om achtergrondinformatie te genereren over de betrokkenheid van een specifiek farmaceutisch bedrijf bij een medicijnschandaal. Het model reageert met een genuanceerde beschrijving van de publiek bekende feiten, benoemt wat bevestigd is en wat omstreden, en vermijdt beweringen die het niet kan verifiëren. Een jaar eerder had het model dezelfde vraag beantwoord met een minder genuanceerd verhaal dat speculatie en feiten door elkaar mengde. Het verschil is alignment: het model heeft geleerd dat het bij gevoelige onderwerpen expliciet moet onderscheiden wat bevestigd is en wat niet. Voor de journalist is dat niet beperkend. Het is precies de houding die ze van een betrouwbare bron verwacht.

08Veelgestelde vragen

Het verschil is wezenlijk. Censuur is het systematisch onderdrukken van informatie om bepaalde standpunten of feiten ontoegankelijk te maken. Alignment is het aanleren van oordeelsvermogen: het model leert onderscheid maken tussen verzoeken die het veilig kan beantwoorden en verzoeken die risico’s met zich meebrengen. Een gealigneerd model kan uitgebreid vertellen over de chemie van explosieve stoffen in een educatieve context, maar weigert stapsgewijze instructies te geven voor het bouwen van een bom. Het verschil zit in de beoordeling van het doel, niet in het onderdrukken van de informatie. In de praktijk gaat die beoordeling soms te ver, en weigert het model vragen die onschuldig zijn. Dat is geen censuur maar een kalibratieprobleem dat modelbouwers actief proberen op te lossen.

Dat is een bekende bijwerking van alignment-training. Wanneer het model leert dat het voorzichtig moet zijn bij gevoelige onderwerpen, generaliseert het soms te breed. Het herkent patronen in de vraag die lijken op riskante verzoeken, bijvoorbeeld bepaalde woorden of thema’s die in de trainingsdata vaak voorkwamen bij schadelijke verzoeken, en past dezelfde voorzichtigheid toe op vragen die in werkelijkheid onschuldig zijn. Modelbouwers werken aan technieken die het model leren beter te onderscheiden tussen daadwerkelijk riskante en oppervlakkig vergelijkbare vragen. Elke nieuwe modelversie probeert dat onderscheid te verscherpen. De ervaring van gebruikers is een van de belangrijkste feedbackbronnen voor die verbetering.

De modelbouwer. Anthropic, OpenAI, Google en andere aanbieders bepalen de principes waarop hun modellen worden getraind. Die principes zijn deels publiek (sommige modelbouwers publiceren hun richtlijnen), deels impliciet in de beoordelingen van de menselijke en AI-beoordelaars die bij het trainingsproces worden ingezet. Er bestaat geen externe standaard of toezichthouder die voor alle modellen dezelfde regels voorschrijft. Dat betekent dat elke modelbouwer eigen afwegingen maakt, en dat modellen van verschillende aanbieders zich op dezelfde gevoelige vraag anders kunnen gedragen. Voor organisaties die AI inzetten, is het relevant om te begrijpen dat het gedrag van hun model niet neutraal is, maar het resultaat van ontwerpkeuzes door de modelbouwer. Het is verstandig om die keuzes te kennen voordat je een model kiest voor een context waar ze ertoe doen.

Waarschijnlijk niet. Alignment is een afspiegeling van menselijke waarden, en die waarden verschuiven over tijd, verschillen tussen culturen en bevatten interne spanningen. Wat vandaag als verantwoord geldt, kan over vijf jaar anders worden beoordeeld. Een model dat vandaag goed gekalibreerd is, kan morgen een nieuw type verzoek tegenkomen dat niet in de trainingsdata zat. Modelbouwers behandelen alignment als een doorlopend proces: elke modelversie wordt opnieuw afgestemd op basis van de nieuwste inzichten, de feedback van gebruikers en de veranderende maatschappelijke verwachtingen. In die zin is alignment vergelijkbaar met beveiliging: het is geen probleem dat je eenmalig oplost, maar een eigenschap die voortdurend onderhoud vraagt.

09Verder lezen

Wie wil begrijpen hoe fine-tuning werkt en wanneer het zinvol is om een model aan te passen aan een specifiek domein of een specifieke taak, leest Fine-tuning (cluster 2.3a).

Wie wil begrijpen hoe de kennis die bij alignment wordt bijgestuurd in het model is terechtgekomen, leest Pretraining: het fundament bouwen (cluster 2.2).

Wie wil weten hoe reinforcement learning wordt ingezet om modellen beter te laten redeneren, en wat redenerende modellen onderscheidt van standaard taalmodellen, vindt dat bij Redenerende modellen (cluster 5.1).

Terug naar Posttraining: van basismodel naar assistent: De Complete Gids

Posttraining: van basismodel naar assistent

Alignment

Roland Bieleveldt

01Wat alignment is

Alignment is het zoeken naar de balans in dat spanningsveld.

02Hoe een model leert beoordelen

Het kernmechanisme achter alignment is preference learning: het model leert welke antwoorden beter zijn door vergelijking.

Hoe dat werkt

RLHF

Varianten op RLHF

RLHF was de eerste methode, maar het veld is niet stilgestaan. Twee ontwikkelingen zijn het vermelden waard.

03Constitutional AI

04Het spanningsveld

Alignment is geen eigenschap die een model heeft of niet heeft. Het is een continu spectrum met aan beide uiteinden een probleem.

Te weinig alignment

Te veel alignment

De balans

05Wie bepaalt wat “goed” is

06RL voor andere doelen

07Voorbeelden

De effecten van alignment worden zichtbaar in situaties waar het model een afweging maakt tussen helpen en waarschuwen.

Voorbeeld

Medische kliniek

Voorbeeld

B2B-dienstverlener

Voorbeeld

Zelfstandig professional

08Veelgestelde vragen

09Verder lezen

Wie wil begrijpen hoe fine-tuning werkt en wanneer het zinvol is om een model aan te passen aan een specifiek domein of een specifieke taak, leest Fine-tuning (cluster 2.3a).

Wie wil begrijpen hoe de kennis die bij alignment wordt bijgestuurd in het model is terechtgekomen, leest Pretraining: het fundament bouwen (cluster 2.2).

Terug naar Posttraining: van basismodel naar assistent: De Complete Gids

Alignment

01Wat alignment is

02Hoe een model leert beoordelen

Hoe dat werkt

RLHF

Varianten op RLHF

03Constitutional AI

04Het spanningsveld

Te weinig alignment

Te veel alignment

De balans

05Wie bepaalt wat &#8220;goed&#8221; is

06RL voor andere doelen

07Voorbeelden

Medische kliniek

B2B-dienstverlener

Zelfstandig professional

08Veelgestelde vragen

09Verder lezen

Alignment

01Wat alignment is

02Hoe een model leert beoordelen

Hoe dat werkt

RLHF

Varianten op RLHF

03Constitutional AI

04Het spanningsveld

Te weinig alignment

Te veel alignment

De balans

05Wie bepaalt wat &#8220;goed&#8221; is

06RL voor andere doelen

07Voorbeelden

Medische kliniek

B2B-dienstverlener

Zelfstandig professional

08Veelgestelde vragen

09Verder lezen

05Wie bepaalt wat “goed” is

05Wie bepaalt wat “goed” is