Pretraining: het fundament bouwen

Pretraining: het fundament bouwen: De Complete Gids

Wie voor het eerst met een AI-model werkt, is vaak verrast door wat het kan. Het schrijft samenhangende teksten, legt complexe begrippen uit, vertaalt tussen talen, en produceert code die compileert. Waar komt die kennis vandaan? Het antwoord is pretraining: het proces waarmee een model de patronen van menselijke taal vastlegt door biljoenen stukken tekst te verwerken. Dat proces legt het fundament voor alles wat een AI-model later kan. En het verklaart waarom datzelfde model soms overtuigend fout zit.

Roland Bieleveldt

01
Het woord dat alles verklaart

Er is één mechanisme dat de werking van alle huidige taalmodellen samenvat in drie woorden: voorspel het volgende. Dat is het. Dat is de kern van pretraining.

Pretraining is het proces waarmee een AI-model wordt getraind op een enorme hoeveelheid tekst, met als doel de statistische patronen van taal vast te leggen. Het model leest geen tekst zoals een mens dat doet. Het verwerkt biljoenen stukken tekst en leert bij elk stuk voorspellen welk woord het meest waarschijnlijk volgt op de voorgaande woorden.

Neem de zin: “De directeur opende de vergadering met een kort…” Het model heeft uit miljoenen vergelijkbare zinnen geleerd dat “welkomstwoord” of “overzicht” hier waarschijnlijk volgt, en niet “banaan” of “vliegtuig.” Dat is geen begrip. Het is patroonherkenning op een schaal die menselijk onvoorstelbaar is.

Next-token prediction

Dit mechanisme heet next-token prediction. Het model krijgt een reeks woorden en voorspelt het volgende. De voorspelling wordt vergeleken met het werkelijke woord in de tekst. Bij elke afwijking worden de parameters van het model bijgesteld, miljoenen keren per minuut, biljoenen keren gedurende het hele trainingsproces.

Dat is dezelfde trainingslogica als bij machine learning: voorspellen, vergelijken, bijstellen. Het verschil zit in de schaal en in de trainingsopgave. Bij supervised learning levert een mens de uitkomsten aan: deze e-mail is spam, deze transactie is fraude. Bij pretraining levert de tekst zelf de opgave. Elk woord in een zin is het antwoord op de vraag: wat komt hierna? Dat maakt het mogelijk om te trainen op een hoeveelheid data die bij supervised learning ondenkbaar zou zijn. Er is niet genoeg menskracht om biljoenen stukken tekst handmatig te labelen. De tekst labelt zichzelf.

Na dat proces heeft het model de patronen van menselijke taal vastgelegd in zijn parameters. Het heeft geleerd welke woorden vaak samen voorkomen, welke zinsstructuren gangbaar zijn, welke redeneerpatronen in teksten terugkeren. Het “weet” niets in de menselijke zin van het woord. Het heeft statistische verbanden opgeslagen die zo rijk en gelaagd zijn dat het resultaat lijkt op kennis. En hoe meer parameters het model heeft, hoe meer van deze verbanden het kan opslaan.

02
Wat erin gaat

De kwaliteit van een pretrained model hangt af van de tekst waarop het is getraind. Dat klinkt vanzelfsprekend, maar de consequenties zijn verstrekkend.

De trainingsdata voor moderne taalmodellen komen uit een brede verzameling bronnen: webpagina’s, boeken, wetenschappelijke publicaties, nieuwsartikelen, fora, coderepositories en encyclopedieën. De schaal is moeilijk voor te stellen. Huidige modellen worden getraind op biljoenen stukken tekst, een hoeveelheid die gelijk staat aan miljoenen boeken. Dat is meer tekst dan een mens in duizend levens zou kunnen lezen.

Curatie

Maar het is niet “het hele internet.” Dat is een wijdverbreid misverstand. De ruwe data van het web zijn vervuild met spam, dubbele pagina’s, lage kwaliteit en misleidende inhoud. Modelbouwers investeren maanden in het filteren, opschonen en samenstellen van de trainingsdata. Die stap heet datacuratie, en de impact ervan op het eindresultaat is minstens zo groot als de keuze voor een netwerkarchitectuur.

Het principe is hetzelfde als bij elk machine-learning-model, maar de schaal is anders. Een creditcardfraude-model dat is getraind op vertekende data reproduceert die vertekening. Een taalmodel dat is getraind op een tekstverzameling waarin bepaalde perspectieven oververtegenwoordigd zijn, reproduceert dat onevenwicht. Alleen gebeurt het hier op een schaal van biljoenen woorden, waar handmatige inspectie onmogelijk is.

De beschikbaarheid van hoogwaardige trainingstekst is eindig. Onderzoekers verwachten dat de voorraad publiek beschikbare, kwalitatief sterke tekst de komende jaren uitgeput raakt. Modelbouwers reageren daarop met synthetische data: tekst die door AI-modellen zelf wordt gegenereerd als trainingsmateriaal voor volgende generaties modellen. De gevolgen van die verschuiving zijn nog niet volledig zichtbaar. Het is een ontwikkeling om in de gaten te houden.

03
Hoe tekst getallen wordt

Een neuraal netwerk kan niet met woorden rekenen. Het kan alleen met getallen werken. Voordat een model tekst kan verwerken, moet die tekst worden omgezet in een reeks getallen. Die omzetting heet tokenisatie.

Een token is de kleinste eenheid waarmee een taalmodel tekst verwerkt. Dat is lang niet altijd een heel woord. Het woord “vergaderruimte” wordt door de meeste modellen opgesplitst in twee of drie stukken: “vergader”, “ruimte”, of zelfs “ver”, “gader”, “ruimte.” Veelgebruikte korte woorden (“de”, “en”, “is”) zijn meestal één token. Zeldzame of samengestelde woorden worden opgesplitst in kleinere eenheden die het model vaker heeft gezien.

De gangbare methode voor die opsplitsing werkt op basis van frequentie. Patronen die vaak voorkomen in de trainingstekst worden samengevoegd tot één token. Patronen die zelden voorkomen, worden opgesplitst in kleinere stukken. Het resultaat is een vocabulaire van tienduizenden tot honderdduizend tokens waarmee het model elke tekst kan representeren.

Tokens in de praktijk

Dit klinkt als een technisch detail. Maar het verklaart een reeks eigenaardigheden die iedereen die met AI-modellen werkt vroeg of laat tegenkomt.

Vraag een model hoeveel keer de letter “r” voorkomt in “strawberry”, en het antwoord is regelmatig fout. Niet omdat het model niet kan tellen, maar omdat het de individuele letters niet ziet. “Strawberry” is voor het model niet s-t-r-a-w-b-e-r-r-y, maar een reeks tokens die niet op lettergrenzen vallen. Het model opereert op een niveau boven de letter, en dat niveau matcht niet altijd met de taak die je het geeft.

Hetzelfde geldt voor rekenen met grote getallen. Het getal “1234” wordt soms opgesplitst in “123” en “4”. Het model ziet die stukken als afzonderlijke symbolen, niet als posities in een decimaal stelsel. Rekenen vereist inzicht in posities. Tokenisatie wist dat inzicht uit.

Voor organisaties is er een directe praktische consequentie. AI-diensten rekenen af per token. Hoe meer tokens een tekst bevat, hoe hoger de kosten. Teksten in het Nederlands gebruiken meer tokens dan dezelfde tekst in het Engels, omdat de meeste modellen zijn geoptimaliseerd voor Engelse tekst. Code is vaak token-efficiënt. Juridische teksten met lange samenstellingen kosten meer tokens per woord. Wie de kosten van AI-inzet wil begrijpen, moet tokens begrijpen.

04
Wat het oplevert

Na pretraining is het resultaat een basismodel: een neuraal netwerk met miljarden parameters die de patronen van menselijke taal hebben vastgelegd. Dat basismodel vormt de grondstof voor alles wat een AI-model later kan.

De reikwijdte is breed. Een pretrained basismodel kan tekst aanvullen, zinnen afmaken, patronen in taal herkennen en nieuwe tekst genereren die grammaticaal correct, inhoudelijk samenhangend en stilistisch consistent is. Het kan code produceren, vertalingen maken en samenvattingen schrijven. Het doet dit allemaal op basis van hetzelfde mechanisme: de volgende token voorspellen op basis van de voorgaande context.

Hier zit een inzicht dat de moeite waard is om even bij stil te staan. Vrijwel alle kennis die een taalmodel bezit, is vastgelegd tijdens pretraining. De latere fases, posttraining, voegen relatief weinig nieuwe kennis toe. Wat ze wel toevoegen is gedrag: het vermogen om instructies op te volgen en behulpzaam te reageren. Maar de taalpatronen, de feitenkennis en de redeneerstructuren die daaronder liggen, dat is het werk van pretraining.

Het ruwe basismodel

Dat fundament is indrukwekkend. Maar een pretrained model is nog geen product. Stel het een vraag, en het genereert de meest waarschijnlijke vervolgtekst. Soms is dat een antwoord. Soms is dat een volgende vraag. Soms is het een willekeurige voortzetting van de tekst alsof het een artikel schrijft. Het model heeft geen instructie-opvolgend gedrag. Het vult tekst aan. Meer niet.

Een pretrained model weigert ook niet. Het genereert wat statistisch het meest waarschijnlijk is, ongeacht of dat behulpzaam, schadelijk of onzinnig is. De veiligheidsmaatregelen en het vermogen om schadelijke verzoeken te weigeren komen pas bij posttraining.

Dit onderscheid is fundamenteel voor iedereen die beslissingen neemt over AI. Het verklaart waarom hetzelfde basismodel zich totaal anders kan gedragen na verschillende vormen van posttraining, en waarom modellen van verschillende aanbieders toch heel anders reageren terwijl ze op vergelijkbare basismodellen zijn gebouwd. Het verklaart ook waarom de kwaliteit van pretraining de bovenkant bepaalt: posttraining kan een model niet laten presteren op kennis die tijdens pretraining niet is vastgelegd.

Midtraining

Wij presenteren pretraining en posttraining als twee gescheiden fases. Dat is een nuttige vereenvoudiging die het geheel begrijpelijk maakt. In de praktijk is de grens minder scherp. Modelbouwers experimenteren met tussenliggende fases, soms midtraining genoemd, waarin ze al tijdens het latere deel van de pretraining hoogwaardige data toevoegen of de trainingsaanpak geleidelijk verschuiven richting het gedrag dat bij posttraining wordt aangeleerd. Die tussenliggende fases zijn nog niet gestandaardiseerd. De indeling verschilt per modelbouwer en verandert bij elke nieuwe generatie modellen. Voor het begrip van hoe een AI-model wordt opgebouwd is de tweedeling pretraining-posttraining het meest verhelderende vertrekpunt.

05
Voorbeelden

Wat pretraining concreet oplevert, en waar het tekortschiet, wordt zichtbaar in de manier waarop organisaties AI-modellen inzetten.

Voorbeeld

Medische kliniek

Een ziekenhuis gebruikt een AI-model om artsen te ondersteunen bij het opstellen van ontslagbrieven. Het model kan medische terminologie correct gebruiken, de structuur van een ontslagbrief volgen en een coherente samenvatting van het behandeltraject produceren. Die vaardigheid komt uit pretraining: het model heeft tijdens training enorme hoeveelheden medische tekst verwerkt en de patronen daarvan vastgelegd. Maar het model controleert niet of de inhoud klopt. Het kan een medicijnnaam verwisselen, een dosering verzinnen of een bijwerking toekennen aan het verkeerde middel, zolang het resultaat er taalkundig plausibel uitziet. De arts die de brief ondertekent, is verantwoordelijk voor de inhoud. Pretraining levert taalbeheersing. De medische beoordeling blijft mensenwerk.

Voorbeeld

B2B-dienstverlener

Een adviesbureau gebruikt een AI-model om conceptteksten te schrijven voor projectvoorstellen. Het model produceert structureel sterke teksten die de conventies van het genre volgen: probleemschets, aanpak, planning, investering. Het kan dat omdat het tijdens pretraining duizenden vergelijkbare documenten heeft verwerkt. Het bureau merkt dat het model twee dingen niet kan. Het kan niet toetsen of de voorgestelde aanpak realistisch is voor deze specifieke klant. En het maakt soms beweringen over de markt die plausibel klinken maar feitelijk niet kloppen. Het model genereert op basis van patronen. De verificatie komt van de adviseur die het voorstel ondertekent.

Voorbeeld

Zelfstandig professional

Een zelfstandig jurist gebruikt een AI-model om juridische teksten samen te vatten. Het model herkent juridische structuren, identificeert kernbepalingen en produceert compacte samenvattingen in begrijpelijke taal. Bij een contract in het Nederlands presteert het model merkbaar minder dan bij een vergelijkbaar contract in het Engels. Zinnen worden langer, samenstellingen worden onhandig afgebroken, nuances gaan verloren. De verklaring zit in pretraining: de trainingsdata bevatten aanzienlijk meer Engelstalige juridische tekst dan Nederlandstalige. Het model heeft minder patronen in het Nederlands vastgelegd. Dat verschil in trainingsdata vertaalt zich direct naar een verschil in kwaliteit.

06
Veelgestelde vragen

Pretraining legt het fundament: het model verwerkt biljoenen stukken tekst en legt de patronen van menselijke taal vast in zijn parameters. Dat levert een basismodel op dat tekst kan aanvullen en patronen kan herkennen, maar dat geen instructies opvolgt en geen gesprek kan voeren. Posttraining bouwt daarop voort. Via technieken als fine-tuning en alignment leert het model om instructies op te volgen, behulpzaam te reageren en schadelijke verzoeken te weigeren. De verhouding is te vergelijken met het verschil tussen een encyclopedie en een adviseur. De encyclopedie bevat de kennis. De adviseur weet hoe die kennis toe te passen in een gesprek. Pretraining levert de encyclopedie. Posttraining levert het gespreksvermogen.

Een token is de kleinste eenheid waarmee een AI-model tekst verwerkt. Het woord “belastingaangifte” is voor een mens één woord, maar voor een model twee of drie tokens. Korte, veelgebruikte woorden zijn meestal één token. Lange samenstellingen en vaktermen worden opgesplitst. Tokens zijn praktisch relevant om drie redenen. Ten eerste bepalen ze de kosten: AI-diensten rekenen per verwerkte token, zowel in de invoer als in de uitvoer. Een lange, gedetailleerde prompt kost meer dan een korte. Ten tweede bepalen ze de limiet van het contextvenster: elk model heeft een maximaal aantal tokens dat het in één keer kan verwerken. Wie een lang document meestuurt, verbruikt een deel van dat budget. Ten derde verklaren tokens waarom modellen soms onverwacht presteren bij taken op letterniveau. Het model “ziet” geen letters, het ziet tokens. Tellen, spellen en woordspelletjes vallen daardoor soms buiten het bereik van de patroonherkenning.

Een basismodel, in het Engels ook wel foundation model genoemd, is het directe resultaat van pretraining: een neuraal netwerk dat de patronen van menselijke taal heeft vastgelegd door biljoenen stukken tekst te verwerken. Het model is breed inzetbaar, niet gespecialiseerd voor één taak. Het kan tekst aanvullen, vertalen, samenvatten en genereren, allemaal op basis van hetzelfde mechanisme. Een basismodel is geen eindproduct. Wie een bruikbare AI-assistent wil, heeft posttraining nodig om het model instructies te leren opvolgen. Wie een model wil voor een specifiek vakgebied, heeft fine-tuning nodig. Het basismodel is de grondstof. De toepassing bepaalt welke verdere stappen nodig zijn.

Dat is misschien het meest verrassende inzicht rond pretraining. Next-token prediction klinkt als een beperkt mechanisme: voorspel het volgende woord. Maar de patronen die je moet herkennen om dat goed te doen bij biljoenen stukken tekst, omvatten feitenkennis, grammaticale structuren, redeneerpatronen, stijlverschillen tussen genres, en de logica van code. Een model dat consistent het juiste volgende woord kan voorspellen in een wiskundebewijs, moet de structuur van wiskundige redenering hebben vastgelegd. Een model dat het juiste volgende woord kan voorspellen in een juridisch contract, moet de conventies van juridische taal hebben geleerd. Het mechanisme is hetzelfde, de diepte van wat het vastlegt is verrassend breed.

Niet zonder meer. Pretraining legt statistische patronen vast, geen geverifieerde feiten. Het model reproduceert wat het het vaakst en het meest consistent in de trainingsdata heeft aangetroffen. Bij veelgedocumenteerde onderwerpen komen die patronen grotendeels overeen met de feiten. Bij minder gedocumenteerde, tegenstrijdige of recente onderwerpen vult het model gaten op met plausibele patronen die feitelijk onjuist kunnen zijn. Het model kan bovendien geen onderscheid maken tussen wat het betrouwbaar heeft geleerd en waar het onzeker is. Die eigenschap maakt het onmogelijk om op output van een pretrained model te vertrouwen zonder onafhankelijke verificatie. Het is een van de redenen waarom technieken als RAG (het meegeven van externe bronnen als context) zo belangrijk zijn geworden: ze voorzien het model van actuele, verifieerbare informatie in plaats van te leunen op wat tijdens pretraining is vastgelegd.

07
Verder lezen

Wie wil begrijpen hoe een basismodel na pretraining wordt omgevormd tot een bruikbare assistent die instructies opvolgt en behulpzaam reageert, leest verder bij Posttraining: van basismodel naar assistent (cluster 2.3).

Wie wil weten hoe het trainingsmechanisme van machine learning werkt en welke soorten er zijn, vindt dat bij Wat is machine learning?

Wie wil zien hoe de transformer-architectuur pretraining op grote schaal mogelijk maakte, leest Transformers en foundation models: de architectuursprong (cluster 1.2).

Pretraining: het fundament bouwen

Pretraining: het fundament bouwen: De Complete Gids

Roland Bieleveldt

01
Het woord dat alles verklaart

Er is één mechanisme dat de werking van alle huidige taalmodellen samenvat in drie woorden: voorspel het volgende. Dat is het. Dat is de kern van pretraining.

Next-token prediction

02
Wat erin gaat

De kwaliteit van een pretrained model hangt af van de tekst waarop het is getraind. Dat klinkt vanzelfsprekend, maar de consequenties zijn verstrekkend.

Curatie

03
Hoe tekst getallen wordt

Tokens in de praktijk

Dit klinkt als een technisch detail. Maar het verklaart een reeks eigenaardigheden die iedereen die met AI-modellen werkt vroeg of laat tegenkomt.

04
Wat het oplevert

Het ruwe basismodel

Midtraining

05
Voorbeelden

Wat pretraining concreet oplevert, en waar het tekortschiet, wordt zichtbaar in de manier waarop organisaties AI-modellen inzetten.

Voorbeeld

Medische kliniek

Voorbeeld

B2B-dienstverlener

Voorbeeld

Zelfstandig professional

06
Veelgestelde vragen

07
Verder lezen

Wie wil weten hoe het trainingsmechanisme van machine learning werkt en welke soorten er zijn, vindt dat bij Wat is machine learning?

Wie wil zien hoe de transformer-architectuur pretraining op grote schaal mogelijk maakte, leest Transformers en foundation models: de architectuursprong (cluster 1.2).

Pretraining: het fundament bouwen: De Complete Gids

01 Het woord dat alles verklaart

Next-token prediction

02 Wat erin gaat

Curatie

03 Hoe tekst getallen wordt

Tokens in de praktijk

04 Wat het oplevert

Het ruwe basismodel

Midtraining

05 Voorbeelden

Medische kliniek

B2B-dienstverlener

Zelfstandig professional

06 Veelgestelde vragen

07 Verder lezen

Pretraining: het fundament bouwen: De Complete Gids

01 Het woord dat alles verklaart

Next-token prediction

02 Wat erin gaat

Curatie

03 Hoe tekst getallen wordt

Tokens in de praktijk

04 Wat het oplevert

Het ruwe basismodel

Midtraining

05 Voorbeelden

Medische kliniek

B2B-dienstverlener

Zelfstandig professional

06 Veelgestelde vragen

07 Verder lezen

01
Het woord dat alles verklaart

02
Wat erin gaat

03
Hoe tekst getallen wordt

04
Wat het oplevert

05
Voorbeelden

06
Veelgestelde vragen

07
Verder lezen

01
Het woord dat alles verklaart

02
Wat erin gaat

03
Hoe tekst getallen wordt

04
Wat het oplevert

05
Voorbeelden

06
Veelgestelde vragen

07
Verder lezen