GPT serijos modelių mokymo etapai: nuo duomenų iki generatyvaus intelekto

Generatyvūs kalbos modeliai, tokie kaip GPT serija, per kelis metus iš esmės pakeitė tai, kaip suprantame ir naudojame dirbtinį intelektą. Nors didžioji dalis vartotojų mato tik galutinį rezultatą – sklandžius atsakymus, tekstų generavimą ar kodų pavyzdžius – už to slypi sudėtingas ir daugiapakopis mokymo procesas. Suprasti pagrindinius GPT serijos modelių mokymo etapus svarbu ne tik technologijų entuziastams, bet ir verslams, programuotojams, turinio kūrėjams ar švietimo atstovams.

Šiame straipsnyje nuosekliai aptariami pagrindiniai GPT modelių mokymo etapai: nuo duomenų rinkimo ir apdorojimo, per pirminį išankstinį mokymą, iki tikslinimo ir saugumo užtikrinimo. Nors techniniai aspektai gali būti labai gilūs, juos galima paaiškinti aiškiai ir suprantamai, pasitelkiant struktūruotą išdėstymą ir praktinius pavyzdžius.

Kas yra GPT serijos modeliai?

GPT (Generative Pre-trained Transformer) – tai generatyvus iš anksto apmokytas transformerių architektūros kalbos modelis. Jis mokomas milžiniškais tekstinių duomenų kiekiais tam, kad gebėtų prognozuoti kitą žodį sekoje. Ši, iš pirmo žvilgsnio paprasta užduotis, leidžia modeliui išmokti:

kalbos struktūros ir gramatikos;
pasaulio faktų ir žinių;
loginio nuoseklumo ir konteksto laikymosi;
skirtingų kalbų, stilių ir žanrų.

GPT serijos modeliai (pvz., GPT-2, GPT-3, GPT-3.5, GPT-4 ir naujesni) skiriasi masteliu, architektūros niuansais, mokymo duomenų apimtimi ir kokybe, taip pat papildomais tikslinimo bei saugumo etapais. Tačiau bendri mokymo principai išlieka panašūs.

Pagrindiniai GPT mokymo etapai

GPT tipo modelių kūrimo procesą galima suskirstyti į kelis pagrindinius etapus:

Duomenų surinkimas ir atranka.
Duomenų valymas ir paruošimas.
Išankstinis mokymas (pre-training).
Instrukcijų mokymas ir tikslinimas.
Mokymas su žmonių grįžtamuoju ryšiu (RLHF).
Saugumo, kokybės ir vertinimo fazė.

Toliau kiekvieną iš šių etapų panagrinėsime detaliau.

1. Duomenų surinkimas ir atranka

Pirmasis žingsnis – platus ir įvairus tekstinių duomenų surinkimas. Kuo turtingesni ir įvairesni duomenys, tuo modelis geriau geba apdoroti skirtingus kontekstus ir užduotis. Duomenų šaltiniai gali būti:

viešai prieinami interneto tekstai (tinklaraščiai, forumai, dokumentacija);
knygos ir mokslinės publikacijos (jei leidžia licencijos ir teisės);
straipsniai, enciklopedijos, mokymo medžiaga;
kodo repozitorijos, techninė dokumentacija, pagalbos sistemos;
lokalizuoti tekstai skirtingomis kalbomis (daugiakalbis mokymas).

Šiuolaikinis požiūris pabrėžia ne tik duomenų kiekį, bet ir kokybę bei įvairovę. Į mokymo aibę siekiama įtraukti:

skirtingų šalių ir kultūrų šaltinius;
įvairius žanrus (nuomonės, naujienos, techniniai tekstai, literatūra);
skirtingus stilistikos lygius (formalų, neformalų, akademinį ir pan.).

Kartu su duomenų rinkimu vyksta ir atranka pagal kokybę – šalinami akivaizdžiai žemos kokybės, šlamšto, mašinomis generuotų ar pernelyg pasikartojantys tekstai, taip pat duomenys, kurie pažeistų privatumo ar autorinių teisių reikalavimus.

2. Duomenų valymas ir paruošimas

Surinkti duomenys retai kada iš karto tinka mokymui. Prieš paduodant juos į modelį, atliekama daugybė valymo ir paruošimo žingsnių:

2.1. Šiukšlių ir pasikartojimų šalinimas

Didelėje tekstų aibėje natūraliai atsiranda:

pasikartojančių dokumentų arba jų versijų;
automatiškai sugeneruoto neinformatyvaus turinio;
techninio „triukšmo“: per daug HTML, logų, atsitiktinių simbolių;
turinio, neatitinkančio kokybės ir etikinių standartų.

Todėl naudojami algoritmai pasikartojimams aptikti (deduplikavimas), turinio kokybei ir kalbinei struktūrai vertinti. Tai padeda apsaugoti modelį nuo išmokimo kartoti šlamštą ar nepageidaujamą elgseną.

2.2. Turinio filtravimas pagal taisykles

Dar vienas svarbus žingsnis – jautraus ir žalingo turinio filtravimas. Tai gali būti:

neapykantos kalba ir ekstremistinis turinys;
tiesioginės instrukcijos smurtui ar neteisėtai veiklai;
aiškiai identifikuojami asmens duomenys;
kiti privatumo pažeidimai ar jautri informacija.

Šiuolaikiniai modeliai vis dažniau mokomi ant duomenų, kurie bent iš dalies filtruoti pagal tokias taisykles, o vėlesniuose etapuose papildomai taikomi saugumo ir elgsenos apribojimai.

2.3. Teksto tokenizacija

Kad modelis galėtų „skaityti“ tekstą, jis turi būti suskaidytas į tokenus – mažesnes teksto dalis. Tokenas gali būti žodis, žodžio dalis ar simbolių grupė. GPT modeliuose dažnai naudojami subžodžiai (subword units), leidžiantys efektyviai dirbti su skirtingomis kalbomis ir retais žodžiais.

Tokenizacijos metu:

originalus tekstas normalizuojamas (pvz., suderinami tarpai, simboliai);
tekstas dalijamas pagal pasirinktos žodyno schemos taisykles;
kiekvienam tokenui priskiriamas unikalus skaitinis indeksas.

Vėliau modelis mokomas prognozuoti kito tokeno indeksą, o ne patį tekstą. Būtent todėl GPT realiai „veikia“ skaitinių sekų lygmenyje.

3. Išankstinis mokymas (pre-training)

Išankstinis mokymas yra didžiausias ir brangiausias GPT kūrimo etapas. Jo metu modelis mokosi bendro kalbos ir pasaulio supratimo be specializacijos į konkrečius klausimus ar užduotis.

3.1. Pagrindinė užduotis: kito tokeno prognozė

Standartinė GPT mokymo užduotis – autoregresinė kalbos modeliavimas. Tai reiškia, kad modelis gauna dalį sekos ir turi nuspėti kitą tokeną:

tarkime, kad turime sakinį: „GPT modeliai mokomi iš …“;
modelis mato žodžius iki „iš“ ir turi nuspėti, koks tokenas seks toliau;
jei prognozė teisinga, jo vidiniai parametrai šiek tiek sustiprinami;
jei prognozė klaidinga, tinklas koreguojamas mažinant klaidos funkciją.

Šis procesas kartojamas dešimtis ar šimtus milijardų kartų, su skirtingais sakinių fragmentais, kol modelis išmoksta plačiai taikomas kalbines ir semantines struktūras.

3.2. Transformerių architektūra

GPT pagrindas – transformerių (Transformer) architektūra, kuri naudoja dėmesio (attention) mechanizmą. Vietoj to, kad tekstą apdorotų žodis po žodžio, transformeris gali vienu metu vertinti ilgesnius konteksto langus. Tai leidžia:

geriau suprasti ilgų tekstų struktūrą;
atkreipti dėmesį į svarbiausias ankstesnio teksto vietas;
lengviau paralelizuoti skaičiavimus dideliuose GPU klasteriuose.

Naujesnės GPT versijos papildomai optimizuoja architektūrą: taikomi efektyvesni dėmesio mechanizmai, parametrų išdėstymas, sudėtingesnės normalizacijos ir reguliavimo technikos, tačiau pagrindinė idėja – išlieka ta pati.

3.3. Milžiniški skaičiavimo resursai

Išankstinis mokymas reikalauja didelių skaičiavimo resursų. Praktikoje tai reiškia:

šimtus ar tūkstančius galingų GPU arba specializuotų akseleratorių;
ilgas treniravimo sesijas, trunkančias savaites ar mėnesius;
milijardus iki trilijonų modelio parametrų.

Modelio kokybė paprastai didėja didinant parametrų skaičių, duomenų kiekį ir skaičiavimo apimtį, tačiau kartu auga ir kaina bei sudėtingumas. Dėl to vis svarbesne tampa efektyvumo, pritaikymo ir prieinamumo tema.

4. Instrukcijų mokymas ir tikslinimas

Nors iš anksto apmokytas GPT jau geba generuoti sklandų tekstą, jis dar nemoka natūraliai vykdyti žmogaus instrukcijų. Ši problema išryškėjo pereinant nuo žaidimo su tekstu prie produktyvaus naudojimo: vartotojai nori, kad modelis suprastų klausimus, sekas, užduotis ir pateiktų aiškius, naudingus atsakymus.

4.1. Finetuning su instrukcijų duomenimis

Todėl po išankstinio mokymo dažnai atliekamas instrukcijų mokymo (instruction tuning) etapas. Jam naudojami specialūs duomenų rinkiniai, sudaryti iš:

klausimų ir atsakymų porų;
užduočių aprašymų ir norimų modelio reakcijų;
pavyzdžių, kaip laikytis struktūros (sąrašai, paaiškinimai, žingsniai);
pavyzdinių dialogų tarp žmogaus ir AI asistento.

Šiame etape modelis papildomai mokomas taip, kad elgtųsi kaip naudingas asmeninis asistentas, o ne tik kaip abstraktus kalbos modelis. Tai ženkliai pagerina:

užklausų supratimą;
atsakymų struktūrą ir aiškumą;
gebėjimą dirbti su konkrečiomis užduotimis (pvz., santraukomis, kodu, patarimais).

4.2. Domeninis arba užduočių specifinis tikslinimas

Kai kuriais atvejais GPT modeliai papildomai tikslinami konkrečiai sričiai. Pavyzdžiui:

medicininei informacijai (su griežtais apribojimais ir priežiūra);
programavimo užduotims ir kodo generavimui;
teisinei ar finansinei analitikai;
įmonės vidiniams dokumentams ir procesams.

Toks specializuotas finetuning leidžia pagerinti kokybę konkrečioje nišoje, išsaugant bendrąjį žinių pagrindą. Vis dėlto būtina atidžiai vertinti rizikas, susijusias su pasenusia ar klaidinančia informacija, taip pat su atsakomybe už rekomendacijas.

5. RLHF: mokymas su žmonių grįžtamuoju ryšiu

Vien tik instrukcijų mokymas neužtikrina, kad modelis elgsis saugiai ir pagal socialiai priimtinas normas. Todėl atsirado papildomas etapas – RLHF (Reinforcement Learning from Human Feedback), t. y. mokymas su stiprinamuoju mokymusi pasitelkiant žmonių grįžtamąjį ryšį.

5.1. Žmonių vertintojų vaidmuo

RLHF proceso metu:

Modelis sugeneruoja kelis atsakymų variantus į tą pačią užklausą.
Žmonių vertintojai (annotatoriai) juos įvertina ir surikiuoja nuo geriausio iki prasčiausio.
Sudaryta reitingų aibė naudojama apmokyti atskirą apdovanojimo (reward) modelį.
Originalus GPT modelis toliau treniruojamas taip, kad maksimaliai padidintų tikėtiną „apdovanojimą“.

Tokiu būdu modelis palaipsniui išmoksta teikti prioritetą atsakymams, kurie žmonėms atrodo:

aiškesni ir tikslesni;
saugesni ir etiški;
nuosaikesni, mažiau poliarizuojantys;
informatingesni ir naudingesni.

5.2. Elgsenos gairės ir politikos

RLHF metu modelis mokomas laikytis tam tikrų elgsenos gairių, pavyzdžiui:

nepateikti pavojingų instrukcijų (pvz., kaip sukurti ginklą);
vengti diskriminacinių ar neapykantą skatinančių pasisakymų;
aiškiai žymėti ribotą kompetenciją (pvz., medicinoje, teisėje);
gerbti privatumą ir vengti jautrių asmens duomenų generavimo.

Šis etapas tiesiogiai susijęs su GPT modelių saugumu ir socialine atsakomybe. Be RLHF, modeliai būtų daug mažiau prognozuojami ir galėtų dažniau pateikti žalingus ar netinkamus atsakymus.

6. Saugumo, kokybės ir vertinimo etapas

Net ir po RLHF GPT tipo modeliai dar nėra automatiškai pasirengę viešam naudojimui. Reikia nuodugnaus vertinimo, testavimo ir saugumo patikrinimo.

6.1. Automatiniai ir žmogaus testai

Modeliai vertinami keliais lygmenimis:

Automatiniai testai – standartiniai kalbos testai, užduotys, benchmark'ai (pvz., loginiai uždaviniai, skaitymo supratimas, kodavimo gebėjimai).
Žmogaus vertinimai – specialistai vertina atsakymų kokybę, palygina su ankstesnėmis modelių versijomis, nustato silpnąsias vietas.
Adversariniai testai – specialiai kuriamos sunkios ar provokuojančios užklausos, siekiant patikrinti, ar modelis nesukuria pavojingų ar neetiškų atsakymų.

Tokiu būdu kuriamas nuoseklus vaizdas apie tai, ką modelis sugeba, kokiose srityse jis ypač stiprus ir kur reikalingi papildomi ribojimai ar tobulinimai.

6.2. Filtrai, politikos ir apsaugos sluoksniai

Prieš pateikiant modelį vartotojams, aplink jį dažnai sukuriami papildomi apsaugos sluoksniai:

turinio filtrai, ribojantys pavojingų atsakymų generavimą;
politikos, apibrėžiančios, kokio tipo klausimai priimtini, o kokie – ne;
monitoringo sistemos, leidžiančios aptikti piktnaudžiavimą ar sistemines klaidas;
versijų valdymas ir galimybė atnaujinti arba riboti modelį pagal poreikį.

Šie elementai paprastai nematomi galutiniam vartotojui, tačiau jie yra esminė modernių GPT pagrindu veikiančių paslaugų dalis.

7. Nuolatinis tobulinimas ir atnaujinimai

GPT serijos modelių mokymas nėra vienkartinis įvykis. Rinkoje ir visuomenėje besikeičiant poreikiams, technologijos nuolat evoliucionuoja:

atsiranda naujų duomenų ir žinių, kurias reikia atspindėti;
keičiasi saugumo, privatumo ir reguliavimo reikalavimai;
vartotojai atranda naujų, nenumatytų naudojimo būdų;
atskleidžiami galimi šališkumai arba klaidinantys atsakymai.

Todėl kūrėjai:

leidžia naujas modelių versijas (pvz., GPT-3 → GPT-3.5 → GPT-4 ir t. t.);
atlieka dalinį ar pilną per-mokymą (retraining);
tobulina RLHF procesus ir elgsenos gaires;
diegią naujus saugumo sluoksnius ir moderavimo mechanizmus.

Šis nuolatinio gerinimo ciklas leidžia modeliams palaipsniui tapti tikslesniems, naudingesniems ir saugesniems, kartu geriau atitinkant realaus pasaulio poreikius.

8. Ką suprasti verslui ir kūrėjams?

Supratimas apie GPT mokymo etapus praktiškai naudingas daugeliui:

8.1. Verslui

Verslai, planuojantys integruoti GPT tipo modelius, turėtų įvertinti:

kokius duomenis jie gali suteikti papildomam tikslinimui;
kokias saugumo ir privatumo taisykles privalo užtikrinti;
kokias užduotis deleguos AI, o ką paliks žmonėms;
kaip matuos modelio naudingumą ir rizikas.

8.2. Programuotojams ir AI inžinieriams

Techniniams specialistams svarbu suprasti, kuriame etape galima:

naudoti jau iš anksto apmokytus pagrindinius modelius (foundation models);
taikyti lengvo svorio tikslinimo metodus (pvz., LoRA, adapteriai);
derinti kelis modelius ar įrankius į vieną sistemą;
optimizuoti našumą ir kaštus atsižvelgiant į užduočių pobūdį.

8.3. Turinio kūrėjams ir švietimui

Turinio kūrėjai, mokytojai ir dėstytojai gali geriau:

suprasti, kodėl modelis kartais klysta ar „galvoja įtikinamai neteisingai“;
paaiškinti mokiniams, kas yra dirbtinis intelektas ir ko iš jo tikėtis;
atskirti patikimą informaciją nuo galimų klaidų, naudoti AI kaip pagalbinį, o ne galutinį šaltinį.

9. Santrauka: nuo duomenų iki atsakingo intelekto

GPT serijos modelių mokymo procesas – tai sudėtinga ir daugiasluoksnė grandinė, apimanti:

platus ir atsakingas duomenų surinkimas bei atranka;
nuoseklus duomenų valymas, filtravimas ir tokenizacija;
milžiniško masto išankstinį mokymą, suteikiantį bendrą žinių pagrindą;
instrukcijų mokymą ir domeninį tikslinimą, pritaikant modelį praktinėms užduotims;
mokymą su žmonių grįžtamuoju ryšiu, formuojant norimą elgseną ir etiką;
saugumo, vertinimo ir nuolatinio tobulinimo etapus.

Supratus šiuos etapus aiškiau matyti, kodėl GPT modeliai yra tokie galingi ir kartu kodėl jie nėra neklystantys. Tai nėra „stebuklingi mąstantys protai“, o didžiuliais duomenų kiekiais paremti statistiniai modeliai, kurių elgesį formuoja mokymo procesas ir žmonių priimtos gairės.

Ateityje galima tikėtis dar sudėtingesnių mokymo schemų, glaudesnio žmogaus ir AI bendradarbiavimo, griežtesnių saugumo ir privatumo standartų. Tačiau pagrindinė ašis, jungianti visus GPT serijos modelius, išliks ta pati: nuoseklus mokymas keliais etapais – nuo žalių duomenų iki atsakingo, naudą kuriančio dirbtinio intelekto.