L1 ir L2 Reguliarizacija: Esminiai Skirtumai ir Kodėl Jie Svarbūs Mašininiame Mokyme
Išsamus L1 (Lasso) ir L2 (Ridge) reguliarizacijos skirtumų paaiškinimas mašininiame mokyme. Sužinokite, kaip kiekviena technika kovoja su perpratimu (overfitting) ir kokiais atvejais L1 atlieka požymių atranką, o L2 tik mažina koeficientus. Esminiai skirtumai ir pasirinkimo gairės.

L1 ir L2 Reguliarizacija: Esminiai Skirtumai ir Kodėl Jie Svarbūs Mašininiame Mokyme
Mašininio mokymo modelių kūrimas – tai nuolatinis balansas tarp tikslo ir generalizacijos. Dažnai modelis, kuris idealiai tinka mokymo duomenims, visiškai netinka naujiems, nematytiems duomenims. Šią problemą, vadinamą perpratimu (overfitting), padeda spręsti reguliarizacijos metodai, o ypač populiariausi yra L1 (Lasso) ir L2 (Ridge) reguliarizacijos metodai. Nors abu skirti modelio sudėtingumui mažinti, jų veikimo mechanizmai ir poveikis koeficientams skiriasi iš esmės.
Reguliarizacija – tai technika, kuri prie pradinės nuostolio funkcijos (loss function) prideda baudos (penalty) terminą, kuris riboja modelio koeficientų (svorių) dydį. Taip siekiama išlyginti mokymo kreivę, padaryti modelį paprastesniu ir pagerinti jo gebėjimą generalizuoti.
L2 Reguliarizacija (Ridge Regresija)
L2 reguliarizacija, dar vadinama Ridge regresija, prideda baudos terminą, kuris yra lygus visų modelio koeficientų kvadratų sumai, padaugintai iš reguliarizacijos stiprumo parametro $\lambda$.
- Nuostolio Funkcija: $\text{Nuostolis} + \lambda \sum_{j=1}^{p} w_j^2$
- Poveikis Koeficientams: L2 reguliarizacija linkusi mažinti didelius koeficientus, artindama juos prie nulio, tačiau retai kada visiškai juos anuliuoja (paverčia lygiais nuliui). Tai reiškia, kad visi požymiai (features) išlieka modelyje.
- Geometrinis Interpretavimas: Ribojimas sudaro apkritimą (dviem dimensijomis) arba sferą (daugiau dimensijų).
- Panaudojimas: Ypač naudinga, kai visi požymiai yra svarbūs ir maždaug vienodai prisideda prie prognozės, bet tarp jų yra kolinijarumo (didelis koreliacijos laipsnis).
L1 Reguliarizacija (Lasso Regresija)
L1 reguliarizacija, dar vadinama Lasso (Least Absolute Shrinkage and Selection Operator) regresija, prideda baudos terminą, kuris yra lygus visų modelio koeficientų absoliučiųjų verčių sumai, padaugintai iš reguliarizacijos stiprumo parametro $\lambda$.
- Nuostolio Funkcija: $\text{Nuostolis} + \lambda \sum_{j=1}^{p} |w_j|$
- Poveikis Koeficientams: L1 reguliarizacija yra žinoma dėl savo savybės visiškai anuliuoti (paversti lygiais nuliui) mažiausiai svarbius koeficientus. Tai leidžia atlikti automatinę požymių atranką.
- Geometrinis Interpretavimas: Ribojimas sudaro kvadratą (dviem dimensijomis) arba oktaedrą (daugiau dimensijų), turintį kampus. Dėl šių kampų optimali sprendimo vieta dažnai atsiranda ties koordinačių ašimis, dėl ko koeficientas tampa lygus nuliui.
- Panaudojimas: Idealiai tinka, kai reikia požymių atrankos ir modelyje yra daug nereikalingų (triukšmą keliančių) požymių.
Pagrindiniai L1 ir L2 Skirtumai: Požymių Atranka
Didžiausias ir svarbiausias skirtumas tarp L1 ir L2 yra jų poveikis koeficientams. L1 atlieka požymių atranką (Feature Selection), nes paverčia nereikšmingų požymių svorius nuliu, todėl modelis tampa labiau interpretuojamas ir taupesnis skaičiavimo prasme. L2 tik sumažina visus koeficientus, palikdamas juos modelyje. Jei turite didelį požymių skaičių ir tikite, kad didelė jų dalis yra nereikalinga, L1 bus geresnis pasirinkimas. Jei manote, kad visi požymiai yra bent šiek tiek svarbūs, geriau rinktis L2.
Apibendrinanti Lygintinė Lentelė
Kad būtų lengviau suprasti, štai esminių skirtumų suvestinė:
- L2 (Ridge): Kvadratinė bauda. Visus koeficientus mažina, bet neanuliuoja. Gera, kai yra kolinijarumas.
- L1 (Lasso): Absoliutinės vertės bauda. Mažiausiai svarbius koeficientus anuliuoja. Atlieka požymių atranką. Gerai, kai modelyje yra daug nereikalingų požymių.
- Elastinė Tinklo Reguliarizacija (Elastic Net): Tai L1 ir L2 reguliarizacijų derinys, siūlantis geriausius abiejų metodų privalumus: požymių atranką (iš L1) ir stabilumą kolinijarumo atveju (iš L2).
Pasirinkimas tarp L1 ir L2 priklauso nuo konkrečios problemos ir duomenų rinkinio. Svarbu eksperimentuoti su abiem metodais ir, galbūt, su jų deriniu (Elastic Net), siekiant rasti optimalų balansą tarp modelio tikslumo ir sudėtingumo.


