Feature Engineering DI mokymo etape: kaip iš duomenų išspausti maksimalią vertę

Dirbtinio intelekto ir mašininio mokymosi modelių sėkmė labai dažnai priklauso ne tik nuo pasirinkto algoritmo, bet ir nuo to, kaip paruošti duomenys. Čia į sceną žengia feature engineering – procesas, kai žali duomenys paverčiami informatyviais požymiais (features), kuriuos modelis gali efektyviai išmokti ir panaudoti prognozavimui ar klasifikavimui.

Nors šiandien dažnai girdime frazę „duokim daugiau duomenų ir gilesnį tinklą“, praktikoje būtent kruopščiai apgalvotas feature engineering dažnai lemia didžiausią šuolį tikslumo, stabilumo ir modelio interpretavimo kokybės atžvilgiu. Šiame straipsnyje išsamiai apžvelgsime, kas yra feature engineering DI mokymo etape, kokius žingsnius verta atlikti, kokias technikas taikyti ir kokių klaidų vengti.

Kas yra feature engineering?

Feature engineering – tai procesas, kurio metu:

Atrenkami svarbiausi požymiai iš pradinio duomenų rinkinio.
Transformuojami esami kintamieji į naujus, informatyvesnius ir patogesnius modeliams.
Kuriami papildomi požymiai iš įvairių šaltinių ar kelių kintamųjų kombinacijų.

Galutinis tikslas – sukurti tokį požymių rinkinį, kuris leistų modeliui:

geriau atskirti klases ar tiksliau prognozuoti reikšmes,
būti atsparesniam triukšmui ir nekokybiškiems duomenims,
greičiau ir stabiliau mokytis mokymo etape.

Feature engineering vieta DI mokymo etape

Modelio kūrimo ciklas dažniausiai susideda iš kelių etapų: duomenų surinkimo, valymo, feature engineering, modelio parinkimo, mokymo, vertinimo ir diegimo. Feature engineering yra tiltas tarp "žalių" duomenų ir modelio, todėl jis tiesiogiai veikia:

mokymo laiką,
generalizacijos gebėjimą (kaip modelis veiks su naujais duomenimis),
paaiškinamumą (kodėl modelis priima vienokius ar kitokius sprendimus).

Ypač svarbu suprasti, kad net ir pažangūs giluminiai modeliai (pvz., neuroniniai tinklai) ne visada savaime "išmoks" sudėtingų struktūrų, jei duomenys yra blogai sukonstruoti, neišvalyti ar neatspindi esminių verslo ar problemos dėsningumų.

Pagrindiniai feature engineering žingsniai

1. Duomenų supratimas ir domeno analizė

Prieš kuriant požymius būtina giliai suprasti:

koks yra verslo tikslas (pvz., prognozuoti klientų atkritimą, aptikti sukčiavimą),
kokie yra ribiniai atvejai ir subtilybės domeno srityje,
kokios reikšmės iš tiesų turi prasmę realiame pasaulyje.

Be domeno žinių feature engineering dažnai tampa aklu bandymu. Kuo labiau suprasite duomenų kontekstą, tuo tikslingesnius ir vertingesnius požymius sukursite.

2. Duomenų valymas ir paruošimas

Prieš kuriant naujus požymius būtina pasirūpinti baziniu duomenų sutvarkymu:

tvarkyti trūkstamas reikšmes (naudoti imputaciją, šalinimą, specialius žymenis),
aptikti ir apdoroti išskirtis (outliers),
suderinti skirtingų šaltinių duomenis (join, merge),
užtikrinti teisingus duomenų tipus (skaičius, data, kategorija ir t. t.).

Kokybiškas valymas yra būtina prielaida sėkmingam feature engineering – prastai išvalyti duomenys gali "užnuodyti" net pačius geriausius požymius.

3. Naujų požymių kūrimas

Kai duomenys išvalyti, prasideda kūrybinė proceso dalis – naujų kintamųjų konstravimas. Dažniausios kryptys:

aritmetinės kombinacijos (pvz., santykiai, skirtumai, sumos),
agregacijos (pvz., vidurkiai, maksimumai, skaičius įvykių per periodą),
laiko požymiai (pvz., savaitės diena, sezoniškumas, laiko tarpai),
tekstiniai požymiai (pvz., raktažodžių skaičius, sentimentas),
erdviniai požymiai (pvz., atstumas tarp lokacijų).

Šiame etape ypač svarbus balansavimas tarp kūrybiškumo ir racionalumo – požymiai turi atspindėti logiškas hipotezes apie tai, kas iš tiesų gali turėti įtakos prognozuojamam rezultatui.

4. Požymių transformacijos

Dalis požymių reikalauja matematinės transformacijos, kad taptų tinkamesni modeliui. Dažniausiai naudojamos:

normalizacija ir standartizacija – kad skirtingų skalų kintamieji būtų lyginami ir nepriekaištautų optimizavimo algoritmams,
logaritminės, kvadratinės ar šaknies transformacijos – ekstremalioms reikšmėms sušvelninti,
binning – skaičinių reikšmių grupavimas į intervalus, kai svarbi ne tiksli reikšmė, o jos diapazonas.

Tinkamos transformacijos gali palengvinti modeliui sudėtingų funkcijų mokymąsi ir sumažinti atskirų požymių dominavimą dėl jų mastelio.

Kategorinių požymių tvarkymas

Didelė dalis realių duomenų yra kategoriniai: miestai, šalys, produktų tipai, įrenginių modeliai ir pan. Šiuos požymius būtina paversti skaitine forma.

Label Encoding

Label encoding – kiekvienai kategorijai priskiriamas sveikasis skaičius. Tai paprastas metodas, bet jis gali įnešti klaidinančią tvarką, jei modelis traktuoja skaičius kaip turinčius natūralią seką.

One-Hot Encoding

One-hot encoding sukuria atskirą binarinį (0/1) požymį kiekvienai kategorijai. Tai plačiai naudojamas ir universalus metodas, tačiau:

stebėtinai išplečia požymių erdvę, jei kategorijų labai daug,
padidina atminties ir skaičiavimo sąnaudas,
gali sukelti per didelį išsiskaidymą (sparse data).

Target Encoding ir kitos pažangios technikos

Jei kategorijų daug, taikomos pažangesnės technikos:

Target encoding – kategorijos pakeičiamos pagal jų vidutinę tikslinės reikšmės vertę.
Frequency encoding – kategorijos paverčiamos jų pasikartojimo dažniais.
Embedding'ai – neuroniniuose tinkluose kategorijos koduojamos tankiais žemos dimensijos vektoriais.

Šie metodai leidžia sumažinti dimensijų skaičių ir išsaugoti daugiau informacijos, tačiau reikalauja atsargumo, kad neatsirastų leakage (informacijos nutekėjimas iš testinio rinkinio į mokymo etapą).

Laiko ir sekų duomenų požymiai

Laiko eilutės ir sekų duomenys (pvz., sandorių istorija, sensorių rodmenys) yra itin svarbi DI taikymo sritis. Feature engineering čia turi savų ypatumų.

Laiko požymių išskleidimas

Iš vienos datos arba timestamp galima išgauti daugybę naudingo konteksto:

metus, mėnesį, dieną, valandą, minutę,
savaitės dieną, ar tai savaitgalis, ar darbo diena,
"sezoniškumą" (pvz., šventinis periodas, atostogų metas),
laiko skirtumą nuo ankstesnio įvykio.

Toks laiko "išskleidimas" leidžia modeliams geriau identifikuoti pasikartojančius dėsningumus, pikus ar duomenų sezoniškumą.

Lango (window) ir slenkančių agregacijų požymiai

Dirbant su sekomis, dažnai sukuriami slenkantys langai:

vidurkis per paskutines n dienų,
maksimali reikšmė per konkretų periodą,
įvykių skaičius per paskutines minutes / valandas,
augimo ar kritimo tempas per tam tikrą intervalą.

Tokie požymiai padeda modeliui matyti ne tik konkrečią reikšmę, bet ir trendą, greitėjimą ar lėtėjimą, kas dažnai yra kritiška prognozėms.

Požymių atranka ir dimensijos mažinimas

Kai požymių daug, kyla kelios problemos:

ilgas mokymo laikas,
perdėtas pritaikymas (overfitting),
interpretacijos sudėtingumas.

Požymių atranka padeda išlaikyti tik naudingiausius kintamuosius ir atsisakyti nereikalingų ar labai koreliuotų.

Filtrų metodai

Filtrų metodai naudoja statistinius kriterijus, kad įvertintų kiekvieno požymio ryšį su tiksliniu kintamuoju:

koreliacija (Pearsono, Spearmano),
chi-kvadrato testas kategoriniams duomenims,
informacijos kiekis (information gain).

Šie metodai greiti ir paprasti, todėl dažnai naudojami kaip pirmas atrankos žingsnis.

Wrapper ir embedded metodai

Wrapper metodai (pvz., rekursyvinė požymių atranka) tiesiogiai naudoja modelio rezultatus sprendžiant, kuriuos požymius palikti. Embedded metodai integruoja atranką į patį mokymo procesą, pavyzdžiui:

L1 (LASSO) reguliavimas "nunulina" nereikšmingų požymių koeficientus,
medžių modelių (Random Forest, Gradient Boosting) feature importance metrika.

Šie metodai dažnai suteikia praktiškai naudingas ir verslui suprantamas įžvalgas apie tai, kurie požymiai labiausiai veikia rezultatą.

Automatinis feature engineering

Augant duomenų kiekiams ir modelių sudėtingumui, atsirado įrankiai, kurie padeda automatizuoti dalį feature engineering:

AutoML platformos (pvz., H2O, Auto-sklearn, Google AutoML),
specializuotos bibliotekos (pvz., FeatureTools, tsfresh laiko eilutėms),
neuroniniai tinklai, kurie patys mokosi vidines reprezentacijas (embedding'us).

Nors automatizavimas taupo laiką, jis nepakeičia domeno žinių. Geriausi rezultatai pasiekiami derinant automatinį feature engineering su žmogaus ekspertinėmis įžvalgomis.

Dažniausios klaidos ir kaip jų išvengti

1. Informacijos nutekėjimas (data leakage)

Viena pavojingiausių klaidų – netyčia naudoti informaciją iš ateities ar testinio rinkinio kuriant požymius. Pavyzdžiui:

skaičiuoti target encoding kintamuosius naudojant visus duomenis, o ne tik mokymo dalį,
naudoti bendrus duomenų statistinius rodiklius, kurie "mato" ir testinius duomenis.

Tai veda prie pernelyg optimistiškų rezultatų mokymo metu ir dramatiško kokybės kritimo realiame pasaulyje. Sprendimas – griežtai atsieti mokymo ir testinius rinkinius ir visus skaičiavimus atlikti tik mokymo duomenyse.

2. Per didelis požymių skaičius

Nors iš pirmo žvilgsnio atrodo, kad daugiau požymių – daugiau informacijos, praktikoje tai dažnai reiškia:

didesnę tikimybę overfitting'ui,
ilgesnį ir nestabilesnį mokymą,
sunkiau paaiškinamus rezultatus.

Rekomenduojama reguliariai atlikti požymių atranką, stebėti koreliacijas ir testuoti modelius su sumažintu požymių rinkiniu.

3. Domeno žinių ignoravimas

Vien statistinių transformacijų dažnai nepakanka. Ignoruojant verslo logiką ar realaus pasaulio ribojimus, galima sukurti požymius, kurie teoriškai atrodo gerai, bet praktiškai nėra interpretuojami ir nekuria vertės. Būtinai bendradarbiaukite su srities ekspertais.

Feature engineering ir modelio interpretacija

Gerai sukonstruoti požymiai ne tik didina tikslumą, bet ir leidžia aiškiau suprasti modelio sprendimus. Naudojant tokias priemones kaip SHAP ar LIME galima:

identifikuoti, kurie požymiai labiausiai prisidėjo prie konkrečios prognozės,
paaiškinti, kodėl modelis skirtingoms klientų grupėms priima skirtingus sprendimus,
atrasti naujų verslo įžvalgų ir hipotezių.

Todėl feature engineering verta planuoti ne tik iš techninės, bet ir iš interpretacijos perspektyvos – kaip sukurti tokius požymius, kurie būtų suprantami ir naudingi sprendimų priėmėjams.

Geriausios praktikos DI mokymo etape

Iteruokite: feature engineering nėra vienkartinis žingsnis. Nuolat tikrinkite ir tobulinkite požymius kartu su modelio eksperimentais.
Verslo tikslas pirmoje vietoje: kiekvienas naujas požymis turi aiškiai prisidėti prie verslo problemos sprendimo.
Versijavimas: dokumentuokite ir versijuokite tiek duomenis, tiek požymių rinkinius, kad vėliau būtų galima atsekti pokyčių įtaką.
Testuokite paprastumą: kartais paprastesnis požymių rinkinys su kiek "silpnesniu" modeliu veikia stabilesniu ir patikimesniu būdu nei itin sudėtinga architektūra.
Monitorinkite po diegimo: stebėkite, ar požymių pasiskirstymas laike nesikeičia (data drift), ir reaguokite atnaujindami feature engineering procesą.

Išvada

Feature engineering – vienas svarbiausių, bet kartu ir dažnai nuvertinamų DI mokymo etapo komponentų. Nors algoritmai nuolat tobulėja, būtent tai, kaip paruošiame ir transformuojame duomenis, dažnai lemia, ar modelis taps tikru verslo įrankiu, ar liks tik laboratoriniu eksperimentu.

Investuodami laiką į gerai apgalvotą feature engineering, jūs ne tik pagerinsite modelių tikslumą, bet ir sukursite tvirtesnį, interpretuojamą ir ilgalaikėms realioms sąlygoms atsparų DI sprendimą. Todėl kiekviename projekte verta sąmoningai skirti resursų būtent šiam etapui – tai viena geriausių investicijų į sėkmingą dirbtinio intelekto taikymą.