Forståelse af afvejningen mellem bias og varians

Når vi diskuterer modelprædiktion, er det vigtigt at forstå forudsigelsesfejl (bias og varians). Der er en afvejning mellem en models evne til at minimere bias og varians. Hvis vi får en ordentlig forståelse af disse fejl, vil det ikke kun hjælpe os med at opbygge nøjagtige modeller, men også med at undgå fejlen med over- og undertilpasning.

Så lad os starte med det grundlæggende og se, hvordan de gør en forskel for vores maskinlæringsmodeller.

Hvad er bias?

Bias er forskellen mellem den gennemsnitlige forudsigelse af vores model og den korrekte værdi, som vi forsøger at forudsige. Model med høj bias er meget lidt opmærksom på træningsdataene og forsimpler modellen for meget. Det fører altid til en høj fejl på trænings- og testdata.

Hvad er varians?

Varians er variabiliteten af modellens forudsigelse for et givet datapunkt eller en værdi, som fortæller os om spredningen af vores data. Model med høj varians er meget opmærksom på træningsdata og generaliserer ikke på de data, som den ikke har set før. Som følge heraf klarer sådanne modeller sig meget godt på træningsdata, men har høje fejlrater på testdata.

Matematisk

Lad variablen, som vi forsøger at forudsige, være Y og andre kovariater være X. Vi antager, at der er en sådan sammenhæng mellem de to, at

Y=f(X) + e

Hvor e er fejltermen, og den er normalt fordelt med en middelværdi på 0.

Vi vil lave en model f^(X) af f(X) ved hjælp af lineær regression eller en anden modelleringsteknik.

Så den forventede kvadrerede fejl i et punkt x er