REGRESIA LINIARĂ ÎN ÎNVĂȚAREA AUTOMATĂ

Învățare automată este o ramură a inteligenței artificiale care se concentrează pe dezvoltarea de algoritmi și modele statistice care pot învăța din date și pot face predicții asupra datelor. Regresie liniara este, de asemenea, un tip de algoritm de învățare automată, mai precis a algoritm de învățare automată supravegheat care învață din seturile de date etichetate și mapează punctele de date la cele mai optimizate funcții liniare. care poate fi folosit pentru predicție pe noi seturi de date.

În primul rând, ar trebui să știm ce sunt algoritmii de învățare automată supravegheați. Este un tip de învățare automată în care algoritmul învață din datele etichetate. Date etichetate înseamnă setul de date a cărui valoare țintă respectivă este deja cunoscută. Învățarea supravegheată are două tipuri:

Clasificare : prezice clasa setului de date pe baza variabilei de intrare independente. Clasa este valorile categorice sau discrete. ca imaginea unui animal este o pisică sau un câine?
Regresia : prezice variabilele de ieșire continue pe baza variabilei de intrare independente. cum ar fi predicția prețurilor caselor pe baza diferiților parametri precum vârsta casei, distanța de la drumul principal, locația, zona etc.

Aici, vom discuta unul dintre cele mai simple tipuri de regresie, de ex. Regresie liniara.

Cuprins

Ce este regresia liniară?
Tipuri de regresie liniară
Care este cea mai bună linie Fit?
Funcția de cost pentru regresia liniară
Ipoteze ale regresiei liniare simple
Ipoteze ale regresiei liniare multiple
Măsuri de evaluare pentru regresia liniară
Implementarea Python a regresiei liniare
Tehnici de regularizare pentru modele liniare
Aplicații ale regresiei liniare
Avantajele și dezavantajele regresiei liniare
Regresie liniară – Întrebări frecvente (FAQs)

Ce este regresia liniară?

Regresia liniară este un tip de învățare automată supravegheată algoritm care calculează relația liniară dintre variabila dependentă și una sau mai multe caracteristici independente prin potrivirea unei ecuații liniare la datele observate.

Când există o singură caracteristică independentă, aceasta este cunoscută ca Regresia liniară simplă , iar când există mai multe caracteristici, este cunoscută ca Regresia liniară multiplă .

În mod similar, atunci când există o singură variabilă dependentă, aceasta este luată în considerare Regresia liniară univariată , în timp ce atunci când există mai multe variabile dependente, este cunoscută ca Regresie multivariată .

De ce este importantă regresia liniară?

Interpretabilitatea regresiei liniare este un punct forte notabil. Ecuația modelului oferă coeficienți clari care elucidează impactul fiecărei variabile independente asupra variabilei dependente, facilitând o înțelegere mai profundă a dinamicii subiacente. Simplitatea sa este o virtute, deoarece regresia liniară este transparentă, ușor de implementat și servește drept concept de bază pentru algoritmi mai complexi.

Regresia liniară nu este doar un instrument predictiv; formează baza pentru diverse modele avansate. Tehnici precum regularizarea și mașinile vectoriale de suport se inspiră din regresia liniară, extinzându-i utilitatea. În plus, regresia liniară este o piatră de temelie în testarea ipotezelor, permițând cercetătorilor să valideze ipotezele cheie despre date.

Tipuri de regresie liniară

Există două tipuri principale de regresie liniară:

matrice în șir

Regresia liniară simplă

Aceasta este cea mai simplă formă de regresie liniară și implică doar o variabilă independentă și o variabilă dependentă. Ecuația pentru regresia liniară simplă este:
y=eta_{0}+eta_{1}X
Unde:

Y este variabila dependentă
X este variabila independentă
β0 este interceptarea
β1 este panta

Regresia liniară multiplă

Aceasta implică mai mult de o variabilă independentă și o variabilă dependentă. Ecuația pentru regresia liniară multiplă este:
y=eta_{0}+eta_{1}X+eta_{2}X+………eta_{n}X
Unde:

Y este variabila dependentă
X1, X2, …, Xp sunt variabile independente
β0 este interceptarea
β1, β2, …, βn sunt pantele

Scopul algoritmului este de a găsi Best Fit Line ecuație care poate prezice valorile pe baza variabilelor independente.

În regresie, setul de înregistrări sunt prezente cu valorile X și Y și aceste valori sunt folosite pentru a învăța o funcție, așa că dacă doriți să preziceți Y dintr-un X necunoscut, această funcție învățată poate fi utilizată. În regresie trebuie să găsim valoarea lui Y, Deci, este necesară o funcție care prezice Y continuu în cazul regresiei date X ca trăsături independente.

Care este cea mai bună linie Fit?

Obiectivul nostru principal în timpul utilizării regresiei liniare este de a localiza linia cea mai potrivită, ceea ce implică faptul că eroarea dintre valorile prezise și cele reale ar trebui să fie menținută la minimum. Va exista cea mai mică eroare în linia cea mai potrivită.

Cea mai bună ecuație Fit Line oferă o linie dreaptă care reprezintă relația dintre variabilele dependente și independente. Panta dreptei indică cât de mult se modifică variabila dependentă pentru o modificare de unitate a variabilelor independente.

Regresie liniara

poate o clasă extinde mai multe clase

Aici Y este numită variabilă dependentă sau țintă și X este numită variabilă independentă, cunoscută și sub numele de predictor al lui Y. Există multe tipuri de funcții sau module care pot fi utilizate pentru regresie. O funcție liniară este cel mai simplu tip de funcție. Aici, X poate fi o singură caracteristică sau mai multe caracteristici care reprezintă problema.

Regresia liniară realizează sarcina de a prezice o valoare a variabilei dependente (y) pe baza unei variabile independente date (x)). Prin urmare, numele este regresie liniară. În figura de mai sus, X (input) este experiența de muncă și Y (output) este salariul unei persoane. Linia de regresie este linia cea mai potrivită pentru modelul nostru.

Utilizăm funcția de cost pentru a calcula cele mai bune valori pentru a obține cea mai bună linie de potrivire, deoarece valori diferite pentru ponderi sau coeficientul liniilor duc la linii de regresie diferite.

Funcția de ipoteză în regresia liniară

După cum am presupus mai devreme că caracteristica noastră independentă este experiența, adică X și salariul respectiv Y este variabila dependentă. Să presupunem că există o relație liniară între X și Y, atunci salariul poate fi prezis folosind:

hat{Y} = heta_1 + heta_2X

hat{y}_i = heta_1 + heta_2x_i

Aici,

y_i epsilon Y ;; (i= 1,2, cdots , n) sunt etichete pentru date (învățare supravegheată)
x_i epsilon X ;; (i= 1,2, cdots , n) sunt datele de antrenament independente de intrare (univariate – o variabilă de intrare (parametru))
hat{y_i} epsilon hat{Y} ;; (i= 1,2, cdots , n) sunt valorile prezise.

Modelul obține cea mai bună linie de potrivire de regresie prin găsirea celui mai bun θ₁și θ₂valorile.

i ₁ : intercepta
i ₂ : coeficientul lui x

Odată ce găsim cel mai bun θ₁și θ₂valori, obținem linia cea mai potrivită. Deci, când în sfârșit folosim modelul nostru pentru predicție, acesta va prezice valoarea lui y pentru valoarea de intrare a lui x.

Cum se actualizează θ ₁ și θ ₂ valori pentru a obține linia cea mai potrivită?

Pentru a obține linia de regresie cea mai potrivită, modelul urmărește să prezică valoarea țintăhat{Y} astfel încât diferența de eroare dintre valoarea prezisăhat{Y} iar valoarea adevărată Y este minimă. Deci, este foarte important să actualizați θ₁și θ₂valori, pentru a ajunge la cea mai bună valoare care minimizează eroarea dintre valoarea y prezisă (pred) și valoarea y reală (y).

minimizefrac{1}{n}sum_{i=1}^{n}(hat{y_i}-y_i)^2

Funcția de cost pentru regresia liniară

The funcția de cost sau funcția de pierdere nu este altceva decât eroarea sau diferența dintre valoarea prezisăhat{Y} și valoarea adevărată Y.

În regresia liniară, Eroare medie pătratică (MSE) este folosită funcția de cost, care calculează media erorilor pătrate dintre valorile prezisehat{y}_i și valorile reale{y}_i . Scopul este de a determina valorile optime pentru interceptare heta_1 și coeficientul caracteristicii de intrare heta_2 oferind linia cea mai potrivită pentru punctele de date date. Ecuația liniară care exprimă această relație estehat{y}_i = heta_1 + heta_2x_i .

Funcția MSE poate fi calculată ca:

ext{Cost function}(J) = frac{1}{n}sum_{n}^{i}(hat{y_i}-y_i)^2

Folosind funcția MSE, procesul iterativ de coborâre a gradientului este aplicat pentru a actualiza valorile lui heta_1 & heta_2 . Acest lucru asigură că valoarea MSE converge către minimele globale, ceea ce înseamnă cea mai precisă potrivire a liniei de regresie liniară la setul de date.

Acest proces presupune ajustarea continuă a parametrilor ( heta_1) și ( heta_2) pe baza gradienților calculați din MSE. Rezultatul final este o linie de regresie liniară care minimizează diferențele generale pătrate dintre valorile prezise și cele reale, oferind o reprezentare optimă a relației de bază în date.

Coborâre gradient pentru regresia liniară

Un model de regresie liniară poate fi antrenat utilizând algoritmul de optimizare coborâre în gradient prin modificarea iterativă a parametrilor modelului pentru a reduce eroare pătratică medie (MSE) a modelului pe un set de date de antrenament. Pentru a actualiza θ₁și θ₂valori pentru a reduce funcția Cost (minimizarea valorii RMSE) și pentru a obține linia cea mai potrivită pe care modelul utilizează Gradient Descent. Ideea este să începem cu θ aleatoriu₁și θ₂valorile și apoi actualizați iterativ valorile, atingând costul minim.

Un gradient nu este altceva decât o derivată care definește efectele asupra ieșirilor funcției cu o mică variație a intrărilor.

Să diferențiem funcția de cost (J) în raport cu heta_1

diferenta de date in excel

egin {aligned} {J}’_{ heta_1} &=frac{partial J( heta_1, heta_2)}{partial heta_1} &= frac{partial}{partial heta_1} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(1+0-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2 ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) end {aligned}

Să diferențiem funcția de cost (J) în raport cu heta_2

egin {aligned} {J}’_{ heta_2} &=frac{partial J( heta_1, heta_2)}{partial heta_2} &= frac{partial}{partial heta_2} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(0+x_i-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2x_i ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i end {aligned}

Găsirea coeficienților unei ecuații liniare care se potrivesc cel mai bine cu datele de antrenament este obiectivul regresiei liniare. Deplasându-se în direcția gradientului negativ al erorii pătratice medii în raport cu coeficienții, coeficienții pot fi modificați. Iar interceptarea respectivă și coeficientul lui X vor fi dacăalpha este rata de învățare.

Coborâre în gradient

egin{aligned} heta_1 &= heta_1 – alpha left( {J}’_{ heta_1} ight) &= heta_1 -alpha left( frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) ight) end{aligned} egin{aligned} heta_2 &= heta_2 – alpha left({J}’_{ heta_2} ight) &= heta_2 – alpha left(frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i ight) end{aligned}

cast int în șir de caractere java

Ipoteze ale regresiei liniare simple

Regresia liniară este un instrument puternic pentru înțelegerea și prezicerea comportamentului unei variabile, cu toate acestea, trebuie să îndeplinească câteva condiții pentru a fi soluții precise și de încredere.

Liniaritate : Variabilele independente și dependente au o relație liniară între ele. Aceasta implică faptul că modificările variabilei dependente le urmează pe cele ale variabilei (variabilelor) independente într-un mod liniar. Aceasta înseamnă că ar trebui să existe o linie dreaptă care să poată fi trasă prin punctele de date. Dacă relația nu este liniară, atunci regresia liniară nu va fi un model precis.
Independenţă : Observațiile din setul de date sunt independente unele de altele. Aceasta înseamnă că valoarea variabilei dependente pentru o observație nu depinde de valoarea variabilei dependente pentru o altă observație. Dacă observațiile nu sunt independente, atunci regresia liniară nu va fi un model precis.
Homoscedasticitatea : La toate nivelurile variabilelor independente, varianța erorilor este constantă. Aceasta indică faptul că valoarea variabilelor independente nu are impact asupra variației erorilor. Dacă varianța reziduurilor nu este constantă, atunci regresia liniară nu va fi un model precis.

Homoscedasticitatea în regresia liniară
Normalitate : Reziduurile ar trebui să fie distribuite normal. Aceasta înseamnă că reziduurile ar trebui să urmeze o curbă în formă de clopot. Dacă reziduurile nu sunt distribuite în mod normal, atunci regresia liniară nu va fi un model precis.

Ipoteze ale regresiei liniare multiple

Pentru regresia liniară multiplă, se aplică toate cele patru ipoteze din regresia liniară simplă. În plus, mai jos sunt câteva:

Fără multicoliniaritate : Nu există o corelație mare între variabilele independente. Acest lucru indică faptul că există o corelație mică sau deloc între variabilele independente. Multicolinearitatea apare atunci când două sau mai multe variabile independente sunt foarte corelate între ele, ceea ce poate face dificilă determinarea efectului individual al fiecărei variabile asupra variabilei dependente. Dacă există multicoliniaritate, atunci regresia liniară multiplă nu va fi un model precis.
aditivitate: Modelul presupune că efectul modificărilor unei variabile predictoare asupra variabilei răspuns este consistent, indiferent de valorile celorlalte variabile. Această ipoteză implică că nu există nicio interacțiune între variabile în efectele lor asupra variabilei dependente.
Selectarea caracteristicilor: În regresia liniară multiplă, este esențial să selectați cu atenție variabilele independente care vor fi incluse în model. Includerea variabilelor irelevante sau redundante poate duce la supraadaptare și poate complica interpretarea modelului.
Supramontare: Supraajustarea apare atunci când modelul se potrivește prea mult cu datele de antrenament, captând zgomot sau fluctuații aleatorii care nu reprezintă adevărata relație de bază dintre variabile. Acest lucru poate duce la o performanță slabă de generalizare a datelor noi, nevăzute.

Multicoliniaritate

Multicoliniaritate este un fenomen statistic care apare atunci când două sau mai multe variabile independente într-un model de regresie multiplă sunt foarte corelate, ceea ce face dificilă evaluarea efectelor individuale ale fiecărei variabile asupra variabilei dependente.

Detectarea multicoliniarității include două tehnici:

Matricea de corelație: Examinarea matricei de corelație între variabilele independente este o modalitate comună de a detecta multicoliniaritatea. Corelațiile ridicate (aproape de 1 sau -1) indică o potențială multicoliniaritate.
VIF (Factor de inflație a variației): VIF este o măsură care cuantifică cât de mult crește varianța unui coeficient de regresie estimat dacă predictorii dvs. sunt corelați. Un VIF ridicat (de obicei peste 10) sugerează multicoliniaritate.

Măsuri de evaluare pentru regresia liniară

O varietate de măsuri de evaluare poate fi folosit pentru a determina puterea oricărui model de regresie liniară. Aceste metrici de evaluare oferă adesea o indicație despre cât de bine modelul produce rezultatele observate.

Cele mai frecvente măsurători sunt:

Eroare pătrată medie (MSE)

Eroare medie pătratică (MSE) este o măsurătoare de evaluare care calculează media diferențelor pătrate dintre valorile reale și cele prezise pentru toate punctele de date. Diferența este pătrată pentru a se asigura că diferențele negative și pozitive nu se anulează reciproc.

MSE = frac{1}{n}sum_{i=1}^{n}left ( y_i – widehat{y_{i}} ight )^2

Aici,

n este numărul de puncte de date.
și_ieste valoarea reală sau observată pentru i^thpunct de date.
widehat{y_{i}} este valoarea prezisă pentru i^thpunct de date.

MSE este o modalitate de a cuantifica acuratețea predicțiilor unui model. MSE este sensibil la valori aberante, deoarece erorile mari contribuie semnificativ la scorul general.

Eroare absolută medie (MAE)

Eroare absolută medie este o metrică de evaluare utilizată pentru a calcula acuratețea unui model de regresie. MAE măsoară diferența absolută medie dintre valorile prezise și valorile reale.

Matematic, MAE este exprimat astfel:

MAE =frac{1}{n} sum_{i=1}^{n}|Y_i – widehat{Y_i}|

Aici,

n este numărul de observații
ȘI_ireprezintă valorile reale.
widehat{Y_i} reprezintă valorile prezise

Valoarea mai mică a MAE indică o performanță mai bună a modelului. Nu este sensibil la valori aberante, deoarece luăm în considerare diferențele absolute.

Root Mean Squared Error (RMSE)

Rădăcina pătrată a varianței reziduurilor este Eroare pătratică medie . Descrie cât de bine se potrivesc punctele de date observate cu valorile așteptate sau potrivirea absolută a modelului la date.

În notație matematică, poate fi exprimat astfel:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{n}
În loc să împărțim întregul număr de puncte de date din model la numărul de grade de libertate, trebuie să împărțim suma reziduurilor pătrate pentru a obține o estimare imparțială. Apoi, această cifră este denumită Eroare standard reziduală (RSE).

În notație matematică, poate fi exprimat astfel:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{(n-2)}

RSME nu este o metrică la fel de bună ca R-pătrat. Root Mean Squared Error poate fluctua atunci când unitățile variabilelor variază, deoarece valoarea acesteia depinde de unitățile variabilelor (nu este o măsură normalizată).

Coeficient de determinare (R-pătrat)

R-pătrat este o statistică care indică cât de multă variație poate explica sau capta modelul dezvoltat. Este întotdeauna în intervalul de la 0 la 1. În general, cu cât modelul se potrivește mai bine cu datele, cu atât numărul R pătrat este mai mare.
În notație matematică, poate fi exprimat astfel:
R^{2}=1-(^{frac{RSS}{TSS}})

np.log

Suma reziduală a pătratelor (RSS): The suma de pătrate a reziduului pentru fiecare punct de date din diagramă sau date este cunoscută ca suma de pătrate reziduală sau RSS. Este o măsurare a diferenței dintre rezultatul care a fost observat și ceea ce a fost anticipat.
RSS=sum_{i=2}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2}
Suma totală de pătrate (TSS): Suma erorilor punctelor de date din media variabilei de răspuns este cunoscută ca suma totală a pătratelor sau TSS.
TSS= sum_{}^{}(y-overline{y_{i}})^2

R pătrat metrica este o măsură a proporției de varianță în variabila dependentă care este explicată variabilelor independente din model.

Eroare R-pătrat ajustată

R ajustat²măsoară proporția de varianță a variabilei dependente care este explicată prin variabile independente într-un model de regresie. R-pătrat ajustat ține cont de numărul de predictori din model și penalizează modelul pentru includerea de predictori irelevanți care nu contribuie semnificativ la explicarea variației variabilelor dependente.

Din punct de vedere matematic, R ajustat²se exprimă astfel:

Adjusted , R^2 = 1 – (frac{(1-R^2).(n-1)}{n-k-1})

Aici,

n este numărul de observații
k este numărul de predictori din model
R²este coeficientul de determinare

Pătratul R ajustat ajută la prevenirea supraajustării. Penalizează modelul cu predictori suplimentari care nu contribuie semnificativ la explicarea varianței variabilei dependente.

Implementarea Python a regresiei liniare

Importă bibliotecile necesare:

Python3

 import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.axes as ax from matplotlib.animation import FuncAnimation>

Încărcați setul de date și separați variabilele de intrare și țintă

Iată linkul pentru setul de date: Link pentru set de date

Python3

 url = 'https://media.techcodeview.com data = pd.read_csv(url) data # Drop the missing values data = data.dropna() # training dataset and labels train_input = np.array(data.x[0:500]).reshape(500, 1) train_output = np.array(data.y[0:500]).reshape(500, 1) # valid dataset and labels test_input = np.array(data.x[500:700]).reshape(199, 1) test_output = np.array(data.y[500:700]).reshape(199, 1)>

Construiți modelul de regresie liniară și trasați linia de regresie

Pași:

În propagarea directă, funcția de regresie liniară Y=mx+c este aplicată prin atribuirea inițială a valorii aleatoare a parametrului (m & c).
Am scris funcția pentru a găsi funcția de cost, adică media

Python3Python3 #Exemplu de utilizare linear_reg = LinearRegression() parametri, loss = linear_reg.train(train_input, train_output, 0,0001, 20) Ieșire : Iterație = 1, Pierdere = 9130,407560462196, Iterare = 190 910 = 1910 iterație = 1, Pierdere = 140,31580932842422 Iterație = 1, Pierdere = 23,795780526084116 Iterație = 2, Pierdere = 9,753848205147605 Iterație = 3, Pierdere = 8,061641745006835 Iterație = 4, Pierdere = 7,84914 = 7,84917 = 7,841745006835 8331350515579015 Iterație = 6, Pierdere = 7,830172502503967 Iterație = 7, Pierdere = 7,829814681591015 Iterație = 8 , Pierdere = 7,829770758846183 Iterație = 9, Pierdere = 7,829764664327399 Iterație = 10, Pierdere = 7,829763128602258 Iterație = 11, Pierdere = 7,82827 = 7,829 = 62. 829761222379141 Iterație = 13, Pierdere = 7,829760310486438 Iterație = 14, Pierdere = 7,829759399646989 Iterație = 15, Pierdere = 7,829758489015161 Iterație = 16, Pierdere = 7,829757578489033 Iterație = 17, Pierdere = 7,829756668056319 Iterație = 18, Pierdere = 7,825,75 = 1,757,717 29754847466484 Iterație = 20, Pierdere = 7,829753937309139 Linia de regresie liniară Linia de regresie liniară oferă informații valoroase asupra relației între cele două variabile. Reprezintă linia cea mai potrivită care surprinde tendința generală a modului în care o variabilă dependentă (Y) se modifică ca răspuns la variațiile unei variabile independente (X). Linia de regresie liniară pozitivă: O linie de regresie liniară pozitivă indică o relație directă între variabila independentă (X) și variabila dependentă (Y). Aceasta înseamnă că pe măsură ce valoarea lui X crește, și valoarea lui Y crește. Panta unei linii de regresie liniară pozitivă este pozitivă, ceea ce înseamnă că linia se înclină în sus de la stânga la dreapta. Linia de regresie liniară negativă: o linie de regresie liniară negativă indică o relație inversă între variabila independentă (X) și variabila dependentă (Y). Aceasta înseamnă că pe măsură ce valoarea lui X crește, valoarea lui Y scade. Panta unei linii de regresie liniară negativă este negativă, ceea ce înseamnă că linia se înclină în jos de la stânga la dreapta. Tehnici de regularizare pentru modele liniare Regresia lasso (regularizare L1) Regresia lasso este o tehnică utilizată pentru regularizarea unui model de regresie liniară, adaugă o penalizare termen la funcția obiectiv de regresie liniară pentru a preveni supraadaptarea . Funcția obiectivă după aplicarea regresiei lasso este: primul termen este pierderea celor mai mici pătrate, reprezentând diferența la pătrat dintre valorile prezise și cele reale. al doilea termen este termenul de regularizare L1, penalizează suma valorilor absolute ale coeficientului de regresie θj. Regresia Ridge (Regularizare L2) Regresia Ridge este o tehnică de regresie liniară care adaugă un termen de regularizare la obiectivul liniar standard. Din nou, scopul este de a preveni supraadaptarea prin penalizarea coeficientului mare în ecuația de regresie liniară. Este util atunci când setul de date are multicoliniaritate, unde variabilele predictoare sunt foarte corelate. Funcția obiectiv după aplicarea regresiei de creste este: primul termen este pierderea în cele mai mici pătrate, reprezentând diferența la pătrat dintre valorile prezise și cele reale. al doilea termen este termenul de regularizare L1, penalizează suma pătratului valorilor coeficientului de regresie θj. Regresia netă elastică Regresia netă elastică este o tehnică de regularizare hibridă care combină puterea regularizării L1 și L2 în obiectivul regresiei liniare. primul termen este pierderea cel mai mic pătrat. al doilea termen este regularizarea L1 iar al treilea este regresia crestei.???? este puterea generală de regularizare. α controlează amestecul dintre regularizarea L1 și L2. Aplicații ale regresiei liniare Regresia liniară este utilizată în multe domenii diferite, inclusiv finanțe, economie și psihologie, pentru a înțelege și a prezice comportamentul unei anumite variabile. De exemplu, în finanțe, regresia liniară poate fi utilizată pentru a înțelege relația dintre prețul acțiunilor unei companii și câștigurile acesteia sau pentru a prezice valoarea viitoare a unei monede pe baza performanței sale trecute. Avantajele și dezavantajele regresiei liniare Avantajele regresiei liniare Regresia liniară este un algoritm relativ simplu, care îl face ușor de înțeles și implementat. Coeficienții modelului de regresie liniară pot fi interpretați ca modificarea variabilei dependente pentru o modificare de o unitate a variabilei independente, oferind perspective asupra relațiilor dintre variabile. Regresia liniară este eficientă din punct de vedere computațional și poate gestiona seturi mari de date în mod eficient. Poate fi antrenat rapid pe seturi mari de date, făcându-l potrivit pentru aplicații în timp real. Regresia liniară este relativ robustă la valori aberante în comparație cu alți algoritmi de învățare automată. Valorile aberante pot avea un impact mai mic asupra performanței generale a modelului. Regresia liniară servește adesea ca un model de bază bun pentru comparație cu algoritmi de învățare automată mai complecși. Regresia liniară este un algoritm bine stabilit, cu o istorie bogată și este disponibil pe scară largă în diverse învățare automată. biblioteci și pachete software.Dezavantajele regresiei liniare Regresia liniară presupune o relație liniară între variabilele dependente și independente. Dacă relația nu este liniară, modelul poate să nu funcționeze bine. Regresia liniară este sensibilă la multicoliniaritate, care apare atunci când există o corelație mare între variabilele independente. Multicolinearitatea poate umfla varianța coeficienților și poate duce la predicții instabile ale modelului. Regresia liniară presupune că caracteristicile sunt deja într-o formă adecvată pentru model. Ingineria caracteristicilor poate fi necesară pentru a transforma caracteristicile într-un format care poate fi utilizat în mod eficient de model. Regresia liniară este susceptibilă atât la supraadaptare, cât și la subadaptare. Supraadaptarea apare atunci când modelul învață prea bine datele de antrenament și nu reușește să generalizeze la date nevăzute. Subadaptarea apare atunci când modelul este prea simplu pentru a capta relațiile subiacente în date. Regresia liniară oferă o putere explicativă limitată pentru relațiile complexe dintre variabile. Tehnici mai avansate de învățare automată pot fi necesare pentru o perspectivă mai profundă. Concluzie Regresia liniară este un algoritm fundamental de învățare automată care a fost utilizat pe scară largă de mulți ani datorită simplității, interpretabilității și eficienței sale. Este un instrument valoros pentru înțelegerea relațiilor dintre variabile și pentru a face predicții într-o varietate de aplicații. Cu toate acestea, este important să fim conștienți de limitările sale, cum ar fi asumarea liniarității și sensibilitatea la multicoliniaritate. Când aceste limitări sunt luate în considerare cu atenție, regresia liniară poate fi un instrument puternic pentru analiza și predicția datelor. Regresia liniară – Întrebări frecvente (FAQs) Ce înseamnă regresia liniară în mod simplu? Regresia liniară este un algoritm de învățare automată supravegheat care prezice o variabilă țintă continuă pe baza uneia sau mai multor variabile independente. Presupune o relație liniară între variabilele dependente și independente și utilizează o ecuație liniară pentru a modela această relație. De ce folosim regresia liniară? Regresia liniară este folosită în mod obișnuit pentru: Prezicerea valorilor numerice pe baza caracteristicilor de intrare Prognoza tendințelor viitoare pe baza datelor istorice Identificarea corelațiilor dintre variabile Înțelegerea impactului diferiților factori asupra unui anumit rezultat Cum se utilizează regresia liniară? , înțelegerea coeficienților și realizarea de predicții bazate pe valorile de intrare pentru luarea deciziilor în cunoștință de cauză. De ce se numește regresie liniară? Regresia liniară este numită pentru utilizarea unei ecuații liniare pentru a modela relația dintre variabile, reprezentând o linie dreaptă potrivită la punctele de date. Ce sunt exemplele de regresie liniară? Predicția prețurilor caselor pe baza metru pătrat, estimarea scorurilor la examene din orele de studiu și prognozarea vânzărilor folosind cheltuielile publicitare sunt exemple de aplicații de regresie liniară.>>>

TechCodeview