Învățare automată este o ramură a inteligenței artificiale care se concentrează pe dezvoltarea de algoritmi și modele statistice care pot învăța din date și pot face predicții asupra datelor. Regresie liniara este, de asemenea, un tip de algoritm de învățare automată, mai precis a algoritm de învățare automată supravegheat care învață din seturile de date etichetate și mapează punctele de date la cele mai optimizate funcții liniare. care poate fi folosit pentru predicție pe noi seturi de date.
În primul rând, ar trebui să știm ce sunt algoritmii de învățare automată supravegheați. Este un tip de învățare automată în care algoritmul învață din datele etichetate. Date etichetate înseamnă setul de date a cărui valoare țintă respectivă este deja cunoscută. Învățarea supravegheată are două tipuri:
- Clasificare : prezice clasa setului de date pe baza variabilei de intrare independente. Clasa este valorile categorice sau discrete. ca imaginea unui animal este o pisică sau un câine?
- Regresia : prezice variabilele de ieșire continue pe baza variabilei de intrare independente. cum ar fi predicția prețurilor caselor pe baza diferiților parametri precum vârsta casei, distanța de la drumul principal, locația, zona etc.
Aici, vom discuta unul dintre cele mai simple tipuri de regresie, de ex. Regresie liniara.
Cuprins
- Ce este regresia liniară?
- Tipuri de regresie liniară
- Care este cea mai bună linie Fit?
- Funcția de cost pentru regresia liniară
- Ipoteze ale regresiei liniare simple
- Ipoteze ale regresiei liniare multiple
- Măsuri de evaluare pentru regresia liniară
- Implementarea Python a regresiei liniare
- Tehnici de regularizare pentru modele liniare
- Aplicații ale regresiei liniare
- Avantajele și dezavantajele regresiei liniare
- Regresie liniară – Întrebări frecvente (FAQs)
Ce este regresia liniară?
Regresia liniară este un tip de învățare automată supravegheată algoritm care calculează relația liniară dintre variabila dependentă și una sau mai multe caracteristici independente prin potrivirea unei ecuații liniare la datele observate.
Când există o singură caracteristică independentă, aceasta este cunoscută ca Regresia liniară simplă , iar când există mai multe caracteristici, este cunoscută ca Regresia liniară multiplă .
În mod similar, atunci când există o singură variabilă dependentă, aceasta este luată în considerare Regresia liniară univariată , în timp ce atunci când există mai multe variabile dependente, este cunoscută ca Regresie multivariată .
De ce este importantă regresia liniară?
Interpretabilitatea regresiei liniare este un punct forte notabil. Ecuația modelului oferă coeficienți clari care elucidează impactul fiecărei variabile independente asupra variabilei dependente, facilitând o înțelegere mai profundă a dinamicii subiacente. Simplitatea sa este o virtute, deoarece regresia liniară este transparentă, ușor de implementat și servește drept concept de bază pentru algoritmi mai complexi.
Regresia liniară nu este doar un instrument predictiv; formează baza pentru diverse modele avansate. Tehnici precum regularizarea și mașinile vectoriale de suport se inspiră din regresia liniară, extinzându-i utilitatea. În plus, regresia liniară este o piatră de temelie în testarea ipotezelor, permițând cercetătorilor să valideze ipotezele cheie despre date.
Tipuri de regresie liniară
Există două tipuri principale de regresie liniară:
matrice în șir
Regresia liniară simplă
Aceasta este cea mai simplă formă de regresie liniară și implică doar o variabilă independentă și o variabilă dependentă. Ecuația pentru regresia liniară simplă este:
Unde:
- Y este variabila dependentă
- X este variabila independentă
- β0 este interceptarea
- β1 este panta
Regresia liniară multiplă
Aceasta implică mai mult de o variabilă independentă și o variabilă dependentă. Ecuația pentru regresia liniară multiplă este:
Unde:
- Y este variabila dependentă
- X1, X2, …, Xp sunt variabile independente
- β0 este interceptarea
- β1, β2, …, βn sunt pantele
Scopul algoritmului este de a găsi Best Fit Line ecuație care poate prezice valorile pe baza variabilelor independente.
În regresie, setul de înregistrări sunt prezente cu valorile X și Y și aceste valori sunt folosite pentru a învăța o funcție, așa că dacă doriți să preziceți Y dintr-un X necunoscut, această funcție învățată poate fi utilizată. În regresie trebuie să găsim valoarea lui Y, Deci, este necesară o funcție care prezice Y continuu în cazul regresiei date X ca trăsături independente.
Care este cea mai bună linie Fit?
Obiectivul nostru principal în timpul utilizării regresiei liniare este de a localiza linia cea mai potrivită, ceea ce implică faptul că eroarea dintre valorile prezise și cele reale ar trebui să fie menținută la minimum. Va exista cea mai mică eroare în linia cea mai potrivită.
Cea mai bună ecuație Fit Line oferă o linie dreaptă care reprezintă relația dintre variabilele dependente și independente. Panta dreptei indică cât de mult se modifică variabila dependentă pentru o modificare de unitate a variabilelor independente.

Regresie liniara
poate o clasă extinde mai multe clase
Aici Y este numită variabilă dependentă sau țintă și X este numită variabilă independentă, cunoscută și sub numele de predictor al lui Y. Există multe tipuri de funcții sau module care pot fi utilizate pentru regresie. O funcție liniară este cel mai simplu tip de funcție. Aici, X poate fi o singură caracteristică sau mai multe caracteristici care reprezintă problema.
Regresia liniară realizează sarcina de a prezice o valoare a variabilei dependente (y) pe baza unei variabile independente date (x)). Prin urmare, numele este regresie liniară. În figura de mai sus, X (input) este experiența de muncă și Y (output) este salariul unei persoane. Linia de regresie este linia cea mai potrivită pentru modelul nostru.
Utilizăm funcția de cost pentru a calcula cele mai bune valori pentru a obține cea mai bună linie de potrivire, deoarece valori diferite pentru ponderi sau coeficientul liniilor duc la linii de regresie diferite.
Funcția de ipoteză în regresia liniară
După cum am presupus mai devreme că caracteristica noastră independentă este experiența, adică X și salariul respectiv Y este variabila dependentă. Să presupunem că există o relație liniară între X și Y, atunci salariul poate fi prezis folosind:
SAU
Aici,
y_i epsilon Y ;; (i= 1,2, cdots , n) sunt etichete pentru date (învățare supravegheată)x_i epsilon X ;; (i= 1,2, cdots , n) sunt datele de antrenament independente de intrare (univariate – o variabilă de intrare (parametru))hat{y_i} epsilon hat{Y} ;; (i= 1,2, cdots , n) sunt valorile prezise.
Modelul obține cea mai bună linie de potrivire de regresie prin găsirea celui mai bun θ1și θ2valorile.
- i 1 : intercepta
- i 2 : coeficientul lui x
Odată ce găsim cel mai bun θ1și θ2valori, obținem linia cea mai potrivită. Deci, când în sfârșit folosim modelul nostru pentru predicție, acesta va prezice valoarea lui y pentru valoarea de intrare a lui x.
Cum se actualizează θ 1 și θ 2 valori pentru a obține linia cea mai potrivită?
Pentru a obține linia de regresie cea mai potrivită, modelul urmărește să prezică valoarea țintă
Funcția de cost pentru regresia liniară
The funcția de cost sau funcția de pierdere nu este altceva decât eroarea sau diferența dintre valoarea prezisă
În regresia liniară, Eroare medie pătratică (MSE) este folosită funcția de cost, care calculează media erorilor pătrate dintre valorile prezise
Funcția MSE poate fi calculată ca:
Folosind funcția MSE, procesul iterativ de coborâre a gradientului este aplicat pentru a actualiza valorile lui
Acest proces presupune ajustarea continuă a parametrilor ( heta_1) și ( heta_2) pe baza gradienților calculați din MSE. Rezultatul final este o linie de regresie liniară care minimizează diferențele generale pătrate dintre valorile prezise și cele reale, oferind o reprezentare optimă a relației de bază în date.
Coborâre gradient pentru regresia liniară
Un model de regresie liniară poate fi antrenat utilizând algoritmul de optimizare coborâre în gradient prin modificarea iterativă a parametrilor modelului pentru a reduce eroare pătratică medie (MSE) a modelului pe un set de date de antrenament. Pentru a actualiza θ1și θ2valori pentru a reduce funcția Cost (minimizarea valorii RMSE) și pentru a obține linia cea mai potrivită pe care modelul utilizează Gradient Descent. Ideea este să începem cu θ aleatoriu1și θ2valorile și apoi actualizați iterativ valorile, atingând costul minim.
Un gradient nu este altceva decât o derivată care definește efectele asupra ieșirilor funcției cu o mică variație a intrărilor.
Să diferențiem funcția de cost (J) în raport cu
diferenta de date in excel
Să diferențiem funcția de cost (J) în raport cu
Găsirea coeficienților unei ecuații liniare care se potrivesc cel mai bine cu datele de antrenament este obiectivul regresiei liniare. Deplasându-se în direcția gradientului negativ al erorii pătratice medii în raport cu coeficienții, coeficienții pot fi modificați. Iar interceptarea respectivă și coeficientul lui X vor fi dacă
Coborâre în gradient
cast int în șir de caractere java
Ipoteze ale regresiei liniare simple
Regresia liniară este un instrument puternic pentru înțelegerea și prezicerea comportamentului unei variabile, cu toate acestea, trebuie să îndeplinească câteva condiții pentru a fi soluții precise și de încredere.
- Liniaritate : Variabilele independente și dependente au o relație liniară între ele. Aceasta implică faptul că modificările variabilei dependente le urmează pe cele ale variabilei (variabilelor) independente într-un mod liniar. Aceasta înseamnă că ar trebui să existe o linie dreaptă care să poată fi trasă prin punctele de date. Dacă relația nu este liniară, atunci regresia liniară nu va fi un model precis.
- Independenţă : Observațiile din setul de date sunt independente unele de altele. Aceasta înseamnă că valoarea variabilei dependente pentru o observație nu depinde de valoarea variabilei dependente pentru o altă observație. Dacă observațiile nu sunt independente, atunci regresia liniară nu va fi un model precis.
- Homoscedasticitatea : La toate nivelurile variabilelor independente, varianța erorilor este constantă. Aceasta indică faptul că valoarea variabilelor independente nu are impact asupra variației erorilor. Dacă varianța reziduurilor nu este constantă, atunci regresia liniară nu va fi un model precis.
Homoscedasticitatea în regresia liniară
- Normalitate : Reziduurile ar trebui să fie distribuite normal. Aceasta înseamnă că reziduurile ar trebui să urmeze o curbă în formă de clopot. Dacă reziduurile nu sunt distribuite în mod normal, atunci regresia liniară nu va fi un model precis.
Ipoteze ale regresiei liniare multiple
Pentru regresia liniară multiplă, se aplică toate cele patru ipoteze din regresia liniară simplă. În plus, mai jos sunt câteva:
- Fără multicoliniaritate : Nu există o corelație mare între variabilele independente. Acest lucru indică faptul că există o corelație mică sau deloc între variabilele independente. Multicolinearitatea apare atunci când două sau mai multe variabile independente sunt foarte corelate între ele, ceea ce poate face dificilă determinarea efectului individual al fiecărei variabile asupra variabilei dependente. Dacă există multicoliniaritate, atunci regresia liniară multiplă nu va fi un model precis.
- aditivitate: Modelul presupune că efectul modificărilor unei variabile predictoare asupra variabilei răspuns este consistent, indiferent de valorile celorlalte variabile. Această ipoteză implică că nu există nicio interacțiune între variabile în efectele lor asupra variabilei dependente.
- Selectarea caracteristicilor: În regresia liniară multiplă, este esențial să selectați cu atenție variabilele independente care vor fi incluse în model. Includerea variabilelor irelevante sau redundante poate duce la supraadaptare și poate complica interpretarea modelului.
- Supramontare: Supraajustarea apare atunci când modelul se potrivește prea mult cu datele de antrenament, captând zgomot sau fluctuații aleatorii care nu reprezintă adevărata relație de bază dintre variabile. Acest lucru poate duce la o performanță slabă de generalizare a datelor noi, nevăzute.
Multicoliniaritate
Multicoliniaritate este un fenomen statistic care apare atunci când două sau mai multe variabile independente într-un model de regresie multiplă sunt foarte corelate, ceea ce face dificilă evaluarea efectelor individuale ale fiecărei variabile asupra variabilei dependente.
Detectarea multicoliniarității include două tehnici:
- Matricea de corelație: Examinarea matricei de corelație între variabilele independente este o modalitate comună de a detecta multicoliniaritatea. Corelațiile ridicate (aproape de 1 sau -1) indică o potențială multicoliniaritate.
- VIF (Factor de inflație a variației): VIF este o măsură care cuantifică cât de mult crește varianța unui coeficient de regresie estimat dacă predictorii dvs. sunt corelați. Un VIF ridicat (de obicei peste 10) sugerează multicoliniaritate.
Măsuri de evaluare pentru regresia liniară
O varietate de măsuri de evaluare poate fi folosit pentru a determina puterea oricărui model de regresie liniară. Aceste metrici de evaluare oferă adesea o indicație despre cât de bine modelul produce rezultatele observate.
Cele mai frecvente măsurători sunt:
Eroare pătrată medie (MSE)
Eroare medie pătratică (MSE) este o măsurătoare de evaluare care calculează media diferențelor pătrate dintre valorile reale și cele prezise pentru toate punctele de date. Diferența este pătrată pentru a se asigura că diferențele negative și pozitive nu se anulează reciproc.
Aici,
- n este numărul de puncte de date.
- șiieste valoarea reală sau observată pentru ithpunct de date.
widehat{y_{i}} este valoarea prezisă pentru ithpunct de date.
MSE este o modalitate de a cuantifica acuratețea predicțiilor unui model. MSE este sensibil la valori aberante, deoarece erorile mari contribuie semnificativ la scorul general.
Eroare absolută medie (MAE)
Eroare absolută medie este o metrică de evaluare utilizată pentru a calcula acuratețea unui model de regresie. MAE măsoară diferența absolută medie dintre valorile prezise și valorile reale.
Matematic, MAE este exprimat astfel:
Aici,
- n este numărul de observații
- ȘIireprezintă valorile reale.
widehat{Y_i} reprezintă valorile prezise
Valoarea mai mică a MAE indică o performanță mai bună a modelului. Nu este sensibil la valori aberante, deoarece luăm în considerare diferențele absolute.
Root Mean Squared Error (RMSE)
Rădăcina pătrată a varianței reziduurilor este Eroare pătratică medie . Descrie cât de bine se potrivesc punctele de date observate cu valorile așteptate sau potrivirea absolută a modelului la date.
În notație matematică, poate fi exprimat astfel:
În loc să împărțim întregul număr de puncte de date din model la numărul de grade de libertate, trebuie să împărțim suma reziduurilor pătrate pentru a obține o estimare imparțială. Apoi, această cifră este denumită Eroare standard reziduală (RSE).
În notație matematică, poate fi exprimat astfel:
RSME nu este o metrică la fel de bună ca R-pătrat. Root Mean Squared Error poate fluctua atunci când unitățile variabilelor variază, deoarece valoarea acesteia depinde de unitățile variabilelor (nu este o măsură normalizată).
Coeficient de determinare (R-pătrat)
R-pătrat este o statistică care indică cât de multă variație poate explica sau capta modelul dezvoltat. Este întotdeauna în intervalul de la 0 la 1. În general, cu cât modelul se potrivește mai bine cu datele, cu atât numărul R pătrat este mai mare.
În notație matematică, poate fi exprimat astfel:
np.log
- Suma reziduală a pătratelor (RSS): The suma de pătrate a reziduului pentru fiecare punct de date din diagramă sau date este cunoscută ca suma de pătrate reziduală sau RSS. Este o măsurare a diferenței dintre rezultatul care a fost observat și ceea ce a fost anticipat.
RSS=sum_{i=2}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2} - Suma totală de pătrate (TSS): Suma erorilor punctelor de date din media variabilei de răspuns este cunoscută ca suma totală a pătratelor sau TSS.
TSS= sum_{}^{}(y-overline{y_{i}})^2
R pătrat metrica este o măsură a proporției de varianță în variabila dependentă care este explicată variabilelor independente din model.
Eroare R-pătrat ajustată
R ajustat2măsoară proporția de varianță a variabilei dependente care este explicată prin variabile independente într-un model de regresie. R-pătrat ajustat ține cont de numărul de predictori din model și penalizează modelul pentru includerea de predictori irelevanți care nu contribuie semnificativ la explicarea variației variabilelor dependente.
Din punct de vedere matematic, R ajustat2se exprimă astfel:
Aici,
- n este numărul de observații
- k este numărul de predictori din model
- R2este coeficientul de determinare
Pătratul R ajustat ajută la prevenirea supraajustării. Penalizează modelul cu predictori suplimentari care nu contribuie semnificativ la explicarea varianței variabilei dependente.
Implementarea Python a regresiei liniare
Importă bibliotecile necesare:
Python3 import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.axes as ax from matplotlib.animation import FuncAnimation>
Încărcați setul de date și separați variabilele de intrare și țintă
Iată linkul pentru setul de date: Link pentru set de date
Python3 url = 'https://media.techcodeview.com data = pd.read_csv(url) data # Drop the missing values data = data.dropna() # training dataset and labels train_input = np.array(data.x[0:500]).reshape(500, 1) train_output = np.array(data.y[0:500]).reshape(500, 1) # valid dataset and labels test_input = np.array(data.x[500:700]).reshape(199, 1) test_output = np.array(data.y[500:700]).reshape(199, 1)>
Construiți modelul de regresie liniară și trasați linia de regresie
Pași:
- În propagarea directă, funcția de regresie liniară Y=mx+c este aplicată prin atribuirea inițială a valorii aleatoare a parametrului (m & c).
- Am scris funcția pentru a găsi funcția de cost, adică media