Introducere
Învățarea automată a reformat modul în care procesăm și examinăm datele, iar algoritmii arborelui de decizie sunt o decizie celebră pentru sarcinile de clasificare și regresie. Indicele Gini, denumit altfel Impuritatea Gini sau Coeficientul Gini, este o măsură semnificativă a impurităților utilizată în algoritmii arborelui de decizie. În acest articol, vom investiga în mod exhaustiv ideea indicelui Gini, formula sa numerică și aplicațiile sale în învățarea automată. De asemenea, vom compara indicele Gini și alte măsuri de impurități, vom vorbi despre limitările și avantajele acestuia și vom inspecta analizele contextuale ale aplicațiilor sale din lumea reală. În cele din urmă, vom prezenta viitoarele direcții pentru cercetare pe aici.
Ce este indicele Gini?
Indicele Gini este o proporție de impurități sau inegalități în setările statistice și monetare. În învățarea automată, este utilizat ca măsură de impurități în algoritmii arborelui de decizie pentru sarcinile de clasificare. Indicele Gini măsoară probabilitatea ca un test ales la întâmplare să fie clasificat greșit de un algoritm de arbore de decizie, iar valoarea acestuia merge de la 0 (perfect pur) la 1 (perfect impur).
Formula indicelui Gini
Indicele Gini este o proporție a impurității sau inegalității unei circulații, utilizată în mod regulat ca măsură de impurități în algoritmii arborelui de decizie. În ceea ce privește arborii de decizie, indicele Gini este utilizat pentru a determina cea mai bună caracteristică pentru a împărți datele la fiecare nod al arborelui.
Formula pentru indicele Gini este după cum urmează:
unde pi este probabilitatea ca un lucru să aibă un loc cu o anumită clasă.
De exemplu, ar trebui să luăm în considerare o problemă de clasificare binară cu două clase An și B. În cazul în care probabilitatea clasei An este p și probabilitatea clasei B este (1-p), atunci indicele Gini poate fi calculat ca :
Valoarea indicelui Gini merge de la 0,0 la 0,5 pentru problemele de clasificare binară, unde 0,0 demonstrează un nod perfect pur (toate exemplele au un loc cu o clasă similară) și 0,5 arată un nod perfect impur (testele sunt distribuite în mod egal între cele două clase). ).
Utilizarea indicelui Gini în probleme de clasificare
Indicele Gini este utilizat în general ca măsură de impurități în algoritmii arborelui de decizie pentru probleme de clasificare. În arborii de decizie, fiecare nod se adresează unui element, iar obiectivul este de a împărți datele în subseturi care sunt în esență la fel de pure pe cât ar fi de așteptat. Măsura de impurități (cum ar fi indicele Gini) este utilizată pentru a decide cea mai bună împărțire la fiecare nod.
Pentru a ilustra acest lucru, ar trebui să luăm în considerare un exemplu de arbore de decizie pentru o problemă de clasificare binară. Arborele are două elemente: vârsta și venitul, iar obiectivul este de a prevedea indiferent dacă un individ va cumpăra probabil un articol. Arborele este construit folosind indicele Gini ca măsură de impuritate.
La nodul rădăcină, indicele Gini este calculat în funcție de probabilitatea ca exemplele să aibă un loc cu clasa 0 sau clasa 1. Nodul este divizat în funcție de componenta care are ca rezultat cea mai mare scădere a indicelui Gini. Acest ciclu este reproșat recursiv pentru fiecare subset până când este îndeplinită o măsură de oprire.
Arbori de decizie
Un arbore de decizie este un algoritm de învățare automată bine-cunoscut care este utilizat atât pentru sarcini de clasificare, cât și de regresie. Un model este lucrat prin împărțirea recursivă a setului de date în subseturi mai modeste în lumina valorilor evidențierilor de informații, determinate să limiteze impuritățile subseturilor ulterioare.
La fiecare nod al arborelui, se ia o decizie în funcție de valorile unuia dintre elementele evidențiate de informații, cu scopul final ca subseturile ulterioare să fie practic la fel de pure pe cât ar fi de așteptat. Puritatea unui subset este estimată în mod regulat printr-o măsură de impuritate, de exemplu, indicele Gini sau entropia.
Algoritmul arborelui de decizie poate fi utilizat atât pentru sarcini de clasificare binare, cât și pentru clase multiple, precum și pentru sarcini de regresie. În sarcinile de clasificare binară, arborele de decizie împarte setul de date în două subseturi în funcție de valoarea unei caracteristici binare, cum ar fi da sau nu. În sarcinile de clasificare cu mai multe clase, arborele de decizie împarte setul de date în numeroase subseturi în lumina valorilor unei caracteristici directe, cum ar fi roșu, verde sau albastru.
Indicele Gini vs alte măsuri de impurități
În afară de indicele Gini, există și alte măsuri de impurități care sunt utilizate în mod normal în algoritmii arborelui de decizie, de exemplu, entropia și câștigul de informații.
Entropie:
În învățarea automată, entropia este o proporție a neregulilor sau vulnerabilității dintr-o mulțime de date. În general, este utilizat ca măsură de impurități în algoritmii arborelui de decizie, alături de indicele Gini.
În algoritmii arborelui de decizie, entropia este utilizată pentru a decide cea mai bună componentă pentru a împărți datele la fiecare nod al arborelui. Obiectivul este de a găsi elementul care are ca rezultat cea mai mare scădere a entropiei, care se referă la componenta care oferă cele mai multe informații despre problema clasificării.
În timp ce entropia și indicele Gini sunt ambele utilizate în mod normal ca măsuri de impurități în algoritmii arborelui de decizie, ele au diferite proprietăți. Entropia este mai delicată pentru circulația numelor de clasă și, în general, va oferi copaci mai ajustați, în timp ce indicele Gini este mai puțin sensibil la însuşirea mărcilor de clasă și va crea, în general, copaci mai limitati, cu mai puține divizări. Decizia de măsurare a impurităților se bazează pe problema particulară și pe atributele datelor.
Câștig de informații:
Câștigul de informații este o acțiune utilizată pentru a evalua natura unei divizări în timpul construirii unui arbore de decizie. Obiectivul unui arbore de decizie este de a împărți datele în subseturi care sunt practic la fel de omogene pe cât se poate de imaginat ca și pentru variabila obiectiv, astfel încât arborele următor poate fi utilizat pentru a face așteptări exacte asupra datelor noi. Câștigul de informații măsoară scăderea entropiei sau a impurității realizată de o scindare. Caracteristica cu cel mai remarcabil câștig de informații este aleasă ca cea mai bună caracteristică de împărțit la fiecare nod al arborelui de decizie.
Câștigul de informații este o măsură implicată în mod normal pentru evaluarea naturii divizărilor în arborii de decizie, dar nu este cea pe care să ne concentrăm. Diferite măsuri, de exemplu, indicele Gini sau rata de clasificare greșită, pot fi de asemenea utilizate. Decizia de împărțire a bazei se bazează pe problema principală și pe atributele setului de date utilizat.
Exemplu de indice Gini
Ar trebui să luăm în considerare o problemă de clasificare binară în care avem un set de date de 10 exemple cu două clase: „Pozitiv” și „Negativ”. Din cele 10 exemple, 6 au un loc cu clasa „Pozitiv” și 4 au loc cu clasa „Negativ”.
Pentru a calcula indicele Gini al setului de date, inițial calculăm probabilitatea fiecărei clase:
p_1 = 6/10 = 0,6 (pozitiv)
p_2 = 4/10 = 0,4 (negativ)
Apoi, în acel moment, utilizăm formula indicelui Gini pentru a calcula impuritatea setului de date:
Gini(S) = 1 - (p_1^2 + p_2^2)
= 1 - (0,6^2 + 0,4^2)
= 0,48
Deci, indicele Gini al setului de date este 0,48.
În prezent, să presupunem că trebuie să împărțim setul de date pe un element „X” care are două valori potențiale: „A” și „B”. Împărțim setul de date în două subseturi având în vedere componenta:
Subset 1 (X = A): 4 pozitiv, 1 negativ
Subset 2 (X = B): 2 pozitive, 3 negative
Pentru a calcula scăderea indicelui Gini pentru această împărțire, inițial calculăm indicele Gini al fiecărui subset:
Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32
Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48
Apoi, utilizăm formula câștigului de informații pentru a calcula scăderea indicelui Gini:
IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))
= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))
= 0,08
Deci, câștigul de informații (adică scăderea indicelui Gini) pentru împărțirea setului de date pe evidențierea „X” este 0,08.
În această situație, în cazul în care calculăm câștigul de informații pentru toate elementele și alegem pe cel cu câștigul de informații cel mai demn de remarcat, acea componentă ar fi aleasă ca cea mai bună componentă de împărțit la nodul rădăcină al arborelui de decizie.
Avantaje:
Indicele Gini este o măsură larg implicată pentru evaluarea naturii divizărilor în arborii de decizie și se bucură de câteva avantaje față de diferite măsuri, de exemplu, entropia sau rata de clasificare greșită. Iată o parte din principalele avantaje ale utilizării indicelui Gini:
limbaj groovy de computer
Eficient din punct de vedere computațional: Indicele Gini este o măsură mai puțin complexă și mai rapidă din punct de vedere computațional, în contrast cu diferite măsuri, de exemplu, entropia, care implică calcularea logaritmilor.
Interpretare intuitivă: Indicele Gini este simplu și interpretat. Măsoară probabilitatea ca un exemplu ales la întâmplare dintr-un set să fie clasificat incorect în cazul în care a fost marcat la întâmplare în funcție de transportul de clasă din set.
Bun pentru clasificarea binară: Indicele Gini este deosebit de puternic pentru problemele de clasificare binară, unde variabila obiectiv are doar două clase. În astfel de cazuri, se știe că indicele Gini este mai constant decât diferitele măsuri.
Robuste la dezechilibru de clasă: Indicele Gini este mai puțin delicat la dezechilibrul de clasă, în comparație cu diferite măsuri, de exemplu, precizia sau rata de clasificare greșită. Acest lucru se datorează faptului că indicele Gini depinde de extinderea generală a exemplelor din fiecare clasă, spre deosebire de numerele directe.
Mai puțin predispus la supraadaptare: Indicele Gini va face, în general, arbori de decizie mai modesti, în contrast cu diferite măsuri, ceea ce îl face mai puțin predispus la supraadaptare. Acest lucru se datorează faptului că indicele Gini va favoriza în general caracteristicile care fac parcele de date mai modeste, ceea ce diminuează posibilitățile de supraadaptare.
Dezavantaje:
În timp ce indicele Gini se bucură de câteva beneficii ca măsură de împărțire a arborilor de decizie, are, de asemenea, câteva dezavantaje. Iată o parte din principalele dezavantaje ale utilizării indicelui Gini:
Prejudecăți față de caracteristici cu mai multe categorii: Indicele Gini se va înclina în general către caracteristici cu multe categorii sau valori, deoarece pot face mai multe împărțiri și parcele ale datelor. Acest lucru poate determina supraadaptarea și un arbore de decizie mai complicat.
Nu este bun pentru variabile continue: Indicele Gini nu este adecvat pentru variabilele continue, deoarece necesită discretizarea variabilei în categorii sau compartimente, ceea ce poate provoca pierderea de informații și diminuarea exactității.
Ignorează interacțiunile caracteristicilor: Indicele Gini se gândește doar la forța prevăzătoare individuală a fiecărei caracteristici și ignoră interacțiunile dintre caracteristici. Acest lucru poate determina împărțiri slabe și previziuni mai puțin exacte.
Nu este ideal pentru unele seturi de date: uneori, indicele Gini poate să nu fie măsura ideală pentru evaluarea naturii divizărilor într-un arbore de decizie. De exemplu, în cazul în care variabila obiectiv este în mod excepțional înclinată sau dezechilibrată, diferite măsuri, de exemplu, câștigul de informații sau proporția câștigului ar putea fi mai potrivite.
Predispus la părtinire în prezența valorilor lipsă: Indicele Gini poate fi părtinitor în prezența valorilor lipsă, deoarece se va înclina în general către caracteristici cu valori lipsă mai puține, indiferent dacă acestea nu sunt cele mai informative.
Aplicații în lumea reală ale indicelui Gini
Indexul Gini a fost utilizat în diferite aplicații în învățarea automată, de exemplu, locația extorcării, scorarea creditelor și diviziunea clienților. De exemplu, în descoperirea extorcării, indicele Gini poate fi utilizat pentru a distinge modelele în schimbul de date și pentru a recunoaște modurile bizare de a se comporta. În evaluarea creditului, indicele Gini poate fi utilizat pentru a prevedea probabilitatea de nerambursare, având în vedere variabile precum venitul, relația dintre datoriile restante și plata acasa și înregistrarea rambursării împrumutului. În divizia de clienți, indicele Gini poate fi utilizat pentru a grupa clienții având în vedere modul lor de comportament și înclinații.
Cercetare viitoare
În ciuda utilizării sale nemărginite în algoritmii arborelui de decizie, există încă un grad de cercetare asupra indicelui Gini. Un domeniu de cercetare este avansarea noilor măsuri de impurități care pot aborda limitările indicelui Gini, cum ar fi înclinarea acestuia către factori cu mai multe niveluri. Un alt domeniu de cercetare este simplificarea algoritmilor arborelui de decizie utilizând indicele Gini, de exemplu, utilizarea tehnicilor de ținută pentru a lucra la precizia arborilor de decizie.
Concluzie
Indicele Gini este o măsură semnificativă a impurităților utilizată în algoritmii arborelui de decizie pentru sarcini de clasificare. Măsoară probabilitatea ca un test ales la întâmplare să fie clasificat greșit de către un algoritm arbore de decizie, iar valoarea sa merge de la 0 (perfect pur) la 1 (perfect impur). Indexul Gini este simplu și eficient, productiv din punct de vedere computațional și puternic pentru excepții. A fost utilizat în diferite aplicații în învățarea automată, de exemplu, descoperirea denaturărilor, scorarea creditelor și diviziunea clienților. În timp ce indicele Gini are câteva limitări, există încă un grad de cercetare privind îmbunătățirea acestuia și îmbunătățirea noilor măsuri de impurități.