logo

Algoritmul apriori

Algoritmul apriori se referă la algoritmul care este utilizat pentru a calcula regulile de asociere între obiecte. Înseamnă modul în care două sau mai multe obiecte sunt legate între ele. Cu alte cuvinte, putem spune că algoritmul apriori este o regulă de asociere care analizează faptul că persoanele care au cumpărat produsul A au cumpărat și produsul B.

Obiectivul principal al algoritmului apriori este de a crea regula de asociere între diferite obiecte. Regula de asociere descrie modul în care două sau mai multe obiecte sunt legate între ele. Algoritmul apriori mai este numit și extragerea frecventă a modelelor. În general, utilizați algoritmul Apriori pe o bază de date care constă dintr-un număr mare de tranzacții. Să înțelegem algoritmul apriori cu ajutorul unui exemplu; să presupunem că mergi la Big Bazar și cumperi diferite produse. Ajută clienții să-și cumpere produsele cu ușurință și crește performanța de vânzări a Big Bazar. În acest tutorial, vom discuta despre algoritmul apriori cu exemple.

Introducere

Luăm un exemplu pentru a înțelege mai bine conceptul. Trebuie să fi observat că vânzătorul de pizzerie face împreună o combinație de pizza, băutură răcoritoare și grisă. El oferă, de asemenea, o reducere clienților lor care cumpără aceste combo-uri. Te gândești vreodată de ce face asta? El crede că clienții care cumpără pizza cumpără și băuturi răcoritoare și grisine. Cu toate acestea, făcând combo-uri, el facilitează clienților. În același timp, își mărește și performanța de vânzări.

În mod similar, mergi la Big Bazar și vei găsi biscuiți, chipsuri și ciocolată la pachet. Arată că comerciantul face confortabil pentru clienți să cumpere aceste produse în același loc.

webdriver

Cele două exemple de mai sus sunt cele mai bune exemple de Reguli de Asociere în

  • A sustine
  • Încredere
  • Lift
  • Să luăm un exemplu pentru a înțelege acest concept.

    Am discutat deja mai sus; aveți nevoie de o bază de date uriașă care să conțină un număr mare de tranzacții. Să presupunem că aveți 4000 de tranzacții de clienți într-un Big Bazar. Trebuie să calculați Suportul, Încrederea și Ridicarea pentru două produse și puteți spune Biscuiți și Ciocolată. Acest lucru se datorează faptului că clienții cumpără frecvent aceste două articole împreună.

    Din 4000 de tranzacții, 400 conțin biscuiți, în timp ce 600 conțin ciocolată, iar aceste 600 de tranzacții includ 200 care includ biscuiți și ciocolată. Folosind aceste date, vom afla suportul, încrederea și creșterea.

    A sustine

    Suportul se referă la popularitatea implicită a oricărui produs. Găsiți suportul ca un coeficient al împărțirii numărului de tranzacții care cuprinde acel produs la numărul total de tranzacții. Prin urmare, primim

    Suport (Biscuiți) = (Tranzacții referitoare la biscuiți) / (Total tranzacții)

    = 400/4000 = 10 procente.

    Încredere

    Încrederea se referă la posibilitatea ca clienții să cumpere împreună atât biscuiți, cât și ciocolată. Deci, trebuie să împărțiți numărul de tranzacții care cuprind atât biscuiți, cât și ciocolată la numărul total de tranzacții pentru a obține încredere.

    Prin urmare,

    Încredere = (Tranzacții referitoare atât la biscuiți, cât și la ciocolată) / (Total tranzacții care implică biscuiți)

    = 200/400

    = 50 la sută.

    Înseamnă că 50% dintre clienții care au cumpărat biscuiți au cumpărat și ciocolată.

    Lift

    Luați în considerare exemplul de mai sus; lift se referă la creșterea raportului de vânzare de ciocolată atunci când vindeți biscuiți. Ecuațiile matematice ale liftului sunt prezentate mai jos.

    Lift = (Încredere (Biscuiți - ciocolată)/ (Suport (Biscuiți)

    = 50/10 = 5

    Înseamnă că probabilitatea ca oamenii să cumpere atât biscuiți, cât și ciocolată împreună este de cinci ori mai mare decât cea de a cumpăra biscuiți singuri. Dacă valoarea de ridicare este sub unu, este puțin probabil ca oamenii să cumpere ambele articole împreună. Cu cât valoarea este mai mare, cu atât combinația este mai bună.

    Cum funcționează algoritmul Apriori în Data Mining?

    Vom înțelege acest algoritm cu ajutorul unui exemplu

    Luați în considerare un scenariu Big Bazar în care setul de produse este P = {Orez, Pulse, Ulei, Lapte, Măr}. Baza de date cuprinde șase tranzacții în care 1 reprezintă prezența produsului și 0 reprezintă absența produsului.

    ID-ul de tranzacție Orez Puls Ulei Lapte Măr
    t1 1 1 1 0 0
    t2 0 1 1 1 0
    t3 0 0 0 1 1
    t4 1 1 0 1 0
    t5 1 1 1 0 1
    t6 1 1 1 1 1

    Algoritmul Apriori face ipotezele date

    • Toate subseturile unui set de articole frecvente trebuie să fie frecvente.
    • Subseturile unui set de articole rare trebuie să fie rare.
    • Fixați un nivel de suport prag. În cazul nostru, l-am fixat la 50 la sută.

    Pasul 1

    Realizați un tabel de frecvență al tuturor produselor care apar în toate tranzacțiile. Acum, scurtați tabelul de frecvență pentru a adăuga numai acele produse cu un nivel de suport de prag de peste 50 la sută. Găsim tabelul de frecvență dat.

    gestionarea excepțiilor java
    Produs Frecvență (număr de tranzacții)
    Orez (R) 4
    Puls(P) 5
    ulei(O) 4
    Lapte (M) 4

    Tabelul de mai sus a indicat produsele cumpărate frecvent de către clienți.

    Pasul 2

    Creați perechi de produse precum RP, RO, RM, PO, PM, OM. Veți obține tabelul de frecvență dat.

    Set de articole Frecvență (număr de tranzacții)
    RP 4
    RO 3
    RM 2
    DUPĂ 4
    P.M 3
    DESPRE 2

    Pasul 3

    Implementarea aceluiași prag de sprijin de 50 la sută și luați în considerare produsele care sunt mai mult de 50 la sută. În cazul nostru, este mai mult de 3

    Astfel, obținem RP, RO, PO și PM

    Pasul 4

    Acum, căutați un set de trei produse pe care clienții le cumpără împreună. Obținem combinația dată.

    1. RP și RO dau RPO
    2. PO și PM dau POM

    Pasul 5

    Calculați frecvența celor două seturi de articole și veți obține tabelul de frecvență dat.

    Set de articole Frecvență (număr de tranzacții)
    RPO 4
    POM 3

    Dacă implementați ipoteza pragului, vă puteți da seama că setul de trei produse al clienților este RPO.

    python sort tuple

    Am luat în considerare un exemplu ușor de discutat despre algoritmul apriori în data mining. În realitate, găsești mii de astfel de combinații.

    Cum să îmbunătățim eficiența algoritmului Apriori?

    Există diferite metode utilizate pentru eficiența algoritmului Apriori

    Numărarea seturilor de articole bazată pe hash

    În contorizarea setului de articole bazată pe hash, trebuie să excludeți setul de articole k al cărui număr echivalent al găleților de hash este mai mic decât pragul este un set de articole rare.

    Reducerea tranzacțiilor

    În reducerea tranzacțiilor, o tranzacție care nu implică niciun set de articole X frecvent devine nevaloroasă în scanările ulterioare.

    Algoritmul apriori în data mining

    Am discutat deja un exemplu de algoritm apriori legat de generarea frecventă a seturilor de articole. Algoritmul apriori are multe aplicații în data mining.

    Cerințele principale pentru a găsi regulile de asociere în data mining sunt prezentate mai jos.

    Folosește forța brută

    Analizați toate regulile și găsiți nivelurile de sprijin și încredere pentru regula individuală. Ulterior, eliminați valorile care sunt mai mici decât pragul de suport și nivelurile de încredere.

    Abordările în doi pași

    exemplu de în java

    Abordarea în doi pași este o opțiune mai bună pentru a găsi regulile de asociere decât metoda Brute Force.

    Pasul 1

    În acest articol, am discutat deja despre cum să creați tabelul de frecvență și să calculați seturi de articole având o valoare de suport mai mare decât cea a suportului de prag.

    Pasul 2

    Pentru a crea reguli de asociere, trebuie să utilizați o partiție binară a seturilor de articole frecvente. Trebuie să le alegeți pe cele care au cel mai înalt nivel de încredere.

    În exemplul de mai sus, puteți vedea că combinația RPO a fost setul de articole frecvent. Acum, aflăm toate regulile folosind RPO.

    RP-O, RO-P, PO-R, O-RP, P-RO, R-PO

    Puteți vedea că există șase combinații diferite. Prin urmare, dacă aveți n elemente, vor fi 2n- 2 reguli de asociere candidați.

    Avantajele algoritmului apriori

    • Este folosit pentru a calcula seturi mari de articole.
    • Simplu de înțeles și aplicat.

    Dezavantajele algoritmilor apriori

    • Algoritmul apriori este o metodă costisitoare de a găsi suport, deoarece calculul trebuie să treacă prin întreaga bază de date.
    • Uneori, aveți nevoie de un număr mare de reguli candidate, așa că devine mai costisitor din punct de vedere computațional.