logo

Ce este CRISP în Data Mining?

CRISP-DM reprezintă procesul standard interindustrial pentru extragerea datelor. Metodologia CRISP-DM oferă o abordare structurată pentru planificarea unui proiect de data mining. Este o metodologie robustă și bine dovedită. Nu revendim nicio proprietate asupra acestuia. Nu noi l-am inventat. Suntem un convertor al caracterului său practic, flexibilității și utilității puternice atunci când folosim analize pentru a rezolva problemele de afaceri. Este firul de aur care trece prin aproape fiecare întâlnire cu clienții.

Acest model este o succesiune idealizată de evenimente. În practică, multe sarcini pot efectua într-o ordine diferită și va fi adesea necesar să reveniți la sarcinile anterioare și să repetați anumite acțiuni. Modelul nu încearcă să surprindă toate rutele posibile prin procesul de extragere a datelor.

Cum ajută CRISP?

CRISP DM oferă o foaie de parcurs, vă oferă cele mai bune practici și oferă structuri pentru rezultate mai bune și mai rapide ale utilizării minării de date, astfel încât acesta ajută afacerea să urmeze în timp ce planifica și desfășoară un proiect de data mining.

Fazele CRISP-DM

CRISP-DM oferă o imagine de ansamblu asupra ciclului de viață al exploatării datelor ca model de proces. Modelul ciclului de viață cuprinde șase faze, cu săgeți care indică cele mai importante și frecvente dependențe între faze. Secvența fazelor nu este strictă. Și majoritatea proiectelor se deplasează înainte și înapoi între faze, după cum este necesar. Modelul CRISP-DM este flexibil și poate fi personalizat cu ușurință.

De exemplu, dacă organizația dvs. urmărește să detecteze spălarea banilor, probabil veți cerceta cantități mari de date fără un obiectiv specific de modelare. În loc de modelare, munca dumneavoastră se va concentra pe explorarea și vizualizarea datelor pentru a descoperi modele suspecte în datele financiare. CRISP-DM vă permite să creați un model de data mining care se potrivește nevoilor dvs.

Include descrieri ale fazelor tipice ale unui proiect, sarcinile implicate în fiecare fază și o explicație a relațiilor dintre aceste sarcini.

Ce este CRISP în Data Mining

Faza 1: Înțelegerea afacerii

Prima etapă a procesului CRISP-DM este înțelegerea a ceea ce doriți să realizați din perspectiva afacerii. Organizația dvs. poate avea obiective și constrângeri concurente care trebuie echilibrate corespunzător. Această etapă a procesului își propune să descopere factori importanți care influențează rezultatul proiectului. Neglijarea acestui pas poate însemna că se depune mult efort pentru a produce răspunsurile corecte la întrebările greșite.

Care sunt rezultatele dorite ale proiectului?

    Stabiliți obiective:Descrieți obiectivul dvs. principal din perspectiva afacerii. Este posibil să existe și alte întrebări conexe pe care ați dori să le menționați. De exemplu, obiectivul dvs. principal ar putea fi să păstrați clienții actuali, anticipând când sunt predispuși să treacă la un concurent.Realizarea planului de proiect:Descrieți planul pentru atingerea obiectivelor de data mining și de afaceri. Planul ar trebui să specifice pașii de efectuat în timpul restului proiectului, inclusiv selecția inițială a instrumentelor și tehnicilor.Criterii de succes în afaceri:Aici, veți stabili criteriile pe care le veți utiliza pentru a determina dacă proiectul a avut succes din punct de vedere al afacerii. În mod ideal, acestea ar trebui să fie specifice și măsurabile, de exemplu, reducând bataia clienților la un anumit nivel. Cu toate acestea, uneori ar putea fi necesar să existe mai multe criterii subiective, cum ar fi oferirea de informații utile asupra relațiilor.

Evaluați situația actuală

metode string java

Aceasta implică aflarea mai detaliată a faptelor despre resurse, constrângeri, ipoteze și alți factori pe care va trebui să îi luați în considerare atunci când vă determinați obiectivul analizei datelor și planul de proiect.

    Inventarul resurselor:Enumerați resursele disponibile pentru proiect, inclusiv:
    • Personal (experți în afaceri, experți în date, asistență tehnică, experți în data mining)
    • Date (extrase fixe, acces la date live, depozitate sau operaționale)
    • Resurse de calcul (platforme hardware)
    • Software (instrumente de extragere a datelor, alte programe relevante)
    Cerințe, ipoteze și constrângeri:Enumerați toate cerințele proiectului, inclusiv programul de finalizare, înțelegerea și calitatea rezultatelor necesare, precum și orice probleme legate de securitatea datelor și probleme legale. Asigurați-vă că aveți permisiunea de a utiliza datele. Enumerați ipotezele făcute de proiect. Acestea pot fi ipoteze despre datele care pot fi verificate în timpul extragerii de date, dar pot include și ipoteze neverificabile despre afacerea aferentă proiectului. Este important să le enumerați pe acestea din urmă dacă afectează validitatea rezultatelor. Enumerați constrângerile proiectului. Acestea pot fi constrângeri privind disponibilitatea resurselor, dar pot include și constrângeri tehnologice, cum ar fi dimensiunea setului de date pe care este practic să îl utilizați pentru modelare.Riscuri și neprevăzute:Enumerați riscurile sau evenimentele care ar putea întârzia proiectul sau ar putea duce la eșecul acestuia. Enumerați planurile de urgență corespunzătoare, cum ar fi ce măsuri veți lua dacă aceste riscuri sau evenimente au loc?Terminologie:Alcătuiește un glosar de terminologie relevantă pentru proiect. Acesta va avea, în general, două componente:
    • Un glosar al terminologiei relevante de afaceri face parte din înțelegerea de afaceri disponibilă pentru proiect. Construirea acestui glosar este un exercițiu util de „obținere a cunoștințelor” și educație.
    • Un glosar de terminologie de data mining este ilustrat cu exemple relevante pentru problema afacerii.
    Costuri si beneficii:Realizați o analiză cost-beneficiu pentru proiect, care să compare costurile proiectului cu beneficiile potențiale pentru afacere, dacă are succes. Această comparație ar trebui să fie cât se poate de specifică. De exemplu, ar trebui să utilizați măsuri financiare într-o situație comercială.

Determinați obiectivele de extragere a datelor

Un scop de afaceri stabilește obiectivele în terminologia de afaceri. Un obiectiv de data mining afirmă obiectivele proiectului în termeni tehnici. De exemplu, obiectivul comercial ar putea fi Creșterea vânzărilor de catalog către clienții existenți. Un obiectiv de data mining ar putea fi acela de a prezice câte widget-uri va cumpăra un client, având în vedere achizițiile efectuate în ultimii trei ani, informațiile demografice (vârstă, salariu, oraș etc.) și prețul articolului.

    Criterii de succes în afaceri:Descrie rezultatele dorite ale proiectului care permit atingerea obiectivelor de afaceri.Criterii de succes a extragerii de date:Acesta definește criteriile pentru un rezultat de succes al proiectului. De exemplu, un anumit nivel de precizie predictivă sau un profil de înclinație spre cumpărare cu un anumit grad de „creștere”. Ca și în cazul criteriilor de succes în afaceri, poate fi necesar să le descriem în termeni subiectivi, caz în care trebuie identificată persoana sau persoanele care fac judecata subiectivă.

Realizarea planului de proiect

Descrieți planul prevăzut pentru atingerea obiectivelor de data mining și a obiectivelor de afaceri. Planul dvs. ar trebui să specifice pașii de efectuat în timpul restului proiectului, inclusiv selecția inițială a instrumentelor și tehnicilor.

parcurgerea în ordine a arborelui binar

1. Planul proiectului: Enumerați etapele care urmează să fie executate în proiect, cu durata, resursele necesare, intrările, ieșirile și dependențele acestora. Acolo unde este posibil, încercați să explicitați iterațiile pe scară largă în procesul de extragere a datelor, de exemplu, repetări ale fazelor de modelare și evaluare.

Ca parte a planului de proiect, este important să se analizeze dependențele dintre orare și riscuri. Marcați rezultatele acestor analize în mod explicit în planul proiectului, ideal cu acțiuni și recomandări dacă riscurile se manifestă. Decideți ce strategie de evaluare va fi utilizată în faza de evaluare.

Planul dvs. de proiect va fi un document dinamic. La sfârșitul fiecărei etape, veți revizui progresul și realizările și veți actualiza planul de proiect în consecință. Punctele de revizuire specifice pentru aceste actualizări ar trebui să facă parte din planul proiectului.

2. Evaluarea inițială a instrumentelor și tehnicilor: La sfârșitul primei faze, ar trebui să efectuați o evaluare inițială a instrumentelor și tehnicilor. De exemplu, selectați un instrument de extragere a datelor care acceptă diferite metode pentru diferite etape ale procesului. Este important să se evalueze instrumentele și tehnicile la începutul procesului, deoarece selecția instrumentelor și tehnicilor poate influența întregul proiect.

Faza 2: Înțelegerea datelor

A doua fază a procesului CRISP-DM necesită achiziționarea datelor enumerate în resursele proiectului. Această colecție inițială include încărcarea datelor dacă acest lucru este necesar pentru înțelegerea datelor. De exemplu, dacă utilizați un instrument specific pentru înțelegerea datelor, este perfect logic să vă încărcați datele în acest instrument. Dacă achiziționați mai multe surse de date, trebuie să vă gândiți cum și când le veți integra.

    Raport inițial de colectare a datelor:Enumerați sursele de date achiziționate, locațiile acestora, metodele utilizate pentru a le achiziționa și orice probleme întâmpinate. Înregistrați problemele pe care le-ați întâlnit și orice rezoluție obținută. Acest lucru va ajuta la replicarea viitoare a acestui proiect și la executarea unor proiecte similare viitoare.

Descrieți datele

Examinați proprietățile „brute” sau „de suprafață” ale datelor obținute și raportați rezultatele.

    Raport de descriere a datelor:Descrieți datele care au fost achiziționate, inclusiv formatul, cantitatea, identitățile câmpurilor și orice alte caracteristici de suprafață care au fost descoperite. Evaluați dacă datele obținute satisfac cerințele dvs.

Explorați datele

În această etapă, veți aborda întrebări de data mining folosind tehnici de interogare, vizualizare a datelor și raportare. Acestea pot include:

  • Distribuția atributelor cheie
  • Relații între perechi sau un număr mic de atribute
  • Rezultate ale agregărilor simple
  • Proprietățile subpopulațiilor semnificative
  • Analize statistice simple

Aceste analize se pot adresa direct obiectivelor dvs. de data mining. Aceștia pot contribui la sau perfecționa descrierea datelor și rapoartele de calitate și pot contribui la transformarea și la alte etape de pregătire a datelor necesare pentru o analiză ulterioară.

    Raport de explorare a datelor:Descrieți rezultatele explorării datelor dvs., inclusiv primele constatări sau ipoteza inițială și impactul acestora asupra restului proiectului. Dacă este cazul, puteți include aici grafice și diagrame pentru a indica caracteristicile datelor care sugerează o examinare suplimentară a subseturi de date interesante.

Verificați calitatea datelor

Examinați calitatea datelor, abordând întrebări precum:

  • Datele sunt complete sau acoperă toate cazurile necesare?
  • Este corect sau conține erori și, dacă există erori, cât de frecvente sunt acestea?
  • Lipsesc valori în date? Dacă da, cum sunt ele reprezentate, unde apar și cât de comune sunt?

Raport de calitate a datelor

Listați rezultatele verificării calității datelor. Dacă există probleme de calitate, sugerați soluții posibile. Soluțiile la problemele legate de calitatea datelor depind, în general, în mare măsură de date și de cunoștințele de afaceri.

Faza 3: Pregătirea datelor

În această fază a proiectului, decideți asupra datelor pe care le veți folosi pentru analiză. Criteriile pe care le puteți utiliza pentru a lua această decizie includ relevanța datelor pentru obiectivele dvs. de extragere a datelor, calitatea datelor și constrângerile tehnice, cum ar fi limitele privind volumul de date sau tipurile de date.

    Motivul includerii/excluderii:Enumerați datele care trebuie incluse/excluse și motivele acestor decizii.

Curățați-vă datele

Această sarcină implică creșterea calității datelor la nivelul cerut de tehnicile de analiză pe care le-ați selectat. Aceasta poate implica selectarea unor subseturi curate de date, inserarea de valori implicite adecvate sau tehnici mai ambițioase, cum ar fi estimarea datelor lipsă prin modelare.

    Raport de curățare a datelor:Descrieți ce decizii și acțiuni ați luat pentru a rezolva problemele de calitate a datelor. Luați în considerare orice transformări ale datelor făcute în scopuri de curățare și impactul lor posibil asupra rezultatelor analizei.

Construiți datele necesare

entitate relaţională

Această sarcină include operațiuni constructive de pregătire a datelor, cum ar fi producerea de atribute derivate, înregistrări întregi noi sau valori transformate pentru atributele existente.

    Atribute derivate:Acestea sunt atribute noi construite din unul sau mai multe atribute existente în aceeași înregistrare. De exemplu, puteți utiliza variabilele de lungime și lățime pentru a calcula o nouă variabilă de suprafață.Înregistrări generate:Aici, descrieți crearea oricăror înregistrări complet noi. De exemplu, poate fi necesar să creați înregistrări pentru clienții care nu au cumpărat în ultimul an. Nu exista niciun motiv pentru a avea astfel de înregistrări în datele brute. Totuși, ar putea avea sens să reprezinte că anumiți clienți au făcut în mod explicit zero achiziții în scopuri de modelare.

Integrați datele

Aceste metode combină informații din mai multe baze de date, tabele sau înregistrări pentru a crea noi înregistrări sau valori.

converti str în int
    Date îmbinate:Îmbinarea tabelelor se referă la unirea a două sau mai multe tabele cu informații diferite despre aceleași obiecte. De exemplu, un lanț de vânzări cu amănuntul poate avea un tabel cu informații despre caracteristicile generale ale fiecărui magazin (de exemplu, suprafața, tipul de mall), un alt tabel cu date rezumate privind vânzările (de exemplu, profitul, modificarea procentuală a vânzărilor față de anul precedent) și altul cu informații despre demografia zonei înconjurătoare. Fiecare dintre aceste tabele conține o înregistrare pentru fiecare magazin. Aceste tabele pot fi îmbinate într-un tabel nou cu o înregistrare pentru fiecare magazin, combinând câmpuri din tabelele sursă.Agregații:Agregările sunt operațiuni în care noile valori sunt calculate prin rezumarea informațiilor din mai multe înregistrări sau tabele. De exemplu, conversia unui tabel de achiziții ale clienților în care o înregistrare pentru fiecare achiziție într-un tabel nou și o înregistrare pentru fiecare client, cu câmpuri precum numărul de achiziții, suma medie a achiziției, procentul comenzilor debitate cu cardul de credit, procentul articolelor sub promovare etc.

Faza 4: Modelare

Selectați tehnica de modelare: ca prim pas, veți selecta tehnica de bază de modelare pe care o veți folosi. Deși este posibil să fi selectat deja un instrument în timpul fazei de înțelegere a afacerii, în această etapă, veți selecta tehnica specifică de modelare, de ex. construirea arborelui de decizie cu C5.0 sau generarea rețelei neuronale cu propagare inversă. Dacă se aplică mai multe tehnici, efectuați această sarcină separat pentru fiecare tehnică.

    Tehnica modelării:Documentați tehnica de bază de modelare care urmează să fie utilizată.Ipoteze de modelare:Multe tehnici de modelare fac presupuneri specifice despre date, de exemplu, că toate atributele au distribuții uniforme, nu sunt permise valori lipsă, atributul de clasă trebuie să fie simbolic etc. Înregistrați orice ipoteză făcută.

Generați designul de testare

Înainte de a construi un model, trebuie să generați o procedură sau un mecanism pentru a testa calitatea și validitatea modelului. De exemplu, în sarcinile de extragere a datelor supravegheate, cum ar fi clasificarea, este obișnuit să se utilizeze ratele de eroare ca măsuri de calitate pentru modelele de extragere a datelor. Prin urmare, de obicei, separați setul de date în seturi de tren și de testare, construiți modelul pe setul de tren și estimați calitatea acestuia pe setul de testare separat.

    Design de testare:Descrieți planul prevăzut pentru instruire, testare și evaluare a modelelor. O componentă principală a planului este determinarea modului de împărțire a setului de date disponibil în seturi de date de instruire, testare și validare.

Construiește modelul

Rulați instrumentul de modelare pe setul de date pregătit pentru a crea unul sau mai multe modele.

    Setări parametri:Cu orice instrument de modelare, există adesea un număr mare de parametri care pot fi ajustați. Enumerați parametrii, valorile acestora și motivele pentru selectarea setărilor parametrilor.Modele:Acestea sunt modelele produse de instrumentul de modelare, nu un raport asupra modelelor.Descrierea modelului:Descrieți modelele rezultate, raportați despre interpretarea modelelor și documentați orice dificultăți întâmpinate cu semnificațiile acestora.

Evaluează modelul

Interpretați modelele în funcție de cunoștințele dvs. de domeniu, criteriile de succes ale extragerii de date și designul de testare dorit. Evaluați succesul aplicării tehnicilor de modelare și descoperire, apoi contactați analiștii de afaceri și experții de domeniu mai târziu pentru a discuta rezultatele extragerii de date în contextul afacerii. Această sarcină ia în considerare doar modele, în timp ce faza de evaluare ia în considerare și toate celelalte rezultate produse în timpul proiectului.

În această etapă, ar trebui să clasați modelele și să le evaluați în funcție de criteriile de evaluare. Ar trebui să luați în considerare obiectivele de afaceri și criteriile de succes pe cât puteți aici. În majoritatea proiectelor de data mining, o singură tehnică este aplicată de mai multe ori, iar rezultatele de data mining sunt generate cu mai multe tehnici diferite.

    Evaluarea modelului:Rezumă rezultatele acestei sarcini, enumerați calitățile modelelor generate de dvs. (de exemplu, în ceea ce privește acuratețea) și clasificați calitatea acestora între ele.Setări ale parametrilor revizuite:Conform evaluării modelului, revizuiți-le și reglați-le pentru următoarea serie de modelare. Repetați construirea și evaluarea modelului până când credeți cu tărie că ați găsit cel mai bun model(e). Documentați toate aceste revizuiri și evaluări.

Faza 5: Evaluare

Evaluați-vă rezultatele: pașii anteriori de evaluare au tratat factori precum acuratețea și generalitatea modelului. În timpul acestui pas, veți evalua gradul în care modelul îndeplinește obiectivele dvs. de afaceri și veți căuta să determinați dacă există vreun motiv de afaceri pentru care acest model este deficitar. O altă opțiune este testarea modelului pe aplicații de testare în aplicația reală, dacă constrângerile de timp și buget o permit. Faza de evaluare implică, de asemenea, evaluarea oricăror alte rezultate de data mining pe care le-ați generat. Rezultatele extragerii de date implică modele care sunt în mod necesar legate de obiectivele de afaceri inițiale și toate celelalte constatări care nu sunt neapărat legate de obiectivele de afaceri inițiale, dar ar putea, de asemenea, să dezvăluie provocări suplimentare, informații sau indicii pentru direcții viitoare.

    Evaluarea rezultatelor data mining:Rezumați rezultatele evaluării în criteriile de succes în afaceri, inclusiv o declarație finală privind dacă proiectul îndeplinește deja obiectivele de afaceri inițiale.Modele aprobate:După evaluarea modelelor la criteriile de succes în afaceri, modelele generate care îndeplinesc criteriile selectate devin modelele aprobate.

Procesul de revizuire

În acest moment, modelele rezultate par a fi satisfăcătoare și satisfac nevoile afacerii. Acum este potrivit să faceți o revizuire mai amănunțită a angajamentului de data mining pentru a determina dacă există un factor sau o sarcină importantă care a fost cumva trecut cu vederea. Această revizuire acoperă, de asemenea, aspecte legate de asigurarea calității. De exemplu: am construit corect modelul? Am folosit doar atributele pe care avem voie să le folosim și care sunt disponibile pentru analize viitoare?

    Revizuirea procesului:Rezumați revizuirea procesului și evidențiați activitățile care au fost ratate și cele care ar trebui repetate.

Stabiliți pașii următori

Acum decideți cum să procedați în funcție de rezultatele evaluării și de revizuirea procesului. Terminați acest proiect și treceți la implementare, inițiați iterații ulterioare sau configurați noi proiecte de data mining? De asemenea, ar trebui să faceți un bilanț al resurselor și bugetului rămas, care vă pot influența deciziile.

    Lista acțiunilor posibile:Enumerați eventualele acțiuni ulterioare și motivele pentru și împotriva fiecărei opțiuni.Decizie:Descrieți decizia cu privire la modul de a proceda, împreună cu raționamentul.

Faza 6: Implementare

Planificați implementarea: în etapa de implementare, veți lua rezultatele evaluării și veți determina o strategie pentru implementarea acestora. Dacă a fost identificată o procedură generală pentru a crea modelul(ele) relevante, această procedură este documentată aici pentru implementare ulterioară. Este logic să luăm în considerare modalitățile și mijloacele de implementare în timpul fazei de înțelegere a afacerii, deoarece implementarea este crucială pentru succesul proiectului. Aici analiza predictivă ajută la îmbunătățirea laturii operaționale a afacerii dvs.

    Plan de implementare:Rezumați strategia dvs. de implementare, inclusiv pașii necesari și cum să le efectuați.

Planifică monitorizarea și întreținerea

Monitorizarea și întreținerea sunt probleme importante dacă rezultatul extragerii de date devine parte din afacerea de zi cu zi și din mediul său. Pregătirea atentă a unei strategii de întreținere ajută la evitarea perioadelor inutil de lungi de utilizare incorectă a rezultatelor extragerii de date. Proiectul are nevoie de un plan detaliat al procesului de monitorizare pentru a monitoriza implementarea rezultatului/rezultatelor extragerii de date. Acest plan ia în considerare tipul specific de implementare.

    Plan de monitorizare si intretinere:Rezumați strategia de monitorizare și întreținere, inclusiv pașii necesari și modul de realizare a acestora.

Realizarea raportului final

La finalul proiectului, veți redacta un raport final. În funcție de planul de implementare, acest raport poate fi doar un rezumat al proiectului și al experiențelor acestuia (dacă nu au fost deja documentate ca activitate în derulare), sau poate fi o prezentare finală și cuprinzătoare a rezultatului extragerii de date.

    Raport final:Acesta este raportul final scris al angajamentului de data mining. Include toate livrabilele anterioare, rezumând și organizând rezultatele.Prezentarea finala:Va exista adesea o întâlnire după proiect la care rezultatele sunt prezentate clientului.

Revizuirea proiectului

powershell mai mare sau egal

Evaluează ce a mers bine și ce a mers rău, ce a fost făcut bine și ce trebuie îmbunătățit.

    Documentație de experiență:Rezumați experiența importantă acumulată în timpul proiectului. De exemplu, această documentație ar putea include orice capcane pe care le-ați întâlnit, abordări înșelătoare sau indicii pentru selectarea celor mai potrivite tehnici de extragere a datelor în situații similare. În proiectele ideale, documentația privind experiența acoperă și orice rapoarte pe care membrii individuali ai proiectului le-au scris în fazele anterioare ale proiectului.