CRISP-DM reprezintă procesul standard interindustrial pentru extragerea datelor. Metodologia CRISP-DM oferă o abordare structurată pentru planificarea unui proiect de data mining. Este o metodologie robustă și bine dovedită. Nu revendim nicio proprietate asupra acestuia. Nu noi l-am inventat. Suntem un convertor al caracterului său practic, flexibilității și utilității puternice atunci când folosim analize pentru a rezolva problemele de afaceri. Este firul de aur care trece prin aproape fiecare întâlnire cu clienții.
Acest model este o succesiune idealizată de evenimente. În practică, multe sarcini pot efectua într-o ordine diferită și va fi adesea necesar să reveniți la sarcinile anterioare și să repetați anumite acțiuni. Modelul nu încearcă să surprindă toate rutele posibile prin procesul de extragere a datelor.
Cum ajută CRISP?
CRISP DM oferă o foaie de parcurs, vă oferă cele mai bune practici și oferă structuri pentru rezultate mai bune și mai rapide ale utilizării minării de date, astfel încât acesta ajută afacerea să urmeze în timp ce planifica și desfășoară un proiect de data mining.
Fazele CRISP-DM
CRISP-DM oferă o imagine de ansamblu asupra ciclului de viață al exploatării datelor ca model de proces. Modelul ciclului de viață cuprinde șase faze, cu săgeți care indică cele mai importante și frecvente dependențe între faze. Secvența fazelor nu este strictă. Și majoritatea proiectelor se deplasează înainte și înapoi între faze, după cum este necesar. Modelul CRISP-DM este flexibil și poate fi personalizat cu ușurință.
De exemplu, dacă organizația dvs. urmărește să detecteze spălarea banilor, probabil veți cerceta cantități mari de date fără un obiectiv specific de modelare. În loc de modelare, munca dumneavoastră se va concentra pe explorarea și vizualizarea datelor pentru a descoperi modele suspecte în datele financiare. CRISP-DM vă permite să creați un model de data mining care se potrivește nevoilor dvs.
Include descrieri ale fazelor tipice ale unui proiect, sarcinile implicate în fiecare fază și o explicație a relațiilor dintre aceste sarcini.
Faza 1: Înțelegerea afacerii
Prima etapă a procesului CRISP-DM este înțelegerea a ceea ce doriți să realizați din perspectiva afacerii. Organizația dvs. poate avea obiective și constrângeri concurente care trebuie echilibrate corespunzător. Această etapă a procesului își propune să descopere factori importanți care influențează rezultatul proiectului. Neglijarea acestui pas poate însemna că se depune mult efort pentru a produce răspunsurile corecte la întrebările greșite.
Care sunt rezultatele dorite ale proiectului?
Evaluați situația actuală
metode string java
Aceasta implică aflarea mai detaliată a faptelor despre resurse, constrângeri, ipoteze și alți factori pe care va trebui să îi luați în considerare atunci când vă determinați obiectivul analizei datelor și planul de proiect.
- Personal (experți în afaceri, experți în date, asistență tehnică, experți în data mining)
- Date (extrase fixe, acces la date live, depozitate sau operaționale)
- Resurse de calcul (platforme hardware)
- Software (instrumente de extragere a datelor, alte programe relevante)
- Un glosar al terminologiei relevante de afaceri face parte din înțelegerea de afaceri disponibilă pentru proiect. Construirea acestui glosar este un exercițiu util de „obținere a cunoștințelor” și educație.
- Un glosar de terminologie de data mining este ilustrat cu exemple relevante pentru problema afacerii.
Determinați obiectivele de extragere a datelor
Un scop de afaceri stabilește obiectivele în terminologia de afaceri. Un obiectiv de data mining afirmă obiectivele proiectului în termeni tehnici. De exemplu, obiectivul comercial ar putea fi Creșterea vânzărilor de catalog către clienții existenți. Un obiectiv de data mining ar putea fi acela de a prezice câte widget-uri va cumpăra un client, având în vedere achizițiile efectuate în ultimii trei ani, informațiile demografice (vârstă, salariu, oraș etc.) și prețul articolului.
Realizarea planului de proiect
Descrieți planul prevăzut pentru atingerea obiectivelor de data mining și a obiectivelor de afaceri. Planul dvs. ar trebui să specifice pașii de efectuat în timpul restului proiectului, inclusiv selecția inițială a instrumentelor și tehnicilor.
parcurgerea în ordine a arborelui binar
1. Planul proiectului: Enumerați etapele care urmează să fie executate în proiect, cu durata, resursele necesare, intrările, ieșirile și dependențele acestora. Acolo unde este posibil, încercați să explicitați iterațiile pe scară largă în procesul de extragere a datelor, de exemplu, repetări ale fazelor de modelare și evaluare.
Ca parte a planului de proiect, este important să se analizeze dependențele dintre orare și riscuri. Marcați rezultatele acestor analize în mod explicit în planul proiectului, ideal cu acțiuni și recomandări dacă riscurile se manifestă. Decideți ce strategie de evaluare va fi utilizată în faza de evaluare.
Planul dvs. de proiect va fi un document dinamic. La sfârșitul fiecărei etape, veți revizui progresul și realizările și veți actualiza planul de proiect în consecință. Punctele de revizuire specifice pentru aceste actualizări ar trebui să facă parte din planul proiectului.
2. Evaluarea inițială a instrumentelor și tehnicilor: La sfârșitul primei faze, ar trebui să efectuați o evaluare inițială a instrumentelor și tehnicilor. De exemplu, selectați un instrument de extragere a datelor care acceptă diferite metode pentru diferite etape ale procesului. Este important să se evalueze instrumentele și tehnicile la începutul procesului, deoarece selecția instrumentelor și tehnicilor poate influența întregul proiect.
Faza 2: Înțelegerea datelor
A doua fază a procesului CRISP-DM necesită achiziționarea datelor enumerate în resursele proiectului. Această colecție inițială include încărcarea datelor dacă acest lucru este necesar pentru înțelegerea datelor. De exemplu, dacă utilizați un instrument specific pentru înțelegerea datelor, este perfect logic să vă încărcați datele în acest instrument. Dacă achiziționați mai multe surse de date, trebuie să vă gândiți cum și când le veți integra.
Descrieți datele
Examinați proprietățile „brute” sau „de suprafață” ale datelor obținute și raportați rezultatele.
Explorați datele
În această etapă, veți aborda întrebări de data mining folosind tehnici de interogare, vizualizare a datelor și raportare. Acestea pot include:
- Distribuția atributelor cheie
- Relații între perechi sau un număr mic de atribute
- Rezultate ale agregărilor simple
- Proprietățile subpopulațiilor semnificative
- Analize statistice simple
Aceste analize se pot adresa direct obiectivelor dvs. de data mining. Aceștia pot contribui la sau perfecționa descrierea datelor și rapoartele de calitate și pot contribui la transformarea și la alte etape de pregătire a datelor necesare pentru o analiză ulterioară.
Verificați calitatea datelor
Examinați calitatea datelor, abordând întrebări precum:
- Datele sunt complete sau acoperă toate cazurile necesare?
- Este corect sau conține erori și, dacă există erori, cât de frecvente sunt acestea?
- Lipsesc valori în date? Dacă da, cum sunt ele reprezentate, unde apar și cât de comune sunt?
Raport de calitate a datelor
Listați rezultatele verificării calității datelor. Dacă există probleme de calitate, sugerați soluții posibile. Soluțiile la problemele legate de calitatea datelor depind, în general, în mare măsură de date și de cunoștințele de afaceri.
Faza 3: Pregătirea datelor
În această fază a proiectului, decideți asupra datelor pe care le veți folosi pentru analiză. Criteriile pe care le puteți utiliza pentru a lua această decizie includ relevanța datelor pentru obiectivele dvs. de extragere a datelor, calitatea datelor și constrângerile tehnice, cum ar fi limitele privind volumul de date sau tipurile de date.
Curățați-vă datele
Această sarcină implică creșterea calității datelor la nivelul cerut de tehnicile de analiză pe care le-ați selectat. Aceasta poate implica selectarea unor subseturi curate de date, inserarea de valori implicite adecvate sau tehnici mai ambițioase, cum ar fi estimarea datelor lipsă prin modelare.
Construiți datele necesare
entitate relaţională
Această sarcină include operațiuni constructive de pregătire a datelor, cum ar fi producerea de atribute derivate, înregistrări întregi noi sau valori transformate pentru atributele existente.
Integrați datele
Aceste metode combină informații din mai multe baze de date, tabele sau înregistrări pentru a crea noi înregistrări sau valori.
converti str în int
Faza 4: Modelare
Selectați tehnica de modelare: ca prim pas, veți selecta tehnica de bază de modelare pe care o veți folosi. Deși este posibil să fi selectat deja un instrument în timpul fazei de înțelegere a afacerii, în această etapă, veți selecta tehnica specifică de modelare, de ex. construirea arborelui de decizie cu C5.0 sau generarea rețelei neuronale cu propagare inversă. Dacă se aplică mai multe tehnici, efectuați această sarcină separat pentru fiecare tehnică.
Generați designul de testare
Înainte de a construi un model, trebuie să generați o procedură sau un mecanism pentru a testa calitatea și validitatea modelului. De exemplu, în sarcinile de extragere a datelor supravegheate, cum ar fi clasificarea, este obișnuit să se utilizeze ratele de eroare ca măsuri de calitate pentru modelele de extragere a datelor. Prin urmare, de obicei, separați setul de date în seturi de tren și de testare, construiți modelul pe setul de tren și estimați calitatea acestuia pe setul de testare separat.
Construiește modelul
Rulați instrumentul de modelare pe setul de date pregătit pentru a crea unul sau mai multe modele.
Evaluează modelul
Interpretați modelele în funcție de cunoștințele dvs. de domeniu, criteriile de succes ale extragerii de date și designul de testare dorit. Evaluați succesul aplicării tehnicilor de modelare și descoperire, apoi contactați analiștii de afaceri și experții de domeniu mai târziu pentru a discuta rezultatele extragerii de date în contextul afacerii. Această sarcină ia în considerare doar modele, în timp ce faza de evaluare ia în considerare și toate celelalte rezultate produse în timpul proiectului.
În această etapă, ar trebui să clasați modelele și să le evaluați în funcție de criteriile de evaluare. Ar trebui să luați în considerare obiectivele de afaceri și criteriile de succes pe cât puteți aici. În majoritatea proiectelor de data mining, o singură tehnică este aplicată de mai multe ori, iar rezultatele de data mining sunt generate cu mai multe tehnici diferite.
Faza 5: Evaluare
Evaluați-vă rezultatele: pașii anteriori de evaluare au tratat factori precum acuratețea și generalitatea modelului. În timpul acestui pas, veți evalua gradul în care modelul îndeplinește obiectivele dvs. de afaceri și veți căuta să determinați dacă există vreun motiv de afaceri pentru care acest model este deficitar. O altă opțiune este testarea modelului pe aplicații de testare în aplicația reală, dacă constrângerile de timp și buget o permit. Faza de evaluare implică, de asemenea, evaluarea oricăror alte rezultate de data mining pe care le-ați generat. Rezultatele extragerii de date implică modele care sunt în mod necesar legate de obiectivele de afaceri inițiale și toate celelalte constatări care nu sunt neapărat legate de obiectivele de afaceri inițiale, dar ar putea, de asemenea, să dezvăluie provocări suplimentare, informații sau indicii pentru direcții viitoare.
Procesul de revizuire
În acest moment, modelele rezultate par a fi satisfăcătoare și satisfac nevoile afacerii. Acum este potrivit să faceți o revizuire mai amănunțită a angajamentului de data mining pentru a determina dacă există un factor sau o sarcină importantă care a fost cumva trecut cu vederea. Această revizuire acoperă, de asemenea, aspecte legate de asigurarea calității. De exemplu: am construit corect modelul? Am folosit doar atributele pe care avem voie să le folosim și care sunt disponibile pentru analize viitoare?
Stabiliți pașii următori
Acum decideți cum să procedați în funcție de rezultatele evaluării și de revizuirea procesului. Terminați acest proiect și treceți la implementare, inițiați iterații ulterioare sau configurați noi proiecte de data mining? De asemenea, ar trebui să faceți un bilanț al resurselor și bugetului rămas, care vă pot influența deciziile.
Faza 6: Implementare
Planificați implementarea: în etapa de implementare, veți lua rezultatele evaluării și veți determina o strategie pentru implementarea acestora. Dacă a fost identificată o procedură generală pentru a crea modelul(ele) relevante, această procedură este documentată aici pentru implementare ulterioară. Este logic să luăm în considerare modalitățile și mijloacele de implementare în timpul fazei de înțelegere a afacerii, deoarece implementarea este crucială pentru succesul proiectului. Aici analiza predictivă ajută la îmbunătățirea laturii operaționale a afacerii dvs.
Planifică monitorizarea și întreținerea
Monitorizarea și întreținerea sunt probleme importante dacă rezultatul extragerii de date devine parte din afacerea de zi cu zi și din mediul său. Pregătirea atentă a unei strategii de întreținere ajută la evitarea perioadelor inutil de lungi de utilizare incorectă a rezultatelor extragerii de date. Proiectul are nevoie de un plan detaliat al procesului de monitorizare pentru a monitoriza implementarea rezultatului/rezultatelor extragerii de date. Acest plan ia în considerare tipul specific de implementare.
Realizarea raportului final
La finalul proiectului, veți redacta un raport final. În funcție de planul de implementare, acest raport poate fi doar un rezumat al proiectului și al experiențelor acestuia (dacă nu au fost deja documentate ca activitate în derulare), sau poate fi o prezentare finală și cuprinzătoare a rezultatului extragerii de date.
Revizuirea proiectului
powershell mai mare sau egal
Evaluează ce a mers bine și ce a mers rău, ce a fost făcut bine și ce trebuie îmbunătățit.