domenica 16 maggio 2010

DIFFERENZE TRA REPORTING E MINING

MINING E REPORTING

Generalmente, quando la gente parla di data mining si focalizza principalmente sugli aspetti di “mining” e di scoperta. Il mining dei dati, tuttavia, è solo una delle diversi fasi in cui si articola il processo globale (iterattivo e “multi-step”) di data mining. A guidare l’intero processo sono gli obiettivi di business: essi costituiscono la base su cui viene costruito il nuovo progetto, i parametri con cui vengono valutati i risultati finali e devono essere un costante riferimento per il team durantele varie fasi di sviluppo.
I 5 steps sequenziali sono:
  1. Business Objectives Determination: definizione chiara del problema di business o della sfida che l’azienda si pone;
  2. Data Preparation:

    2.1 Data Selection: identificazione di tutte le fonti di informazione (interne o esterne) e selezione di quel sottoinsieme di dati necessario per l’applicazione di data mining;
    2.2 Data Preprocessing: studio sulla qualità dei dati, indirizza la futura analisi determinando il tipo di operazioni di mining che è possibile effettuare;
    2.3 Data Transformation: trasformazione dei dati in un modello analitico. I dati vengono modellati in modo da essere conformi ai formati richiesti dagli algoritmi di data mining e poter così effettuare le analisi precedentemente scelte;

  3. Data Mining: mining dei dati trasformati. E’ il cuore del processo, ma, a parte la scelta della combinazione di algoritmi più appropriata, viene svolto in modo completamente automatico;
  4. Analysis of Results: interpretazione e valutazione dell’output dello step 3. L’approccio all’analisi può variare in funzione dell’operazione di data mining effettuata, ma chiama generalmente in causa qualche tecnica di visualizzazione;
  5. Assimilation of Knowledge: incorporazione, all’interno dell’azienda e del suo sistema informativo, delle conoscenze acquisite. L’obiettivo del Data Mining è chiaramente quello di applicare gli algoritmi di data mining selezionati ai dati preprocessati.
Nonostante, in questo generico processo, la fase di data mining sia rappresentata come indipendente, nella realtà essa è praticamente inscindibile dall'analisi dei risultati, così come è molto raro che essa possa essere ultimata senza tornare, almeno una volta, alla fase precedente di preparazione dei dati. Ciò che accade durante questa fase varia notevolmente in base al tipo di applicazione che si sta sviluppando: nel caso della segmentazione di un database possono essere più che sufficienti uno o due “passaggi” degli algoritmi sui dati. Situazione ben diversa si ha quando si sviluppa un modello predittivo: il training può richiedere infatti decine e decine di “passaggi”. E’ inutile sottolineare come l’Analisi Dei Risultati del mining sia uno degli steps più importanti dell’intero processo.
Il suo obiettivo è quello di rispondere alla domanda: “abbiamo trovato qualcosa di interessante, valido ed utilizzabile?”. Mentre le tecniche statistiche si limiterebbero ad un secco “sì/no”, i risultati del data mining sono in grado di suggerire la risposta o, nella peggiore delle ipotesi, indicare la direzione da intraprendere in una successiva ricerca. Nel momento in cui viene sviluppato un modello predittivo, uno degli obiettivi cruciali è quello di testare la sua accuratezza. Molti strumenti di data mining forniscono un grosso aiuto in questo senso, con le “confusion matrixes” (che indicano quanto sono giuste le predizioni sulla base di risultati già noti) e l’”input sensitivity analysis” (che misura l’importanza relativa attribuita a ciascuna variabile in input).Una delle più comuni fonti di errore, nella costruzione di un modello predittivo, è la scelta di variabili troppo predittive. Un’altra difficoltà è data dall’overtraining: il modello predice bene sui dati utilizzati per il training, ma male su quelli reali. Da tenere in considerazione vi sono poi le cosiddette “association rules”: se il livello di confidenza è troppo basso, il modello predittivo individua regole che regole non sono. Viceversa, se il livello è troppo alto, vengono individuate soltanto le regole più generali, già conosciute dagli addetti ai lavori. Il ciclo viene chiuso con uno step altamente legato al precedente, l'assimilazione della conoscenza, che ha lo scopo di trasformare in azione le nuove informazioni individuate. Le sfide principali da affrontare in questo contesto sono due: presentare le nuove scoperte in maniera convincente e business-oriented; elaborare i modi in cui le nuove informazioni possono essere sfruttate al meglio.
Siamo abituati a pensare alle tabelle di excel come elementi statici che permettono di incrociare due dati rappresentati dall ' intestazione di colonna e riga .Ma in realtà esiste un altro tipo di tabelle chiamata PIVOT in cui i campi possono anche essere ruotati ,combinati e incrociati più volte per ottenere informazioni precise e dettagliate .
Permette all'utente di gestire le differenti dimensioni

Nessun commento:

Posta un commento