martedì 18 maggio 2010

OLAP SLICE E DICE IPERCUBI DIMENSION MEASURE

OLAP( on line analytil processing) è una metodologia che forniscegli utenti finali l'accesso a un gigantesco ammontare di dati in modo intuitivo e rapido, e che li assiste nei ragionamenti investigativi su base deduttiva .
I sistemi OLAP servono a

  • permettono di eseguire operazioni non previste nella progettazione del DB ( sistemi di supporto alle decisoni)
  • operano su grosse moli di dati
  • i dati sono "statici "
  • operano su dati provenienti da più fonti eterogenee
  • supportare analisi complesse a fronte di una grande quantità di dati in ingresso (a livello atomico)

Una struttura OLAP, in pratica, raccchiude un insieme di tecniche software per l'analisi interattiva e veloce di grandi quantità di dati, che è possibile esaminare in modalità piuttosto complesse ed è proprio per questo che essa viene chiamata "cubo" multidimensionale. Ci sono diversi modi per creare un cubo, ma il più conosciuto è quello che utilizza uno schema "a stella": al centro c’è la tabella dei "fatti" che elenca i principali elementi su cui sarà costruita l’interrogazione e collegate a questa tabella ci sono varie tabelle delle "dimensioni" che specificano come saranno aggregati i dati.
Per esempio, un archivio clienti può essere raggruppato per città, provincia, regione; questi clienti possono essere relazionati con i prodotti ed ogni prodotto può essere raggruppato per categoria.
Il calcolo delle possibili combinazioni di queste aggregazioni forma una struttura OLAP che, potenzialmente, potrebbe contenere tutte le risposte per ogni singola combinazione.

In realtà, viene memorizzato solo un numero predeterminato di combinazioni, mentre le rimanenti vengono ricalcolate solo al momento in cui quella richiesta viene materialmente effettuata.Gli strumenti OLAP hanno come obiettivo la performance nella ricerca e il raggiungimento di un'ampiezza di interrogazione quanto più grande possibile.Eseguendo successivamente delle interrogazioni sui dati strutturati in questa maniera è possibile ottenere risposte in tempi decisamente ridotti rispetto alle stesse operazioni effettuate su altre tipologie di database.

Le funzioni di base di uno strumento OLAP sono:Slice & Dice.

Funzionalità che consente di ristrutturare le informazioni in modo da renderne più efficace la visualizzazione: creazione di master-detail e rotazione degli assi delle rappresentazioni a matrice. Roll-up (drill- up). Esegue aggregazioni delle misure per riduzione di dimensioni o per generalizzazione dei valori nella gerarchia.
Drill Down. Tecnica usata nell'ambito del data mining per condurre analisi multidimensionali. Essa rappresenta, infatti, la capacità di penetrare nei dati a diversi livelli di gerarchie. Tabelle relazionali e multidimensionali drill-down sono tabelle che permettono con un semplice click del mouse di scendere ad un ulteriore livello di specificità.

Filtering. Funzione ideata per selezionare una parte dei dati in modo da dare una risposta utile all'utente in modo diretto o in modo indiretto, migliorando la funzione di ricerca.Pivoting. Si tratta della funzione che consente la creazione di tabelle pivot. Nel caso di un DB OLAP si ha una particolare configurazione di tabella pivot, la quale viene chiamata ipercubo OLAP ed è il report che risulta da una query OLAP su un ipercubo di dati.

L'IPERCUBO è formato da un dato, e da un numero arbitrario di dimensioni di analisi e ogni dato è identificato da una tupla di valori, uno per ogni dimensione di analisi, o caratteristica di analisi; ogni caratteristica può essere rappresentata con un asse cartesiano.

IPERCUBI
L'indagine statistica si basa sulla rilevazione dei dati ai fini conoscitivi. A rilevazione avviene su un collettivo statistico, che è composto da le cosiddette unità statistiche sulle quali si effettua la concreta rilevazione dei caratteri/variabili, che possono essere sia di natura quantitativa che qualitativa.Il valore che il carattere assume su ciascuna unità statistica su cui viene effettuata la rilevazione è definito modalità.La modalità non è altro che la determinazione di un carattere sulla singola unità statistica..Per organizzare la mole dei dati racconti gli statisti fanno ricorso alle tabelle, che permettono di avere una visione più chiara e sinetica della ricerca, le tabelle inoltre permettono attraverso il processo di normalizzazione di eliminare le eventuali ritondanze (ripetizioni). All'interno delle tabelle sulle righe vengono posizionate le unità statisstiche mentre sulle colonne il carattere che si desidera rilevare.Una tabella così strutturata ci permette di rilevare un solo carattere sull'unità statistica per volta. Molto spesso però una ricerca mira ad indagare più caratteri contemporaneamente, in questo caso si fa ricorso alle tabelle a doppia entrata.

La tabella a doppia entrata è una tabella a 2 o più variabili che permette di confrontare due identità, una posta in ascissa e una in ordinata e fra ciascuno degli elementie/parti che la costituiscono. Essa dunque, consente di rilevare contemporaneamente due o più caratteri su la medesima unità statistica. In questo modo diventa possibile mettere in relazione la varie variabili al fine di coglirne le relazioni e le eventuali anologie e differenze. Attraverso una serie di analisi consente inoltre, dove gli spazi rimangono bianchi di individuarerelazioni mancanti e la loro natura, favorendo così la ricerca conoscitiva.La rappresentazione di una tabella a doppia entrata è associata ad un ipercubo informativo bidimensionale.

La tabella di contigenza è una tabella costituita da righe che rappresentano i posibili valori o categorie di una variabile e da colonne che rappresentano i possibili valori di una seconda variabile . I dati nel corpo della tabella sono il numero di volte in cui compare ogni coppia di valori categorie.

L'ipercubo informativo è una raccolta di dati di cui conosciamo tre dimensioni di analisi. Ogni componenete di un dato è rappresentata su una dimensione spaziale dell'ipercubo.

Un Cubo OLAP è una struttura per la memorizzazione di dati che permette di eseguire analisi in tempi rapidi, superando un limite dei databace relazionali. I database relazionali non sono adatti ad elaborazioni istantanee e alla visualizzazione di una grande mole di dati.Il Cubo OLAP può essere immaginato come un'estensione del foglio di lavoro a due dimensioni. Il oltre ha da 3 a un arbitrario numero di caratterstiche o dimensioni di analisi.Ad esempio, una società può essere interessata ad analizzare alcuni dati finanziari per prodotto, per periodo di tempo, per città per tipologie di ricavo di costo, e alla comparazione di questi dati con una previsione di budget. Questi metodi di analisi dei dati sono noti come dimensioni.Le dimensioni sono gli attributi strutturali dei cubi, o meglio gerarchie organizzate di livelli che descrivono i dati nella tabella. Nella maggior parte dei casi i membri sono disposti in una configurazione a piramide.Le dimensioni sono tra loro indipendenti, per cui in una database relazionale le tabelle relative alle dimensioni di analisi sono collegate da relazioni molti-a-molti. Il dato numerico è un attributo della relazione fra queste tabelle.

IL CUBO OLAP è composto da dati numerici, detti misure, che sono categorizzati all'interno di dimensioni. La misura è un set di valori basati su una colonna della tabella. Un es. Di misure sono le vendite o i costi)Le manipolazioni OLAP permettono di ritagliare e sminuzzare (slice e dice) un sottoinsieme di dati per osservarli da diverse prospettiva e facilitare il processo di analisi. Praticamente attraverso il processo di slice e dice è possibile restringere l'analisi solamente ad alcune delle occorenze delle dimensioni e solo ad alcune delle dimensioni proposte.

DIMENSION E MEASURE
Le dimensioni (Dimension) sono le tabelle che contengono gli attributi descrittivi delle misure (es: provincia, regione, descrizione del prodotto, categoria del prodotto, ecc). I lati del cubo contengono le dimensioni, mentre la singola cella contiene il valore relativo all’intersezione delle dimensioni.

Le misure (Measures) descrivono l’aspetto quantitativo (es: ogni vendita è misurata dal valore e della quantità). Le misure sono quindi valori aggregati ed analizzabili. L’ aggregazione di una misura è eseguita in una porzione di dimensione in base ad un dato algoritmo (somma, media, etc.).
L'indagine statistica si basa sulla rilevazione dei dati ai fini conoscitivi. A rilevazione avviene su un collettivo statistico, che è composto da le cosiddette unità statistiche sulle quali si effettua la concreta rilevazione dei caratteri/variabili, che possono essere sia di natura quantitativa che qualitativa.Il valore che il carattere assume su ciascuna unità statistica su cui viene effettuata la rilevazione è definito modalità.La modalità non è altro che la determinazione di un carattere sulla singola unità statistica..Per organizzare la mole dei dati racconti gli statisti fanno ricorso alle tabelle, che permettono di avere una visione più chiara e sinetica della ricerca, le tabelle inoltre permettono attraverso il processo di normalizzazione di eliminare le eventuali ritondanze (ripetizioni). All'interno delle tabelle sulle righe vengono posizionate le unità statisstiche mentre sulle colonne il carattere che si desidera rilevare.

Una tabella così strutturata ci permette di rilevare un solo carattere sull'unità statistica per volta. Molto spesso però una ricerca mira ad indagare più caratteri contemporaneamente, in questo caso si fa ricorso alle tabelle a doppia entrata.

L'ipercubo informativo è una raccolta di dati di cui conosciamo tre dimensioni di analisi. Ogni componenete di un dato è rappresentata su una dimensione spaziale dell'ipercubo. Un Cubo OLAP è una struttura per la memorizzazione di dati che permette di eseguire analisi in tempi rapidi, superando un limite dei databace relazionali. I database relazionali non sono adatti ad elaborazioni istantanee e alla visualizzazione di una grande mole di dati. Il Cubo OLAP può essere immaginato come un'estensione del foglio di lavoro a due dimensioni. Il oltre ha da 3 a un arbitrario numero di caratterstiche o dimensioni di analisi. Ad esempio, una società può essere interessata ad analizzare alcuni dati finanziari per prodotto, per periodo di tempo, per città per tipologie di ricavo di costo, e alla comparazione di questi dati con una previsione di budget. Questi metodi di analisi dei dati sono noti come dimensioni. Le dimensioni sono gli attributi strutturali dei cubi, o meglio gerarchie organizzate di livelli che descrivono i dati nella tabella. Nella maggior parte dei casi i membri sono disposti in una configurazione a piramide. Le dimensioni sono tra loro indipendenti, per cui in una database relazionale le tabelle relative alle dimensioni di analisi sono collegate da relazioni molti-a-molti.

Nessun commento:

Posta un commento