martedì 1 giugno 2010

REPORTISTICA


L'obiettivo di un sistema di reportistica è quello di fornire documentazione analitica sulle attività aziendali di rilievo in ambiti complessi, analizzare e visualizzare tutte quelle variabili indicative per il successo di un'azienda.
La reportistica fa parte della vita aziendale: è il modo, da un lato, di comunicare e condividere le informazioni e, dall'altro, di comprendere l'andamento delle prestazioni.
Col crescere dei dati a disposizione delle organizzazioni, i vantaggi di un'elaborazione centralizzata si rivelano:
nella riduzione dei tempi di esecuzione dei singoli documenti
nell'utilizzo di un unico template aziendale
nella certificazione del dato
nella gestione dei diritti d'accesso degli utenti
L'utilizzo di un strumento di reportistica aziendale consente una migliore distribuzione delle conoscenze ed una visione dell'attività più conforme e concorde fra le varie funzioni dell'organizzazione.
L'utente ha a disposizione una soluzione che permette loro di creare e progettare i report in modo autonomo e intuitivo, pur restando in un ambiente comune e consolidato
Si tratta delle variabili che assicurano il vantaggio competitivo nel lungo periodi ed il cui controllo consente buone prestazioni all'impresa.
Il primo vero problema può essere rappresentato dal reperimento dei dati da analizzare, soprattutto nei contesti aziendali che non hanno adottato sistemi informativi evoluti. C’è poi l’aggregazione e la sintesi dei dati che consente di presentare solo i dati chiave realmente importanti. Un errore nel quale è facile cadere, è la sindrome da eccesso di informazioni. Nelle grandi imprese sono quasi sempre disponibili tanti dati e risulta, quindi, importante essere dotati di una buona capacità di sintesi. Nelle piccole e medie imprese accade spesso che si passi in breve tempo dalla totale assenza di informazioni ad una voracità di dati che richiederebbe un livello di approfondimento che questa tipologia di azienda non possiede.
Non bisogna mai perdere di vista l’obiettivo di un sistema informativo aziendale: supportare e semplificare le decisioni. Talvolta possono bastare pochi dati per trasmettere le informazioni realmente rilevanti.
Infine un terzo problema è dato dall’aggiornamento.
Una volta impostata la struttura di un report questo deve continuamente essere aggiornato ed è, quindi, bene nominare una figura di Market Analyst che si occupa di ricercare, aggregare, analizzare e commentare i numeri chiave del portale con cadenza periodica.
Il sistema di reportistica è il più flessibile attualmente disponibile sul mercato. DataTime consente infatti di creare
qualunque tipo di Layout (verticale, orizzontale, cross e misto) con possibilità pressoché illimitate di Slice and Dice
del cubo multidimensionale dei dati. E. possibile definire:
- Sezioni verticali e orizzontali;
- Interruzioni orizzontali e verticali;
- Totali su livelli multipli;
- Drill down / Roll Up su qualunque livello.
DataTime crea report ad alto impatto visivo, dove tutti gli elementi grafici e stilistici possono essere controllati
dall.utente.
Un efficace sistema di formattazione condizionale consente di creare Alerts anche complessi e basati su codice
utente per qualunque tipo di evento.
Oltre al ricco set di funzioni aggregative predefinite, DataTime consente all.utente anche di specificare via codice
funzioni custom.
Nell'editoria , il termine inglese layout viene spesso usato al posto dell'italiano impaginazione.
In economia, il layout è l'organizzazione e la configurazione di un dato magazzino o impianto, atto a minimizzare i costi e i tempi di produzione per avere il prodotto finito nei massimi termini del concetto di efficacia ed efficienza.
In informatica , per layout si intendono l'impaginazione e la struttura grafica di un sito web, o di un documento (come quelli generati da un programma di videoscrittura).


lunedì 31 maggio 2010

CUSTOMER RELATIONSHIP MANAGEMENT


In un'impresa "Market-oriented" il mercato non è più rappresentato solo dal cliente ma dall'ambiente circostante, con il quale l'impresa deve stabilire relazioni durevoli di breve e lungo periodo, tenendo conto dei valori dell'individuo/cliente, della società e dell'ambiente.
il CRM nasce con l'obiettivo di aiutare le aziende nella fidelizzazione dei clienti , col fine di realizzare nuove opportunità intervenendo dove il cliente ha necessità prevedibili e soddisfabili.
Fidelizzare il cliente significa conoscerlo , capire e prevederne i bisogni , capirne i tempi e rispondere alle sue esigenze .
Il CRM è lo strumento che consente la gestione delle relazioni con i clienti , col fine di averne sempre presente la situazione prevederne le necessità ed in definitiva mantenere viva nel cliente l'attenzione per l'azienda .
In un'impresa "Market-oriented" il mercato non è più rappresentato solo dal cliente ma dall'ambiente circostante, con il quale l'impresa deve stabilire relazioni durevoli di breve e lungo periodo, tenendo conto dei valori dell'individuo/cliente, della società e dell'ambiente. Quindi l'attenzione verso il cliente è cruciale e determinante. Per questo motivo il marketing management deve pianificare e implementare apposite strategie per gestire una risorsa così importante.
La trasformazioni degli attuali clienti in procuratori, ossia consumatori che lodano l’azienda incoraggiando altre persone a rivolgersi alla stessa per i loro acquisti. Alcune aziende cercano di non tenere conto di clienti che hanno poca importanza (definiti in gergo "clienti sotto-zero") e attuano delle implicite tecniche definite, sempre gergalmente, come "Demarketing". Il CRM si articola comunemente in 3 tipologie: CRM operativo: soluzioni metodologiche e tecnologiche per automatizzare i processi di business che prevedono il contatto diretto con il cliente. CRM analitico: procedure e strumenti per migliorare la conoscenza del cliente attraverso l'estrazione di dati dal CRM operativo, la loro analisi e lo studio revisionale sui comportamenti dei clienti stessi. CRM collaborativo: metodologie e tecnologie integrate con gli strumenti di comunicazione (telefono, fax, e-mail, ecc.) per gestire il contatto con il cliente.
L'errore più comune in cui ci si imbatte quando si parla di Customer Relationship Management è quello di equiparare tale concetto a quello di un software.
Il CRM non è una semplice questione di marketing né di sistemi informatici, bensì si avvale in maniera sempre più massiccia, di strumenti informatici o comunque automatizzati, per implementare il management. Il CRM è un concetto strettamente legato alla strategia, alla comunicazione, all'integrazione tra i processi aziendali, alle persone ed alla cultura, che pone il cliente al centro dell'attenzione sia nel caso del business-to-business sia in quello del business-to-consumer. Le applicazioni CRM servono a tenersi in contatto con la clientela, a inserire le loro informazioni nel database e a fornire loro modalità per interagire in modo che tali interazioni possano essere registrate e analizzate.
Prima di seguire la strada del CRM ogni azienda deve essere consapevole che:bisogna investire prima in strategia, organizzazione e comunicazione, solo dopo nella tecnologia. La scelta del software non ha alcun effetto sulla probabilità di successo. Ciò non implica che i software siano tutti uguali, ma significa solo che nessun software porterà al successo un progetto sbagliato.il CRM è adatto sia a quelle aziende che cercano un Return on investment (ROI) veloce sia a quelle che curano il processo di fidelizzazione e l'aumento del Lifetime value (LTV) dei clienti che richiede del tempo.
Il CRM si avvale, in maniera sempre più massiccia, di strumenti informatici o comunque automatizzati, per implementare il management, è un concetto strettamente legato alla strategia, alla comunicazione, all'integrazione tra i processi aziendali, alle persone ed alla cultura, che pone il cliente al centro dell'attenzione.Le applicazioni CRM servono a tenersi in contatto con la clientela, a inserire le loro informazioni nel database e a fornire loro modalità per interagire in modo che tali interazioni possano essere registrate e analizzato.

Quindi l'attenzione verso il cliente è cruciale e determinante.
Per questo motivo il marketing management deve pianificare e implementare apposite strategie per gestire una risorsa così importante.
Il CRM si spinge sostanzialmente secondo quattro direzioni differenti e separate:
L'acquisizione di nuovi clienti (o "clienti potenziali")
L'aumento delle relazioni con i clienti più importanti (o "clienti coltivabili")
La fidelizzazione più longeva possibile dei clienti che hanno maggiori rapporti con l'impresa (definiti "clienti primo piano")
La trasformazioni degli attuali clienti in procuratori, ossia consumatori che lodano l’azienda incoraggiando altre persone a rivolgersi alla stessa per i loro acquisti
Alcune aziende cercano di non tenere conto di clienti che hanno poca importanza (definiti in gergo "clienti sotto-zero") e attuano delle implicite tecniche definite, sempre gergalmente, come "Demarketing".
Il CRM si articola comunemente in 3 tipologie:
CRM operativo: soluzioni metodologiche e tecnologiche per automatizzare i processi di business che prevedono il contatto diretto con il cliente.


Le applicazioni CRM servono a tenersi in contatto con la clientela, a inserire le loro informazioni nel database e a fornire loro modalità per interagire in modo che tali interazioni possano essere registrate e analizzate.
Prima di seguire la strada del CRM ogni azienda deve essere consapevole che:
bisogna investire prima in strategia, organizzazione e comunicazione, solo dopo nella tecnologia. La scelta del software non ha alcun effetto sulla probabilità di successo. Ciò non implica che i software siano tutti uguali, ma significa solo che nessun software porterà al successo un progetto sbagliato.
il CRM è adatto sia a quelle aziende che cercano un Return on investment (ROI) veloce sia a quelle che curano il processo di fidelizzazione e l'aumento del Lifetime value (LTV) dei clienti che richiede del tempo. Continuiamo la nostra ricerca analizzando il concetto di :
Market Basket Analysis, uno strumento di data mining basato sulle regole associative, che permette di studiare le abitudini di acquisto dei consumatori per evidenziare affinità esistenti tra prodotti o gruppi di prodotti venduti .Lo scopo `e quello di inferire delle implicazioni, del tipo if condition thenresult, che esprimano la probabilità di acquisto di prodotti differenti al fine di stabilire quanto l’acquisto di un prodotto influenzi l’acquisto di un altro.
L’analisi delle regole associative dar`a informazioni del tipo:
L’80% dei clienti che acquistano biscotti acquistano anche latte, così da poter affermare che biscotti e latte sono correlati, o altrimenti, che esiste un implicazione del tipo biscotti ) latte.
Tale analisi costistuisce un forte strumento di marketing sfruttabile dallesociet`a di e-retail, ma anche dai supermercati tradizionali, per incrementarei profitti con:
• mirate strategie promozionali: non mettendo in promozione contemporaneamenteitem fortemente correlati. La promozione su uno dei prodotti e quindi l'aumento delle vendite anche sugli item associati;• il miglioramento della struttura logica del sito, creando iperlink o bannerche colleghino i prodotti associati, nel caso dell’e-commerce; o trovandola posizione ottimale dei prodotti sugli scaffali, nel caso di unsupermercato tradizionale. Prodotti correlati potranno essere posizionati vicini o , al contrario , in diverse corsie in modo da invogliare e stimolare il cliente ad acquistare diversi prodotti . La Market Basket Analysis `e nata per capire e risolvere problemi di marketing, ma oggi trova anche altre applicazioni, come in medicina, per trovarecorrelazioni tra sintomi diversi delle malattie o tra prodotti farmaceutici, ein ambito finanziario e assicurativo per individuare, per esempio gli attributipiù ricorrenti che caratterizzano un cliente fraudolento.Un esempio banale:
Tipicamente i dati raccolti dalle società vengono immagazzinati e strutturatiin un database.
Sarà compito poi degli strumenti informatici del data miningestrarne specifiche informazioni e conoscenze che siano di supporto alle decisioni aziendali.
Tra le principali tecniche di mg troviamo anche la PROFILAZIONE
cioè tecnica di valutazione qualitativa in grado di stimare le caratteristiche del singolo utente , in modo da poter cogliere per ognuno abilità vari tipi di comportamenti e aspetti della personalità.
DECISION TREE è invece una tecnica che permette di creare alberi decisionali e di classificazione per identificare con frande semplicità gruppi e individuare relazioni , tra gruppi.

Nel Data mining un albero di decisione viene utilizzato per classificare le istanze di grandi quantità di datiIl data mining è il processo di individuazione di informazioni utilizzabili da garndi set di dati . nel data mining viene utilizzata l'analisi matematica per dedurre schemi e tendenze esistenti nei dati.In genere, questi schemi non possono essere individuati tramitel'espolazione tradizionale dei dati perchè le relazioni sono troppo complesse o perchè sono presenti troppi dati. Gli schemi e le tendenze posono essere raccolti e definiti in un modello di data mining. E' possibile applicare i modelli di data mining e scenari aziendali specifici ad esempio:
previsioni di venditemailing diretti a clienti specifici individuazione dei datcampione dei modelli

domenica 30 maggio 2010

CONCETTI DI BASE PER LA CREAZIONE DEI KPI, PONDERAZIONE ,NORMALIZZAZIONE, STANDARDIZZAZIONE


sono report a una cella o calcoli gestionali che indicano le prestazioni di una parte delle attività aziendali .
consentono di eseguire le seguenti attività:
Esaminare un riepilogo delle prestazioni effettive rispetto a quelle previste e identificare rapidamente le prestazioni di importanza critica.I KPI selezionati vengono visualizzati da una scorecard.Essa differerisce da un report per il fatto che è possibile definire diversi livelli di soglia per i dati e indirizzare i confronti a un livello specifico. Dalla scorecard è possibile inoltre accedere ai report abbinati ai singoli KPI per eseguire ulteriori analisi dei dati prestazionali.
È possibile esaminare i dati in formato report e grafici multidimensiona le funzioni di supporto decisionale consentono di effettuare analisi a un livello più dettagliato ( drilling down), a un livello supiore ( drilling up) o in maniera trasversale ( drillng cross) per una visione dei dati completamente diversa . Le funzioni fornite da BI consentono di evitare l’uso di un’applicazione analitica basata su ipercubo.
BI comprende misure di calcolo predefinite (metric) e report di prestazioni correnti in diversi formati e trend. È anche possibile personalizzare gli oggetti in base alle esigenze dei singoli utenti, le quali variano a seconda delle diverse ubicazioni e responsabilità. È possibile aggiungere KPI, scorecard e report in base ad esigenze specifiche.
Grazie a strumenti di supporto decisionale quali i KPI e i report, l'azienda può ottenere dati personalizzati che delineano al meglio i compiti professionali o i ruoli dei dipendenti.
I KPI sono calcoli gestionali che aiutano a monitorare le prestazioni di una parte delle attività aziendali. I KPI consentono di identificare rapidamente le prestazioni di maggiore importanza e le opportunità di crescita e di aumento della redditività.
Il meccanismo di inserimento dei calcoli nei report viene chiamato misura di calcolo (metric).
Per ogni KPI, i calcoli vengono eseguiti tramite una misura di calcolo (metric). Tale misura non comprende un livello di dettaglio specifico. Quando vengono creati i KPI, è necessario specificare i livelli di dettaglio tramite i filtri. In tal modo è possibile specificare un calcolo un'unica volta e utilizzarlo a vari livelli per diversi scopi.
Business Intelligence (BI) comprende misure predefinite che possono essere utilizzate per la creazione dei KPI. Con MicroStrategy è anche possibile creare misure personalizzate e
utilizzarle per la definizione dei KPI.

Un KPI può essere paragonato a un report. Si tratta di un report contenente una casella singola di dati.
Ad esempio, si ipotizzi che il seguente report illustri le vendite totali di un reparto.
La casella che contiene l’importo 40.000 è il KPI del totale delle vendite del reparto centrale.
Reparto Totale vendite Centrale 40,000
I KPI differiscono dai report standard anche per il fatto che permettono un confronto diretto con i valori soglia indicati (valori superiori, inferiori e previsti).
L’accesso ai KPI è consentito in base a ruoli o ID utente. Quando si accede a un KPI tramite ruolo o utente, è possibile specificare un'autorizzazione di tipo Visualizzabile o Visualizzabile/modificabile per il KPI stesso. L'autorizzazione di tipo Visualizzabile consente all'utente di scegliere e visualizzare il KPI. L'autorizzazione di tipo Visualizzabile/modificabile consente all’utente di visualizzare e modificare il KPI.

La NORMALIZZAZIONE è un procedimento volto all'eliminazione della ridondanza e del rischio di incoerenza dal database. Esistono vari livelli di normalizzazione (forme normali) che certificano la qualità dello schema del database.
Questo processo si fonda su un semplice criterio: se una relazione presenta più concetti tra loro indipendenti, la si decompone in relazioni più piccole, una per ogni concetto. Questo tipo di processo non è purtroppo sempre applicabile in tutte le tabelle, dato che in taluni casi potrebbe comportare una perdita d'informazioni.Questo tipo di processo non è sempre applicabile in tutte le tabelle , dato che in taluni casi potrebbe comportare una peredita di informazioni.

Due concetti sono fondamentali all'interno della normalizzazione , quello di ridondanza , che si riferisce alla situazione in cui gli stessi dati vengono memorizzati inutilmente più volte e il concetto di anomalia che si riscontra nel momento in cui si verificano irregolarità dei dati.

STANDARDIZZAZIONE DI VARIABILI
Una procedura di fondamentale importanza in statistica e nell'analisi dei dati è la standardizzazione delle variabili. Attraverso questa procedura statistica è possibile rendere confrontabili variabili identiche appartenenti a distribuzioni diverse, ma anche variabili diverse, o variabili espresse in unità di misura diverse. La variabile standardizzata è: essa misura le deviazioni dalla media aritmetica e ha come unità di misura la deviazione standard.Un dato così trasformato si chiama punto standard o punto z.
La standardizzazione è una doppia normalizzazione. Nella prima normalizzazione ogni dato è trasformato nel suo scarto dalla media, nella seconda normalizzazione questo scarto viene trasformato dall'unità di misura o di conto di quella variabile in unità del suo scarto-tipo.
Proprietà della distribuzione di una variabile standardizzata. Ogni punto della vecchia distribuzione corrisponde ad uno e un solo punto della nuova, e conserva le sue distanze relative da ogni altro punto.
Poiché i dati originali sono stati trasformati in scarti dalla media, e la somma algebrica degli scarti dalla media è per definizione 0, tutte le variabili standardizzate hanno media 0. Inoltre, poiché ogni scarto dalla media viene poi diviso per lo scarto-tipo della variabile di partenza, lo scarto-tipo di una qualunque variabile standardizzata è 1.
PONDERAZIONE
Situazione piu comune e quella della post-stratificazione:
distribuzione di una certa variabile nel campione diversa nella popolazione, ponderazione per ricondursi .

Tabella
si tratta di una operazione di manipolazione dei dati che e consigliabile se non comporta una alerazione eccessiva dei dati originari : se sottocampionati distorti , ponderando aumentiamo la distorsione.
La ponderazione si impone con una certa urgenza se l’obiettivo della ricerca e di tipo descrittivo. (ES.: sondaggio elettorale). L’esigenza della ponderazione e meno urgente se lo studio e finalizzato alle relazioni fra variabili.

martedì 18 maggio 2010

OLAP SLICE E DICE IPERCUBI DIMENSION MEASURE

OLAP( on line analytil processing) è una metodologia che forniscegli utenti finali l'accesso a un gigantesco ammontare di dati in modo intuitivo e rapido, e che li assiste nei ragionamenti investigativi su base deduttiva .
I sistemi OLAP servono a

  • permettono di eseguire operazioni non previste nella progettazione del DB ( sistemi di supporto alle decisoni)
  • operano su grosse moli di dati
  • i dati sono "statici "
  • operano su dati provenienti da più fonti eterogenee
  • supportare analisi complesse a fronte di una grande quantità di dati in ingresso (a livello atomico)

Una struttura OLAP, in pratica, raccchiude un insieme di tecniche software per l'analisi interattiva e veloce di grandi quantità di dati, che è possibile esaminare in modalità piuttosto complesse ed è proprio per questo che essa viene chiamata "cubo" multidimensionale. Ci sono diversi modi per creare un cubo, ma il più conosciuto è quello che utilizza uno schema "a stella": al centro c’è la tabella dei "fatti" che elenca i principali elementi su cui sarà costruita l’interrogazione e collegate a questa tabella ci sono varie tabelle delle "dimensioni" che specificano come saranno aggregati i dati.
Per esempio, un archivio clienti può essere raggruppato per città, provincia, regione; questi clienti possono essere relazionati con i prodotti ed ogni prodotto può essere raggruppato per categoria.
Il calcolo delle possibili combinazioni di queste aggregazioni forma una struttura OLAP che, potenzialmente, potrebbe contenere tutte le risposte per ogni singola combinazione.

In realtà, viene memorizzato solo un numero predeterminato di combinazioni, mentre le rimanenti vengono ricalcolate solo al momento in cui quella richiesta viene materialmente effettuata.Gli strumenti OLAP hanno come obiettivo la performance nella ricerca e il raggiungimento di un'ampiezza di interrogazione quanto più grande possibile.Eseguendo successivamente delle interrogazioni sui dati strutturati in questa maniera è possibile ottenere risposte in tempi decisamente ridotti rispetto alle stesse operazioni effettuate su altre tipologie di database.

Le funzioni di base di uno strumento OLAP sono:Slice & Dice.

Funzionalità che consente di ristrutturare le informazioni in modo da renderne più efficace la visualizzazione: creazione di master-detail e rotazione degli assi delle rappresentazioni a matrice. Roll-up (drill- up). Esegue aggregazioni delle misure per riduzione di dimensioni o per generalizzazione dei valori nella gerarchia.
Drill Down. Tecnica usata nell'ambito del data mining per condurre analisi multidimensionali. Essa rappresenta, infatti, la capacità di penetrare nei dati a diversi livelli di gerarchie. Tabelle relazionali e multidimensionali drill-down sono tabelle che permettono con un semplice click del mouse di scendere ad un ulteriore livello di specificità.

Filtering. Funzione ideata per selezionare una parte dei dati in modo da dare una risposta utile all'utente in modo diretto o in modo indiretto, migliorando la funzione di ricerca.Pivoting. Si tratta della funzione che consente la creazione di tabelle pivot. Nel caso di un DB OLAP si ha una particolare configurazione di tabella pivot, la quale viene chiamata ipercubo OLAP ed è il report che risulta da una query OLAP su un ipercubo di dati.

L'IPERCUBO è formato da un dato, e da un numero arbitrario di dimensioni di analisi e ogni dato è identificato da una tupla di valori, uno per ogni dimensione di analisi, o caratteristica di analisi; ogni caratteristica può essere rappresentata con un asse cartesiano.

IPERCUBI
L'indagine statistica si basa sulla rilevazione dei dati ai fini conoscitivi. A rilevazione avviene su un collettivo statistico, che è composto da le cosiddette unità statistiche sulle quali si effettua la concreta rilevazione dei caratteri/variabili, che possono essere sia di natura quantitativa che qualitativa.Il valore che il carattere assume su ciascuna unità statistica su cui viene effettuata la rilevazione è definito modalità.La modalità non è altro che la determinazione di un carattere sulla singola unità statistica..Per organizzare la mole dei dati racconti gli statisti fanno ricorso alle tabelle, che permettono di avere una visione più chiara e sinetica della ricerca, le tabelle inoltre permettono attraverso il processo di normalizzazione di eliminare le eventuali ritondanze (ripetizioni). All'interno delle tabelle sulle righe vengono posizionate le unità statisstiche mentre sulle colonne il carattere che si desidera rilevare.Una tabella così strutturata ci permette di rilevare un solo carattere sull'unità statistica per volta. Molto spesso però una ricerca mira ad indagare più caratteri contemporaneamente, in questo caso si fa ricorso alle tabelle a doppia entrata.

La tabella a doppia entrata è una tabella a 2 o più variabili che permette di confrontare due identità, una posta in ascissa e una in ordinata e fra ciascuno degli elementie/parti che la costituiscono. Essa dunque, consente di rilevare contemporaneamente due o più caratteri su la medesima unità statistica. In questo modo diventa possibile mettere in relazione la varie variabili al fine di coglirne le relazioni e le eventuali anologie e differenze. Attraverso una serie di analisi consente inoltre, dove gli spazi rimangono bianchi di individuarerelazioni mancanti e la loro natura, favorendo così la ricerca conoscitiva.La rappresentazione di una tabella a doppia entrata è associata ad un ipercubo informativo bidimensionale.

La tabella di contigenza è una tabella costituita da righe che rappresentano i posibili valori o categorie di una variabile e da colonne che rappresentano i possibili valori di una seconda variabile . I dati nel corpo della tabella sono il numero di volte in cui compare ogni coppia di valori categorie.

L'ipercubo informativo è una raccolta di dati di cui conosciamo tre dimensioni di analisi. Ogni componenete di un dato è rappresentata su una dimensione spaziale dell'ipercubo.

Un Cubo OLAP è una struttura per la memorizzazione di dati che permette di eseguire analisi in tempi rapidi, superando un limite dei databace relazionali. I database relazionali non sono adatti ad elaborazioni istantanee e alla visualizzazione di una grande mole di dati.Il Cubo OLAP può essere immaginato come un'estensione del foglio di lavoro a due dimensioni. Il oltre ha da 3 a un arbitrario numero di caratterstiche o dimensioni di analisi.Ad esempio, una società può essere interessata ad analizzare alcuni dati finanziari per prodotto, per periodo di tempo, per città per tipologie di ricavo di costo, e alla comparazione di questi dati con una previsione di budget. Questi metodi di analisi dei dati sono noti come dimensioni.Le dimensioni sono gli attributi strutturali dei cubi, o meglio gerarchie organizzate di livelli che descrivono i dati nella tabella. Nella maggior parte dei casi i membri sono disposti in una configurazione a piramide.Le dimensioni sono tra loro indipendenti, per cui in una database relazionale le tabelle relative alle dimensioni di analisi sono collegate da relazioni molti-a-molti. Il dato numerico è un attributo della relazione fra queste tabelle.

IL CUBO OLAP è composto da dati numerici, detti misure, che sono categorizzati all'interno di dimensioni. La misura è un set di valori basati su una colonna della tabella. Un es. Di misure sono le vendite o i costi)Le manipolazioni OLAP permettono di ritagliare e sminuzzare (slice e dice) un sottoinsieme di dati per osservarli da diverse prospettiva e facilitare il processo di analisi. Praticamente attraverso il processo di slice e dice è possibile restringere l'analisi solamente ad alcune delle occorenze delle dimensioni e solo ad alcune delle dimensioni proposte.

DIMENSION E MEASURE
Le dimensioni (Dimension) sono le tabelle che contengono gli attributi descrittivi delle misure (es: provincia, regione, descrizione del prodotto, categoria del prodotto, ecc). I lati del cubo contengono le dimensioni, mentre la singola cella contiene il valore relativo all’intersezione delle dimensioni.

Le misure (Measures) descrivono l’aspetto quantitativo (es: ogni vendita è misurata dal valore e della quantità). Le misure sono quindi valori aggregati ed analizzabili. L’ aggregazione di una misura è eseguita in una porzione di dimensione in base ad un dato algoritmo (somma, media, etc.).
L'indagine statistica si basa sulla rilevazione dei dati ai fini conoscitivi. A rilevazione avviene su un collettivo statistico, che è composto da le cosiddette unità statistiche sulle quali si effettua la concreta rilevazione dei caratteri/variabili, che possono essere sia di natura quantitativa che qualitativa.Il valore che il carattere assume su ciascuna unità statistica su cui viene effettuata la rilevazione è definito modalità.La modalità non è altro che la determinazione di un carattere sulla singola unità statistica..Per organizzare la mole dei dati racconti gli statisti fanno ricorso alle tabelle, che permettono di avere una visione più chiara e sinetica della ricerca, le tabelle inoltre permettono attraverso il processo di normalizzazione di eliminare le eventuali ritondanze (ripetizioni). All'interno delle tabelle sulle righe vengono posizionate le unità statisstiche mentre sulle colonne il carattere che si desidera rilevare.

Una tabella così strutturata ci permette di rilevare un solo carattere sull'unità statistica per volta. Molto spesso però una ricerca mira ad indagare più caratteri contemporaneamente, in questo caso si fa ricorso alle tabelle a doppia entrata.

L'ipercubo informativo è una raccolta di dati di cui conosciamo tre dimensioni di analisi. Ogni componenete di un dato è rappresentata su una dimensione spaziale dell'ipercubo. Un Cubo OLAP è una struttura per la memorizzazione di dati che permette di eseguire analisi in tempi rapidi, superando un limite dei databace relazionali. I database relazionali non sono adatti ad elaborazioni istantanee e alla visualizzazione di una grande mole di dati. Il Cubo OLAP può essere immaginato come un'estensione del foglio di lavoro a due dimensioni. Il oltre ha da 3 a un arbitrario numero di caratterstiche o dimensioni di analisi. Ad esempio, una società può essere interessata ad analizzare alcuni dati finanziari per prodotto, per periodo di tempo, per città per tipologie di ricavo di costo, e alla comparazione di questi dati con una previsione di budget. Questi metodi di analisi dei dati sono noti come dimensioni. Le dimensioni sono gli attributi strutturali dei cubi, o meglio gerarchie organizzate di livelli che descrivono i dati nella tabella. Nella maggior parte dei casi i membri sono disposti in una configurazione a piramide. Le dimensioni sono tra loro indipendenti, per cui in una database relazionale le tabelle relative alle dimensioni di analisi sono collegate da relazioni molti-a-molti.

domenica 16 maggio 2010

CREAZIONE REPORT DA NORTHWIND





DIFFERENZE TRA REPORTING E MINING

MINING E REPORTING

Generalmente, quando la gente parla di data mining si focalizza principalmente sugli aspetti di “mining” e di scoperta. Il mining dei dati, tuttavia, è solo una delle diversi fasi in cui si articola il processo globale (iterattivo e “multi-step”) di data mining. A guidare l’intero processo sono gli obiettivi di business: essi costituiscono la base su cui viene costruito il nuovo progetto, i parametri con cui vengono valutati i risultati finali e devono essere un costante riferimento per il team durantele varie fasi di sviluppo.
I 5 steps sequenziali sono:
  1. Business Objectives Determination: definizione chiara del problema di business o della sfida che l’azienda si pone;
  2. Data Preparation:

    2.1 Data Selection: identificazione di tutte le fonti di informazione (interne o esterne) e selezione di quel sottoinsieme di dati necessario per l’applicazione di data mining;
    2.2 Data Preprocessing: studio sulla qualità dei dati, indirizza la futura analisi determinando il tipo di operazioni di mining che è possibile effettuare;
    2.3 Data Transformation: trasformazione dei dati in un modello analitico. I dati vengono modellati in modo da essere conformi ai formati richiesti dagli algoritmi di data mining e poter così effettuare le analisi precedentemente scelte;

  3. Data Mining: mining dei dati trasformati. E’ il cuore del processo, ma, a parte la scelta della combinazione di algoritmi più appropriata, viene svolto in modo completamente automatico;
  4. Analysis of Results: interpretazione e valutazione dell’output dello step 3. L’approccio all’analisi può variare in funzione dell’operazione di data mining effettuata, ma chiama generalmente in causa qualche tecnica di visualizzazione;
  5. Assimilation of Knowledge: incorporazione, all’interno dell’azienda e del suo sistema informativo, delle conoscenze acquisite. L’obiettivo del Data Mining è chiaramente quello di applicare gli algoritmi di data mining selezionati ai dati preprocessati.
Nonostante, in questo generico processo, la fase di data mining sia rappresentata come indipendente, nella realtà essa è praticamente inscindibile dall'analisi dei risultati, così come è molto raro che essa possa essere ultimata senza tornare, almeno una volta, alla fase precedente di preparazione dei dati. Ciò che accade durante questa fase varia notevolmente in base al tipo di applicazione che si sta sviluppando: nel caso della segmentazione di un database possono essere più che sufficienti uno o due “passaggi” degli algoritmi sui dati. Situazione ben diversa si ha quando si sviluppa un modello predittivo: il training può richiedere infatti decine e decine di “passaggi”. E’ inutile sottolineare come l’Analisi Dei Risultati del mining sia uno degli steps più importanti dell’intero processo.
Il suo obiettivo è quello di rispondere alla domanda: “abbiamo trovato qualcosa di interessante, valido ed utilizzabile?”. Mentre le tecniche statistiche si limiterebbero ad un secco “sì/no”, i risultati del data mining sono in grado di suggerire la risposta o, nella peggiore delle ipotesi, indicare la direzione da intraprendere in una successiva ricerca. Nel momento in cui viene sviluppato un modello predittivo, uno degli obiettivi cruciali è quello di testare la sua accuratezza. Molti strumenti di data mining forniscono un grosso aiuto in questo senso, con le “confusion matrixes” (che indicano quanto sono giuste le predizioni sulla base di risultati già noti) e l’”input sensitivity analysis” (che misura l’importanza relativa attribuita a ciascuna variabile in input).Una delle più comuni fonti di errore, nella costruzione di un modello predittivo, è la scelta di variabili troppo predittive. Un’altra difficoltà è data dall’overtraining: il modello predice bene sui dati utilizzati per il training, ma male su quelli reali. Da tenere in considerazione vi sono poi le cosiddette “association rules”: se il livello di confidenza è troppo basso, il modello predittivo individua regole che regole non sono. Viceversa, se il livello è troppo alto, vengono individuate soltanto le regole più generali, già conosciute dagli addetti ai lavori. Il ciclo viene chiuso con uno step altamente legato al precedente, l'assimilazione della conoscenza, che ha lo scopo di trasformare in azione le nuove informazioni individuate. Le sfide principali da affrontare in questo contesto sono due: presentare le nuove scoperte in maniera convincente e business-oriented; elaborare i modi in cui le nuove informazioni possono essere sfruttate al meglio.
Siamo abituati a pensare alle tabelle di excel come elementi statici che permettono di incrociare due dati rappresentati dall ' intestazione di colonna e riga .Ma in realtà esiste un altro tipo di tabelle chiamata PIVOT in cui i campi possono anche essere ruotati ,combinati e incrociati più volte per ottenere informazioni precise e dettagliate .
Permette all'utente di gestire le differenti dimensioni

venerdì 14 maggio 2010

NORMALIZZAZIONE

La Normalizzazione e Denormalizzazione sono entrambe tecniche accettabili nei loro rispettivi contesti in quello di analisi ed estrazione .
La Normalizzazione genericamente sta ad indicare un processo che modifica degli oggetti per conformarli a un criterio prestabilito di regolarità; nel particolare, in statistica, è un processo che ci porta a poter confrontare distribuzioni diverse di valori, limitandoli in un intervallo predefinito;
ha come effetto la diminuzione di ridondanza, quindi ottimizza anche lo spazio occupato all'interno del database ed evita di riportare dati ripetutamente; di norma andrebbe fatta nella fase progettuale, identificando i dati raggruppabili in tabelle separate per metterli in relazione con le tabelle del database. La normalizzazione nella fase iniziale di una ricerca ci porta ad avere un database più funzionale, espandibile ed ottimizzato.
Abbiamo tre tipologie di normalizzazione:
- Prima forma normale: è il caso in cui ogni tupla (riga di una matrice delle relazioni di un database relazionale; è l’entità base che si memorizza nel database) contiene un singolo valore per ogni attributo: si spostano i dati in tabelle separate, raggruppate per tipologie.
- Seconda forma normale: soddisfa la prima e inoltre ogni attributo che non fa parte della chiave è indipendente da ogni chiave. La chiave determina l'univocità di ogni record in ogni tabella.
- Terza forma normale: la regola è eliminare i campi che sono validi per più record (si creano delle tabelle per raggrupparli); si utilizza per dati frequentemente modificati.
-Esistono, inoltre, 4° e 5° forma normale, ma sono molto meno utilizzate perché alla diminuzione della ridondanza si affianca un degrado delle prestazioni (es: più tempo di esecuzione).


IN INFORMATICA :
Tabelle
Sono dei costrutti che consentono di disporre il testo in una struttura di righe e colonne, al fine di rappresentare e organizzare al meglio i dati .
Righe ( record) ovvero registrazioni di tipo individuale.
Colonne ( campi) unità minima di informazioni; gruppi di informazioni omogenee. Ad esempio un oggetto di un database strutturato in dati che contiene un insieme di campi o elementi.
Celle intersezione di ogni riga con ogni colonna, da luogo alla misura .
Unità statistica unità di misura informatica che misura la quantità di informazioni.
Carattere unità minima di informazione, può quindi essere una lettera, un numero una dimensione.
IN STATISTICA:
Tabelle
Consentono di disporre il testo in una struttura di righe e colonne , al fine di rappresentare e organizzare al meglio i dati.
Righe ( record) rappresentano le unità statistiche o entità; ovvero le unità elementari su cui si osservano i caratteri oggetti di studio.
Colonne rappresentano i caratteri o variabili ovvero ciò e si vuole osservare dell'unità statistica.
Celle intersezione di ogni riga con ogni colonna, da lugo alla modalità.
Unità Statistica elemento di base della popolazione sul quale viene rilevata la caratteristica oggetto di studio; può essere una persona fisica , giuridica, o qualunque evento o istituzione.
Carattere aspetto dell'unità statistica sul quale si vuole indagare , le cui manifestazioni sono chiamate modalità, può essere Quantitativo se le modalità sono espresse mediante una grandezza misurabile o numerabile( valore).

SPREADSHEET e DBMS: differenze e analogie
Spreadsheet in inglese significa foglio di calcolo, altrimenti detto foglio elettronico Il principio su cui si basa è semplice: fornire una tabella, detta anche foglio di lavoro, formata da celle in cui si possono inserire dati, numeri o formule.
Le celle, sono la base fondamentale del foglio di calcolo per essere riconoscibili, sono costituite da una lettera e un numero.
Le colonne sono indicate dalle lettere, le righe dai numeri.I fogli di calcolo automatizzati offrono un gran numero di funzionalità per il calcolo e la creazione di grafici per la visualizzazione e la modifica di dati tabulari. Possono inoltre essere utilizzati efficacemente per memorizzare elenchi di informazioni, attualmente il foglio di calcolo maggiormente utilizzato è Microsoft Excel.
Man mano che i requisiti degli elenchi crescono in complessità, può diventare difficile gestire i dati in un foglio di calcolo.
Un'applicazione di database relazionale è più adatta alla creazione e all'utilizzo di elenchi complessi, si parla in questi casi di DBMS (database management system) è un sistema software progettato per consentire la creazione e manipolazione efficiente di database (ovvero di collezioni di dati strutturati) solitamente da parte di più utenti. I DBMS svolgono un ruolo fondamentale in numerose applicazioni informatiche, dalla contabilità, alla gestione delle risorse umane e alla finanza fino a contesti tecnici come la gestione di rete o la telefonia. Molto conosciuto Microsoft Access o anche Oracle. La progettazione del database (database design) è il processo decisionale su come organizzare i dati in possesso in tipi di record e su come ciascun tipo di record si relaziona con gli altri.

Analogie e differenze
Database e fogli di calcolo hanno molte analogie se prendiamo ad esempio le due più conosciute applicazioni, Excel e Access riscontriamo che entrambe consentono infatti di eseguire potenti query per ordinare e filtrare i dati, eseguire calcoli, utilizzare maschere per aggiungere, modificare, eliminare e consultare i dati con facilità, utilizzare visualizzazioni tabella pivot e grafico pivot per gestire i dati in modo interattivo, generare rapporti sui dati e visualizzarli in più formati, e ancora, importare dati da database esterni creare pagine web, infine entrambe le applicazioni organizzano i dati in colonne, dette anche campi, nonostate tutte queste somiglianze bisogna comunque tenere a mente che Excel rimane un foglio di calcolo mentre in un database i dati vengono memorizzati in tabelle molto simili ai fogli di lavoro, ma progettate per l'esecuzione di query complesse in relazione ai dati memorizzati in altre tabelle e posizioni, nonché in campi di altre tabelle.