ritablog: maggio 2010

lunedì 31 maggio 2010

CUSTOMER RELATIONSHIP MANAGEMENT

In un'impresa "Market-oriented" il mercato non è più rappresentato solo dal cliente ma dall'ambiente circostante, con il quale l'impresa deve stabilire relazioni durevoli di breve e lungo periodo, tenendo conto dei valori dell'individuo/cliente, della società e dell'ambiente.
il CRM nasce con l'obiettivo di aiutare le aziende nella fidelizzazione dei clienti , col fine di realizzare nuove opportunità intervenendo dove il cliente ha necessità prevedibili e soddisfabili.
Fidelizzare il cliente significa conoscerlo , capire e prevederne i bisogni , capirne i tempi e rispondere alle sue esigenze .
Il CRM è lo strumento che consente la gestione delle relazioni con i clienti , col fine di averne sempre presente la situazione prevederne le necessità ed in definitiva mantenere viva nel cliente l'attenzione per l'azienda .
In un'impresa "Market-oriented" il mercato non è più rappresentato solo dal cliente ma dall'ambiente circostante, con il quale l'impresa deve stabilire relazioni durevoli di breve e lungo periodo, tenendo conto dei valori dell'individuo/cliente, della società e dell'ambiente. Quindi l'attenzione verso il cliente è cruciale e determinante. Per questo motivo il marketing management deve pianificare e implementare apposite strategie per gestire una risorsa così importante.
La trasformazioni degli attuali clienti in procuratori, ossia consumatori che lodano l’azienda incoraggiando altre persone a rivolgersi alla stessa per i loro acquisti. Alcune aziende cercano di non tenere conto di clienti che hanno poca importanza (definiti in gergo "clienti sotto-zero") e attuano delle implicite tecniche definite, sempre gergalmente, come "Demarketing". Il CRM si articola comunemente in 3 tipologie: CRM operativo: soluzioni metodologiche e tecnologiche per automatizzare i processi di business che prevedono il contatto diretto con il cliente. CRM analitico: procedure e strumenti per migliorare la conoscenza del cliente attraverso l'estrazione di dati dal CRM operativo, la loro analisi e lo studio revisionale sui comportamenti dei clienti stessi. CRM collaborativo: metodologie e tecnologie integrate con gli strumenti di comunicazione (telefono, fax, e-mail, ecc.) per gestire il contatto con il cliente.
L'errore più comune in cui ci si imbatte quando si parla di Customer Relationship Management è quello di equiparare tale concetto a quello di un software.
Il CRM non è una semplice questione di marketing né di sistemi informatici, bensì si avvale in maniera sempre più massiccia, di strumenti informatici o comunque automatizzati, per implementare il management. Il CRM è un concetto strettamente legato alla strategia, alla comunicazione, all'integrazione tra i processi aziendali, alle persone ed alla cultura, che pone il cliente al centro dell'attenzione sia nel caso del business-to-business sia in quello del business-to-consumer. Le applicazioni CRM servono a tenersi in contatto con la clientela, a inserire le loro informazioni nel database e a fornire loro modalità per interagire in modo che tali interazioni possano essere registrate e analizzate.
Prima di seguire la strada del CRM ogni azienda deve essere consapevole che:bisogna investire prima in strategia, organizzazione e comunicazione, solo dopo nella tecnologia. La scelta del software non ha alcun effetto sulla probabilità di successo. Ciò non implica che i software siano tutti uguali, ma significa solo che nessun software porterà al successo un progetto sbagliato.il CRM è adatto sia a quelle aziende che cercano un Return on investment (ROI) veloce sia a quelle che curano il processo di fidelizzazione e l'aumento del Lifetime value (LTV) dei clienti che richiede del tempo.
Il CRM si avvale, in maniera sempre più massiccia, di strumenti informatici o comunque automatizzati, per implementare il management, è un concetto strettamente legato alla strategia, alla comunicazione, all'integrazione tra i processi aziendali, alle persone ed alla cultura, che pone il cliente al centro dell'attenzione.Le applicazioni CRM servono a tenersi in contatto con la clientela, a inserire le loro informazioni nel database e a fornire loro modalità per interagire in modo che tali interazioni possano essere registrate e analizzato.

Quindi l'attenzione verso il cliente è cruciale e determinante.
Per questo motivo il marketing management deve pianificare e implementare apposite strategie per gestire una risorsa così importante.
Il CRM si spinge sostanzialmente secondo quattro direzioni differenti e separate:
L'acquisizione di nuovi clienti (o "clienti potenziali")
L'aumento delle relazioni con i clienti più importanti (o "clienti coltivabili")
La fidelizzazione più longeva possibile dei clienti che hanno maggiori rapporti con l'impresa (definiti "clienti primo piano")
La trasformazioni degli attuali clienti in procuratori, ossia consumatori che lodano l’azienda incoraggiando altre persone a rivolgersi alla stessa per i loro acquisti
Alcune aziende cercano di non tenere conto di clienti che hanno poca importanza (definiti in gergo "clienti sotto-zero") e attuano delle implicite tecniche definite, sempre gergalmente, come "Demarketing".
Il CRM si articola comunemente in 3 tipologie:
CRM operativo: soluzioni metodologiche e tecnologiche per automatizzare i processi di business che prevedono il contatto diretto con il cliente.

Le applicazioni CRM servono a tenersi in contatto con la clientela, a inserire le loro informazioni nel database e a fornire loro modalità per interagire in modo che tali interazioni possano essere registrate e analizzate.
Prima di seguire la strada del CRM ogni azienda deve essere consapevole che:
bisogna investire prima in strategia, organizzazione e comunicazione, solo dopo nella tecnologia. La scelta del software non ha alcun effetto sulla probabilità di successo. Ciò non implica che i software siano tutti uguali, ma significa solo che nessun software porterà al successo un progetto sbagliato.
il CRM è adatto sia a quelle aziende che cercano un Return on investment (ROI) veloce sia a quelle che curano il processo di fidelizzazione e l'aumento del Lifetime value (LTV) dei clienti che richiede del tempo. Continuiamo la nostra ricerca analizzando il concetto di :
Market Basket Analysis, uno strumento di data mining basato sulle regole associative, che permette di studiare le abitudini di acquisto dei consumatori per evidenziare affinità esistenti tra prodotti o gruppi di prodotti venduti .Lo scopo `e quello di inferire delle implicazioni, del tipo if condition thenresult, che esprimano la probabilità di acquisto di prodotti differenti al fine di stabilire quanto l’acquisto di un prodotto influenzi l’acquisto di un altro.
L’analisi delle regole associative dar`a informazioni del tipo:
L’80% dei clienti che acquistano biscotti acquistano anche latte, così da poter affermare che biscotti e latte sono correlati, o altrimenti, che esiste un implicazione del tipo biscotti ) latte.
Tale analisi costistuisce un forte strumento di marketing sfruttabile dallesociet`a di e-retail, ma anche dai supermercati tradizionali, per incrementarei profitti con:
• mirate strategie promozionali: non mettendo in promozione contemporaneamenteitem fortemente correlati. La promozione su uno dei prodotti e quindi l'aumento delle vendite anche sugli item associati;• il miglioramento della struttura logica del sito, creando iperlink o bannerche colleghino i prodotti associati, nel caso dell’e-commerce; o trovandola posizione ottimale dei prodotti sugli scaffali, nel caso di unsupermercato tradizionale. Prodotti correlati potranno essere posizionati vicini o , al contrario , in diverse corsie in modo da invogliare e stimolare il cliente ad acquistare diversi prodotti . La Market Basket Analysis `e nata per capire e risolvere problemi di marketing, ma oggi trova anche altre applicazioni, come in medicina, per trovarecorrelazioni tra sintomi diversi delle malattie o tra prodotti farmaceutici, ein ambito finanziario e assicurativo per individuare, per esempio gli attributipiù ricorrenti che caratterizzano un cliente fraudolento.Un esempio banale:
Tipicamente i dati raccolti dalle società vengono immagazzinati e strutturatiin un database.
Sarà compito poi degli strumenti informatici del data miningestrarne specifiche informazioni e conoscenze che siano di supporto alle decisioni aziendali.
Tra le principali tecniche di mg troviamo anche la PROFILAZIONE
cioè tecnica di valutazione qualitativa in grado di stimare le caratteristiche del singolo utente , in modo da poter cogliere per ognuno abilità vari tipi di comportamenti e aspetti della personalità.
DECISION TREE è invece una tecnica che permette di creare alberi decisionali e di classificazione per identificare con frande semplicità gruppi e individuare relazioni , tra gruppi.

Nel Data mining un albero di decisione viene utilizzato per classificare le istanze di grandi quantità di datiIl data mining è il processo di individuazione di informazioni utilizzabili da garndi set di dati . nel data mining viene utilizzata l'analisi matematica per dedurre schemi e tendenze esistenti nei dati.In genere, questi schemi non possono essere individuati tramitel'espolazione tradizionale dei dati perchè le relazioni sono troppo complesse o perchè sono presenti troppi dati. Gli schemi e le tendenze posono essere raccolti e definiti in un modello di data mining. E' possibile applicare i modelli di data mining e scenari aziendali specifici ad esempio:
previsioni di venditemailing diretti a clienti specifici individuazione dei datcampione dei modelli

domenica 30 maggio 2010

CONCETTI DI BASE PER LA CREAZIONE DEI KPI, PONDERAZIONE ,NORMALIZZAZIONE, STANDARDIZZAZIONE

sono report a una cella o calcoli gestionali che indicano le prestazioni di una parte delle attività aziendali .
consentono di eseguire le seguenti attività:
Esaminare un riepilogo delle prestazioni effettive rispetto a quelle previste e identificare rapidamente le prestazioni di importanza critica.I KPI selezionati vengono visualizzati da una scorecard.Essa differerisce da un report per il fatto che è possibile definire diversi livelli di soglia per i dati e indirizzare i confronti a un livello specifico. Dalla scorecard è possibile inoltre accedere ai report abbinati ai singoli KPI per eseguire ulteriori analisi dei dati prestazionali.
È possibile esaminare i dati in formato report e grafici multidimensiona le funzioni di supporto decisionale consentono di effettuare analisi a un livello più dettagliato ( drilling down), a un livello supiore ( drilling up) o in maniera trasversale ( drillng cross) per una visione dei dati completamente diversa . Le funzioni fornite da BI consentono di evitare l’uso di un’applicazione analitica basata su ipercubo.
BI comprende misure di calcolo predefinite (metric) e report di prestazioni correnti in diversi formati e trend. È anche possibile personalizzare gli oggetti in base alle esigenze dei singoli utenti, le quali variano a seconda delle diverse ubicazioni e responsabilità. È possibile aggiungere KPI, scorecard e report in base ad esigenze specifiche.
Grazie a strumenti di supporto decisionale quali i KPI e i report, l'azienda può ottenere dati personalizzati che delineano al meglio i compiti professionali o i ruoli dei dipendenti.
I KPI sono calcoli gestionali che aiutano a monitorare le prestazioni di una parte delle attività aziendali. I KPI consentono di identificare rapidamente le prestazioni di maggiore importanza e le opportunità di crescita e di aumento della redditività.
Il meccanismo di inserimento dei calcoli nei report viene chiamato misura di calcolo (metric).
Per ogni KPI, i calcoli vengono eseguiti tramite una misura di calcolo (metric). Tale misura non comprende un livello di dettaglio specifico. Quando vengono creati i KPI, è necessario specificare i livelli di dettaglio tramite i filtri. In tal modo è possibile specificare un calcolo un'unica volta e utilizzarlo a vari livelli per diversi scopi.
Business Intelligence (BI) comprende misure predefinite che possono essere utilizzate per la creazione dei KPI. Con MicroStrategy è anche possibile creare misure personalizzate e
utilizzarle per la definizione dei KPI.

Un KPI può essere paragonato a un report. Si tratta di un report contenente una casella singola di dati.
Ad esempio, si ipotizzi che il seguente report illustri le vendite totali di un reparto.
La casella che contiene l’importo 40.000 è il KPI del totale delle vendite del reparto centrale.
Reparto Totale vendite Centrale 40,000
I KPI differiscono dai report standard anche per il fatto che permettono un confronto diretto con i valori soglia indicati (valori superiori, inferiori e previsti).
L’accesso ai KPI è consentito in base a ruoli o ID utente. Quando si accede a un KPI tramite ruolo o utente, è possibile specificare un'autorizzazione di tipo Visualizzabile o Visualizzabile/modificabile per il KPI stesso. L'autorizzazione di tipo Visualizzabile consente all'utente di scegliere e visualizzare il KPI. L'autorizzazione di tipo Visualizzabile/modificabile consente all’utente di visualizzare e modificare il KPI.

La NORMALIZZAZIONE è un procedimento volto all'eliminazione della ridondanza e del rischio di incoerenza dal database. Esistono vari livelli di normalizzazione (forme normali) che certificano la qualità dello schema del database.
Questo processo si fonda su un semplice criterio: se una relazione presenta più concetti tra loro indipendenti, la si decompone in relazioni più piccole, una per ogni concetto. Questo tipo di processo non è purtroppo sempre applicabile in tutte le tabelle, dato che in taluni casi potrebbe comportare una perdita d'informazioni.Questo tipo di processo non è sempre applicabile in tutte le tabelle , dato che in taluni casi potrebbe comportare una peredita di informazioni.

Due concetti sono fondamentali all'interno della normalizzazione , quello di ridondanza , che si riferisce alla situazione in cui gli stessi dati vengono memorizzati inutilmente più volte e il concetto di anomalia che si riscontra nel momento in cui si verificano irregolarità dei dati.

STANDARDIZZAZIONE DI VARIABILI
Una procedura di fondamentale importanza in statistica e nell'analisi dei dati è la standardizzazione delle variabili. Attraverso questa procedura statistica è possibile rendere confrontabili variabili identiche appartenenti a distribuzioni diverse, ma anche variabili diverse, o variabili espresse in unità di misura diverse. La variabile standardizzata è: essa misura le deviazioni dalla media aritmetica e ha come unità di misura la deviazione standard.Un dato così trasformato si chiama punto standard o punto z.
La standardizzazione è una doppia normalizzazione. Nella prima normalizzazione ogni dato è trasformato nel suo scarto dalla media, nella seconda normalizzazione questo scarto viene trasformato dall'unità di misura o di conto di quella variabile in unità del suo scarto-tipo.
Proprietà della distribuzione di una variabile standardizzata. Ogni punto della vecchia distribuzione corrisponde ad uno e un solo punto della nuova, e conserva le sue distanze relative da ogni altro punto.
Poiché i dati originali sono stati trasformati in scarti dalla media, e la somma algebrica degli scarti dalla media è per definizione 0, tutte le variabili standardizzate hanno media 0. Inoltre, poiché ogni scarto dalla media viene poi diviso per lo scarto-tipo della variabile di partenza, lo scarto-tipo di una qualunque variabile standardizzata è 1.
PONDERAZIONE
Situazione piu comune e quella della post-stratificazione:
distribuzione di una certa variabile nel campione diversa nella popolazione, ponderazione per ricondursi .

Tabella
si tratta di una operazione di manipolazione dei dati che e consigliabile se non comporta una alerazione eccessiva dei dati originari : se sottocampionati distorti , ponderando aumentiamo la distorsione.
La ponderazione si impone con una certa urgenza se l’obiettivo della ricerca e di tipo descrittivo. (ES.: sondaggio elettorale). L’esigenza della ponderazione e meno urgente se lo studio e finalizzato alle relazioni fra variabili.

martedì 18 maggio 2010

OLAP SLICE E DICE IPERCUBI DIMENSION MEASURE

OLAP( on line analytil processing) è una metodologia che forniscegli utenti finali l'accesso a un gigantesco ammontare di dati in modo intuitivo e rapido, e che li assiste nei ragionamenti investigativi su base deduttiva .
I sistemi OLAP servono a

permettono di eseguire operazioni non previste nella progettazione del DB ( sistemi di supporto alle decisoni)
operano su grosse moli di dati
i dati sono "statici "
operano su dati provenienti da più fonti eterogenee
supportare analisi complesse a fronte di una grande quantità di dati in ingresso (a livello atomico)

Una struttura OLAP, in pratica, raccchiude un insieme di tecniche software per l'analisi interattiva e veloce di grandi quantità di dati, che è possibile esaminare in modalità piuttosto complesse ed è proprio per questo che essa viene chiamata "cubo" multidimensionale. Ci sono diversi modi per creare un cubo, ma il più conosciuto è quello che utilizza uno schema "a stella": al centro c’è la tabella dei "fatti" che elenca i principali elementi su cui sarà costruita l’interrogazione e collegate a questa tabella ci sono varie tabelle delle "dimensioni" che specificano come saranno aggregati i dati.
Per esempio, un archivio clienti può essere raggruppato per città, provincia, regione; questi clienti possono essere relazionati con i prodotti ed ogni prodotto può essere raggruppato per categoria.
Il calcolo delle possibili combinazioni di queste aggregazioni forma una struttura OLAP che, potenzialmente, potrebbe contenere tutte le risposte per ogni singola combinazione.

In realtà, viene memorizzato solo un numero predeterminato di combinazioni, mentre le rimanenti vengono ricalcolate solo al momento in cui quella richiesta viene materialmente effettuata.Gli strumenti OLAP hanno come obiettivo la performance nella ricerca e il raggiungimento di un'ampiezza di interrogazione quanto più grande possibile.Eseguendo successivamente delle interrogazioni sui dati strutturati in questa maniera è possibile ottenere risposte in tempi decisamente ridotti rispetto alle stesse operazioni effettuate su altre tipologie di database.

Le funzioni di base di uno strumento OLAP sono:Slice & Dice.

Funzionalità che consente di ristrutturare le informazioni in modo da renderne più efficace la visualizzazione: creazione di master-detail e rotazione degli assi delle rappresentazioni a matrice. Roll-up (drill- up). Esegue aggregazioni delle misure per riduzione di dimensioni o per generalizzazione dei valori nella gerarchia.
Drill Down. Tecnica usata nell'ambito del data mining per condurre analisi multidimensionali. Essa rappresenta, infatti, la capacità di penetrare nei dati a diversi livelli di gerarchie. Tabelle relazionali e multidimensionali drill-down sono tabelle che permettono con un semplice click del mouse di scendere ad un ulteriore livello di specificità.

Filtering. Funzione ideata per selezionare una parte dei dati in modo da dare una risposta utile all'utente in modo diretto o in modo indiretto, migliorando la funzione di ricerca.Pivoting. Si tratta della funzione che consente la creazione di tabelle pivot. Nel caso di un DB OLAP si ha una particolare configurazione di tabella pivot, la quale viene chiamata ipercubo OLAP ed è il report che risulta da una query OLAP su un ipercubo di dati.

L'IPERCUBO è formato da un dato, e da un numero arbitrario di dimensioni di analisi e ogni dato è identificato da una tupla di valori, uno per ogni dimensione di analisi, o caratteristica di analisi; ogni caratteristica può essere rappresentata con un asse cartesiano.

IPERCUBI
L'indagine statistica si basa sulla rilevazione dei dati ai fini conoscitivi. A rilevazione avviene su un collettivo statistico, che è composto da le cosiddette unità statistiche sulle quali si effettua la concreta rilevazione dei caratteri/variabili, che possono essere sia di natura quantitativa che qualitativa.Il valore che il carattere assume su ciascuna unità statistica su cui viene effettuata la rilevazione è definito modalità.La modalità non è altro che la determinazione di un carattere sulla singola unità statistica..Per organizzare la mole dei dati racconti gli statisti fanno ricorso alle tabelle, che permettono di avere una visione più chiara e sinetica della ricerca, le tabelle inoltre permettono attraverso il processo di normalizzazione di eliminare le eventuali ritondanze (ripetizioni). All'interno delle tabelle sulle righe vengono posizionate le unità statisstiche mentre sulle colonne il carattere che si desidera rilevare.Una tabella così strutturata ci permette di rilevare un solo carattere sull'unità statistica per volta. Molto spesso però una ricerca mira ad indagare più caratteri contemporaneamente, in questo caso si fa ricorso alle tabelle a doppia entrata.

La tabella a doppia entrata è una tabella a 2 o più variabili che permette di confrontare due identità, una posta in ascissa e una in ordinata e fra ciascuno degli elementie/parti che la costituiscono. Essa dunque, consente di rilevare contemporaneamente due o più caratteri su la medesima unità statistica. In questo modo diventa possibile mettere in relazione la varie variabili al fine di coglirne le relazioni e le eventuali anologie e differenze. Attraverso una serie di analisi consente inoltre, dove gli spazi rimangono bianchi di individuarerelazioni mancanti e la loro natura, favorendo così la ricerca conoscitiva.La rappresentazione di una tabella a doppia entrata è associata ad un ipercubo informativo bidimensionale.

La tabella di contigenza è una tabella costituita da righe che rappresentano i posibili valori o categorie di una variabile e da colonne che rappresentano i possibili valori di una seconda variabile . I dati nel corpo della tabella sono il numero di volte in cui compare ogni coppia di valori categorie.

L'ipercubo informativo è una raccolta di dati di cui conosciamo tre dimensioni di analisi. Ogni componenete di un dato è rappresentata su una dimensione spaziale dell'ipercubo.

Un Cubo OLAP è una struttura per la memorizzazione di dati che permette di eseguire analisi in tempi rapidi, superando un limite dei databace relazionali. I database relazionali non sono adatti ad elaborazioni istantanee e alla visualizzazione di una grande mole di dati.Il Cubo OLAP può essere immaginato come un'estensione del foglio di lavoro a due dimensioni. Il oltre ha da 3 a un arbitrario numero di caratterstiche o dimensioni di analisi.Ad esempio, una società può essere interessata ad analizzare alcuni dati finanziari per prodotto, per periodo di tempo, per città per tipologie di ricavo di costo, e alla comparazione di questi dati con una previsione di budget. Questi metodi di analisi dei dati sono noti come dimensioni.Le dimensioni sono gli attributi strutturali dei cubi, o meglio gerarchie organizzate di livelli che descrivono i dati nella tabella. Nella maggior parte dei casi i membri sono disposti in una configurazione a piramide.Le dimensioni sono tra loro indipendenti, per cui in una database relazionale le tabelle relative alle dimensioni di analisi sono collegate da relazioni molti-a-molti. Il dato numerico è un attributo della relazione fra queste tabelle.

IL CUBO OLAP è composto da dati numerici, detti misure, che sono categorizzati all'interno di dimensioni. La misura è un set di valori basati su una colonna della tabella. Un es. Di misure sono le vendite o i costi)Le manipolazioni OLAP permettono di ritagliare e sminuzzare (slice e dice) un sottoinsieme di dati per osservarli da diverse prospettiva e facilitare il processo di analisi. Praticamente attraverso il processo di slice e dice è possibile restringere l'analisi solamente ad alcune delle occorenze delle dimensioni e solo ad alcune delle dimensioni proposte.

DIMENSION E MEASURE
Le dimensioni (Dimension) sono le tabelle che contengono gli attributi descrittivi delle misure (es: provincia, regione, descrizione del prodotto, categoria del prodotto, ecc). I lati del cubo contengono le dimensioni, mentre la singola cella contiene il valore relativo all’intersezione delle dimensioni.

Le misure (Measures) descrivono l’aspetto quantitativo (es: ogni vendita è misurata dal valore e della quantità). Le misure sono quindi valori aggregati ed analizzabili. L’ aggregazione di una misura è eseguita in una porzione di dimensione in base ad un dato algoritmo (somma, media, etc.).
L'indagine statistica si basa sulla rilevazione dei dati ai fini conoscitivi. A rilevazione avviene su un collettivo statistico, che è composto da le cosiddette unità statistiche sulle quali si effettua la concreta rilevazione dei caratteri/variabili, che possono essere sia di natura quantitativa che qualitativa.Il valore che il carattere assume su ciascuna unità statistica su cui viene effettuata la rilevazione è definito modalità.La modalità non è altro che la determinazione di un carattere sulla singola unità statistica..Per organizzare la mole dei dati racconti gli statisti fanno ricorso alle tabelle, che permettono di avere una visione più chiara e sinetica della ricerca, le tabelle inoltre permettono attraverso il processo di normalizzazione di eliminare le eventuali ritondanze (ripetizioni). All'interno delle tabelle sulle righe vengono posizionate le unità statisstiche mentre sulle colonne il carattere che si desidera rilevare.

Una tabella così strutturata ci permette di rilevare un solo carattere sull'unità statistica per volta. Molto spesso però una ricerca mira ad indagare più caratteri contemporaneamente, in questo caso si fa ricorso alle tabelle a doppia entrata.

domenica 16 maggio 2010

CREAZIONE REPORT DA NORTHWIND

DIFFERENZE TRA REPORTING E MINING

MINING E REPORTING

Generalmente, quando la gente parla di data mining si focalizza principalmente sugli aspetti di “mining” e di scoperta. Il mining dei dati, tuttavia, è solo una delle diversi fasi in cui si articola il processo globale (iterattivo e “multi-step”) di data mining. A guidare l’intero processo sono gli obiettivi di business: essi costituiscono la base su cui viene costruito il nuovo progetto, i parametri con cui vengono valutati i risultati finali e devono essere un costante riferimento per il team durantele varie fasi di sviluppo.
I 5 steps sequenziali sono:

Business Objectives Determination: definizione chiara del problema di business o della sfida che l’azienda si pone;
Data Preparation:
2.1 Data Selection: identificazione di tutte le fonti di informazione (interne o esterne) e selezione di quel sottoinsieme di dati necessario per l’applicazione di data mining;
2.2 Data Preprocessing: studio sulla qualità dei dati, indirizza la futura analisi determinando il tipo di operazioni di mining che è possibile effettuare;
2.3 Data Transformation: trasformazione dei dati in un modello analitico. I dati vengono modellati in modo da essere conformi ai formati richiesti dagli algoritmi di data mining e poter così effettuare le analisi precedentemente scelte;
Data Mining: mining dei dati trasformati. E’ il cuore del processo, ma, a parte la scelta della combinazione di algoritmi più appropriata, viene svolto in modo completamente automatico;
Analysis of Results: interpretazione e valutazione dell’output dello step 3. L’approccio all’analisi può variare in funzione dell’operazione di data mining effettuata, ma chiama generalmente in causa qualche tecnica di visualizzazione;
Assimilation of Knowledge: incorporazione, all’interno dell’azienda e del suo sistema informativo, delle conoscenze acquisite. L’obiettivo del Data Mining è chiaramente quello di applicare gli algoritmi di data mining selezionati ai dati preprocessati.

Nonostante, in questo generico processo, la fase di data mining sia rappresentata come indipendente, nella realtà essa è praticamente inscindibile dall'analisi dei risultati, così come è molto raro che essa possa essere ultimata senza tornare, almeno una volta, alla fase precedente di preparazione dei dati. Ciò che accade durante questa fase varia notevolmente in base al tipo di applicazione che si sta sviluppando: nel caso della segmentazione di un database possono essere più che sufficienti uno o due “passaggi” degli algoritmi sui dati. Situazione ben diversa si ha quando si sviluppa un modello predittivo: il training può richiedere infatti decine e decine di “passaggi”. E’ inutile sottolineare come l’Analisi Dei Risultati del mining sia uno degli steps più importanti dell’intero processo.
Il suo obiettivo è quello di rispondere alla domanda: “abbiamo trovato qualcosa di interessante, valido ed utilizzabile?”. Mentre le tecniche statistiche si limiterebbero ad un secco “sì/no”, i risultati del data mining sono in grado di suggerire la risposta o, nella peggiore delle ipotesi, indicare la direzione da intraprendere in una successiva ricerca. Nel momento in cui viene sviluppato un modello predittivo, uno degli obiettivi cruciali è quello di testare la sua accuratezza. Molti strumenti di data mining forniscono un grosso aiuto in questo senso, con le “confusion matrixes” (che indicano quanto sono giuste le predizioni sulla base di risultati già noti) e l’”input sensitivity analysis” (che misura l’importanza relativa attribuita a ciascuna variabile in input).Una delle più comuni fonti di errore, nella costruzione di un modello predittivo, è la scelta di variabili troppo predittive. Un’altra difficoltà è data dall’overtraining: il modello predice bene sui dati utilizzati per il training, ma male su quelli reali. Da tenere in considerazione vi sono poi le cosiddette “association rules”: se il livello di confidenza è troppo basso, il modello predittivo individua regole che regole non sono. Viceversa, se il livello è troppo alto, vengono individuate soltanto le regole più generali, già conosciute dagli addetti ai lavori. Il ciclo viene chiuso con uno step altamente legato al precedente, l'assimilazione della conoscenza, che ha lo scopo di trasformare in azione le nuove informazioni individuate. Le sfide principali da affrontare in questo contesto sono due: presentare le nuove scoperte in maniera convincente e business-oriented; elaborare i modi in cui le nuove informazioni possono essere sfruttate al meglio.

Siamo abituati a pensare alle tabelle di excel come elementi statici che permettono di incrociare due dati rappresentati dall ' intestazione di colonna e riga .Ma in realtà esiste un altro tipo di tabelle chiamata PIVOT in cui i campi possono anche essere ruotati ,combinati e incrociati più volte per ottenere informazioni precise e dettagliate .

Permette all'utente di gestire le differenti dimensioni

venerdì 14 maggio 2010

NORMALIZZAZIONE

La Normalizzazione e Denormalizzazione sono entrambe tecniche accettabili nei loro rispettivi contesti in quello di analisi ed estrazione .

La Normalizzazione genericamente sta ad indicare un processo che modifica degli oggetti per conformarli a un criterio prestabilito di regolarità; nel particolare, in statistica, è un processo che ci porta a poter confrontare distribuzioni diverse di valori, limitandoli in un intervallo predefinito;
ha come effetto la diminuzione di ridondanza, quindi ottimizza anche lo spazio occupato all'interno del database ed evita di riportare dati ripetutamente; di norma andrebbe fatta nella fase progettuale, identificando i dati raggruppabili in tabelle separate per metterli in relazione con le tabelle del database. La normalizzazione nella fase iniziale di una ricerca ci porta ad avere un database più funzionale, espandibile ed ottimizzato.
Abbiamo tre tipologie di normalizzazione:
- Prima forma normale: è il caso in cui ogni tupla (riga di una matrice delle relazioni di un database relazionale; è l’entità base che si memorizza nel database) contiene un singolo valore per ogni attributo: si spostano i dati in tabelle separate, raggruppate per tipologie.
- Seconda forma normale: soddisfa la prima e inoltre ogni attributo che non fa parte della chiave è indipendente da ogni chiave. La chiave determina l'univocità di ogni record in ogni tabella.
- Terza forma normale: la regola è eliminare i campi che sono validi per più record (si creano delle tabelle per raggrupparli); si utilizza per dati frequentemente modificati.
-Esistono, inoltre, 4° e 5° forma normale, ma sono molto meno utilizzate perché alla diminuzione della ridondanza si affianca un degrado delle prestazioni (es: più tempo di esecuzione).

IN INFORMATICA :
Tabelle
Sono dei costrutti che consentono di disporre il testo in una struttura di righe e colonne, al fine di rappresentare e organizzare al meglio i dati .
Righe ( record) ovvero registrazioni di tipo individuale.
Colonne ( campi) unità minima di informazioni; gruppi di informazioni omogenee. Ad esempio un oggetto di un database strutturato in dati che contiene un insieme di campi o elementi.
Celle intersezione di ogni riga con ogni colonna, da luogo alla misura .
Unità statistica unità di misura informatica che misura la quantità di informazioni.
Carattere unità minima di informazione, può quindi essere una lettera, un numero una dimensione.
IN STATISTICA:
Tabelle
Consentono di disporre il testo in una struttura di righe e colonne , al fine di rappresentare e organizzare al meglio i dati.
Righe ( record) rappresentano le unità statistiche o entità; ovvero le unità elementari su cui si osservano i caratteri oggetti di studio.
Colonne rappresentano i caratteri o variabili ovvero ciò e si vuole osservare dell'unità statistica.
Celle intersezione di ogni riga con ogni colonna, da lugo alla modalità.
Unità Statistica elemento di base della popolazione sul quale viene rilevata la caratteristica oggetto di studio; può essere una persona fisica , giuridica, o qualunque evento o istituzione.
Carattere aspetto dell'unità statistica sul quale si vuole indagare , le cui manifestazioni sono chiamate modalità, può essere Quantitativo se le modalità sono espresse mediante una grandezza misurabile o numerabile( valore).

SPREADSHEET e DBMS: differenze e analogie
Spreadsheet in inglese significa foglio di calcolo, altrimenti detto foglio elettronico Il principio su cui si basa è semplice: fornire una tabella, detta anche foglio di lavoro, formata da celle in cui si possono inserire dati, numeri o formule.
Le celle, sono la base fondamentale del foglio di calcolo per essere riconoscibili, sono costituite da una lettera e un numero.
Le colonne sono indicate dalle lettere, le righe dai numeri.I fogli di calcolo automatizzati offrono un gran numero di funzionalità per il calcolo e la creazione di grafici per la visualizzazione e la modifica di dati tabulari. Possono inoltre essere utilizzati efficacemente per memorizzare elenchi di informazioni, attualmente il foglio di calcolo maggiormente utilizzato è Microsoft Excel.
Man mano che i requisiti degli elenchi crescono in complessità, può diventare difficile gestire i dati in un foglio di calcolo.
Un'applicazione di database relazionale è più adatta alla creazione e all'utilizzo di elenchi complessi, si parla in questi casi di DBMS (database management system) è un sistema software progettato per consentire la creazione e manipolazione efficiente di database (ovvero di collezioni di dati strutturati) solitamente da parte di più utenti. I DBMS svolgono un ruolo fondamentale in numerose applicazioni informatiche, dalla contabilità, alla gestione delle risorse umane e alla finanza fino a contesti tecnici come la gestione di rete o la telefonia. Molto conosciuto Microsoft Access o anche Oracle. La progettazione del database (database design) è il processo decisionale su come organizzare i dati in possesso in tipi di record e su come ciascun tipo di record si relaziona con gli altri.

Analogie e differenze
Database e fogli di calcolo hanno molte analogie se prendiamo ad esempio le due più conosciute applicazioni, Excel e Access riscontriamo che entrambe consentono infatti di eseguire potenti query per ordinare e filtrare i dati, eseguire calcoli, utilizzare maschere per aggiungere, modificare, eliminare e consultare i dati con facilità, utilizzare visualizzazioni tabella pivot e grafico pivot per gestire i dati in modo interattivo, generare rapporti sui dati e visualizzarli in più formati, e ancora, importare dati da database esterni creare pagine web, infine entrambe le applicazioni organizzano i dati in colonne, dette anche campi, nonostate tutte queste somiglianze bisogna comunque tenere a mente che Excel rimane un foglio di calcolo mentre in un database i dati vengono memorizzati in tabelle molto simili ai fogli di lavoro, ma progettate per l'esecuzione di query complesse in relazione ai dati memorizzati in altre tabelle e posizioni, nonché in campi di altre tabelle.

DENORMALIZZAZIONE

La denormalizzazione di una banca dati è il processo per cui si portano i dati sottoposti ad un processo di normalizzazione a quelli originari. Per sua natura la denormalizzazione porta a una ripetizione dei dati o all'aggiunta di dati non necessari.
La denormalizzazione è molto usata specie in contesti come il datawarehouse. Generalmente la denormalizzazione si usa trasformando le relazioni gerarchiche del tipo uno-a-molti in un'unica relazione e quindi in un'unica tabella.

Una Query rappresenta uno strumento per “interrogare” un database. Essa è un collegamento tra l’utente ed il database, e possiamo svolgere varie funzioni, tra cui l’inserimento, la modifica, l’eliminazione dei dati all’interno del database.Si può inoltre definire come l’insieme delle istruzioni per estrarre dati da un database e per la presentazione degli stessi per l'utilizzo.
Permette di recuperare specifiche informazioni tra i tanti dati archiviati nel database e raccolti in tabelle correlate, effettuando ricerche incrociate sui record che rispondono a determinate caratteristiche e filtrando così i dati che interessano, provenienti anche da tabelle diverse.
Solitamente una query viene passata al DBMS in linguaggio SQL (Structured Query Language)Il linguaggio SQL (Structured Query Language) è un linguaggio di tipo non procedurale che consente di operare sui dati di un database tramite frasi che non fanno uso di simboli matematici ed algebrici, ma solo di parole chiave prese dal linguaggio corrente; questo, insieme alla sintassi che riprende forme usuali, fa sì che le frasi abbiano una struttura lineare ed espressiva. In particolare il termine Structured (strutturato) di SQL è riferito al fatto che si può inserire un'interrogazione all'interno di un'altra interrogazione; più in generale si parla di query innestate.
Sul mercato esistono svariate tipologie di database che hanno sviluppato una loro specifica sintassi. Come standard di riferimento hanno però tutti l'SQL ANSI, anche se esistono lievi differenze tra la sintassi dei diversi SQL. Una semplice ed esemplificativa Query SQL può essere la seguente:
SELECT * FROM TABELLA1
Una Query inizia classicamente con il comando select, che apre una stringa di interrogazione sul DB; * sta per all, ovvero tutti (i campi della tabella); from dichiara l'origine dei dati, ovvero, nell'esempio, la TABELLA1.
Una query può contenere parametri per restringere la ricerca, introdotti abitualmente dal comando WHERE. Vediamo un esempio:
SELECT * FROM TABELLA1 WHERE CAMPO1 = 1000;
In questo caso la query restituirà tra tutti i record, solo quelli che avranno nel CAMPO1 il valore 1000.
Si possono inoltre combinare più filtri di ricerca, uniti dalle condizioni and e or, oppure combinare più query insieme (tramite la funzione Join).

IPERCUBI DIMENSION MEASURE

L'indagine statistica si basa sulla rilevazione dei dati ai fini conoscitivi. A rilevazione avviene su un collettivo statistico, che è composto da le cosiddette unità statistiche sulle quali si effettua la concreta rilevazione dei caratteri/variabili, che possono essere sia di natura quantitativa che qualitativa.
Il valore che il carattere assume su ciascuna unità statistica su cui viene effettuata la rilevazione è definito modalità.
La modalità non è altro che la determinazione di un carattere sulla singola unità statistica..
Per organizzare la mole dei dati racconti gli statisti fanno ricorso alle tabelle, che permettono di avere una visione più chiara e sinetica della ricerca, le tabelle inoltre permettono attraverso il processo di normalizzazione di eliminare le eventuali ritondanze (ripetizioni). All'interno delle tabelle sulle righe vengono posizionate le unità statisstiche mentre sulle colonne il carattere che si desidera rilevare.
Una tabella così strutturata ci permette di rilevare un solo carattere sull'unità statistica per volta. Molto spesso però una ricerca mira ad indagare più caratteri contemporaneamente, in questo caso si fa ricorso alle tabelle a doppia entrata.
La tabella a doppiataa entrata è una tabella a 2 o più variabili che permette di confrontare due identità, una posta in ascissa e una in ordinata e fra ciascuno degli elementie/parti che la costituiscono. Essa dunque, consente di rilevare contemporaneamente due o più caratteri su la medesima unità statistica. In questo modo diventa possibile mettere in relazione la varie variabili al fine di coglirne le relazioni e le eventuali anologie e differenze. Attraverso una serie di analisi consente inoltre, dove gli spazi rimangono bianchi di individuarerelazioni mancanti e la loro natura, favorendo così la ricerca conoscitiva.

La rappresentazione di una tabella a doppia entrata è associata ad un ipercubo informativo bidimensionale.

L'ipercubo informativo è una raccolta di dati di cui conosciamo tre dimensioni di analisi. Ogni componenete di un dato è rappresentata su una dimensione spaziale dell'ipercubo.
Un Cubo OLAP è una struttura per la memorizzazione di dati che permette di eseguire analisi in tempi rapidi, superando un limite dei databace relazionali. I database relazionali non sono adatti ad elaborazioni istantanee e alla visualizzazione di una grande mole di dati.
Il Cubo OLAP può essere immaginato come un'estensione del foglio di lavoro a due dimensioni. Il oltre ha da 3 a un arbitrario numero di caratterstiche o dimensioni di analisi.
Ad esempio, una società può essere interessata ad analizzare alcuni dati finanziari per prodotto, per periodo di tempo, per città per tipologie di ricavo di costo, e alla comparazione di questi dati con una previsione di budget. Questi metodi di analisi dei dati sono noti come dimensioni.
Le dimensioni sono gli attributi strutturali dei cubi, o meglio gerarchie organizzate di livelli che descrivono i dati nella tabella. Nella maggior parte dei casi i membri sono disposti in una configurazione a piramide.Le dimensioni sono tra loro indipendenti, per cui in una database relazionale le tabelle relative alle dimensioni di analisi sono collegate da relazioni molti-a-molti. Il dato numerico è un attributo della relazione fra queste tabelle.
Il Cubo OLAP è composto da dati numerici, detti misure, che sono categorizzati all'interno di dimensioni. La misura è un set di valori basati su una colonna della tabella. Un es. Di misure sono le vendite o i costi)
Le manipolazioni OLAP permettono di ritagliare e sminuzzare (slice e dice) un sottoinsieme di dati per osservarli da diverse prospettiva e facilitare il processo di analisi. Praticamente attraverso il processo di slice e dice è possibile restringere l'analisi solamente ad alcune delle occorenze delle dimensioni e solo ad alcune delle dimensioni proposte.

mercoledì 12 maggio 2010

SISTEMA INFORMATIVO: AFFRONDIMENTI , DBS FEDERATI , DATA MART , DSS, CRUSCOTTI ,DASHBOARD DATA WAREHOUSE

Continuiamo la nostra ricerca analizzando...................

IL SISTEMA INFORMATIVO : costituito dall'insieme delle informazioni utilizzate, prodotte e trasformate da un'azienda durante l'esecuzione dei processi aziendali, dalle modalità in cui esse sono gestite e dalle risorse, sia umane, sia tecnologiche, coinvolte. Il sistema informativo è lo strumento di cui ci si avvale per definire decisioni di tipo tattico, strategico, operativo.
Tra l’azienda e l’ambiente in cui essa opera si sviluppa un continuo scambio di informazioni che presuppone:
· la raccolta di dati;
· l’elaborazione di dati;
· la memorizzazione delle informazioni;
· la distribuzione delle informazioni;
· l’analisi critica dei risultati.
Le informazioni sono indispensabili per poter scegliere i comportamenti più rispondenti al conseguimento degli obiettivi, sia di tipo speciale, sia di tipo generale.
Il sistema informativo aziendale è costituito :
· dall’insieme delle informazioni raccolte per soddisfare le esigenze conoscitive interne ed esterne;
· dall’complesso delle procedure per realizzare e trasmettere, nei tempi e nei modi opportuni, le informazioni a chi deve utilizzarle per fini decisionali;
· dai mezzi tecnici e dalla struttura organizzativa che costituiscono la base del processo informativo.
Il sistema informativo aziendale è quindi formato dall’insieme delle informazioni utilizzate da un’azienda; tali informazioni vanno distinte in contabili ed extracontabili.
Le prime sono informazioni sistematiche,sono ottenute in via continuativa e hanno espressione monetaria; le seconde sono informazioni non contabili, sono tenute di volta in volta a seconda delle necessità e possono riguardare il mercato o il comportamento delle aziende concorrenti (informazioni esterne) oppure possono riguardare comportamenti interni aziendali come i difetti dei prodotti, le cause di rallentamento della produzione (informazioni interne).
Il sistema informativo aziendale è suddiviso in:
· contabilità sezionali;
· contabilità generale;
· contabilità direzionale.
Le contabilità sezionali rivelano i dati relativi ad una sola sezione della gestione aziendale e alimentano, rilevando le singole operazioni con valori sintetici la contabilità generale. Esempi di contabilità sezionali sono: la contabilità del personale, la contabilità dei clienti e dei fornitori, la contabilità del magazzino. Pur non essendo legate tra loro, costituiscono dei sub-sistemi del sistema informativo contabile.
La contabilità generale è il sistema di elaborazione che ha come scopo la rilevazione del risultato economico e la rilevazione del patrimonio netto di funzionamento. Il bilancio di esercizio è la sintesi della contabilità generale e ha funzione informativa prevalentemente esterna essendo rivolto a diversi utilizzatori:
gli azionisti attuali e potenziali, le banche, i clienti e i fornitori, il fisco, le associazioni sindacali e di categoria.
Il bilancio di esercizio ha una funzione informativa pubblica, ha carattere di ufficialità e poiché è obbligatorio deve anche rispettare le leggi che lo regolano. Esso è composto da Stato Patrimoniale, Conto Economico e Nota Integrativa, deve essere redatto secondo corretti principi contabili e deve fornire indicazioni complessive generali sulla situazione economica e finanziaria dell’azienda. Il bilancio è redatto con frequenza annuale sulla base di valori storici e sintetici e consente il controllo della gestione a posteriori.
Poiché si tratta di un consuntivo generale, i valori in esso contenuti sono valori rilevati dalla contabilità generale, nella quale sono confluiti i valori totali di ogni contabilità sezionale che aveva utilizzato informazioni analitiche ed elementari.

CHE COSA E' UN DATA BASE

E' una collezzione di dati esempio: rubrica telefonica , sistema delle tasse italiano, conto corrente bancario questa collezzione può essere generata e gestita: manualmente ( rubrica) tramite l'utilizzo del computer .

Quando si utilizza i computer la gestione può essere fatta: utilizzando un insieme di programmi che sono stati scritti appositivamente per la particolare applicazione . Un Database e’ una collezione organizzata di informazioni.
I vantaggi dell' utilizzo di un Database sono i seguenti:
Il ritrovamento dei dati e’ veloce
I dati occupano meno spazio
I dati possono essere condivisi da piu’ utenti
I dati ridondanti sono minori
L' inconsistenza dei dati puo’ essere evitata
La sicurezza puo’ essere controllata

Utilizzando un "data base managemnte system" DBMS collezzione di programmi che consente all'utente di creare e mantenere un database.

Il data base system non è solo il database ma anche il suo catalogo contiene informazioni quali la struttura di ogni file , il tipo dei testi ( schema)e devono essere immagazzinati e i vari vincoli sui dati.

In informatica, un Database Management System (abbreviato in DBMS) è un sistema software progettato per consentire la creazione e manipolazione efficiente di database (ovvero di collezioni di dati strutturati) solitamente da parte di più utenti.

I DBMS svolgono un ruolo fondamentale in numerose applicazioni informatiche, dalla contabilità, alla gestione delle risorse umane e alla finanza fino a contesti tecnici come la gestione di rete o la telefonia.

Se in passato i DBMS erano diffusi principalmente presso le grandi aziende e istituzioni (che potevano permettersi l'impegno economico derivante dall'acquisto delle grandi infrastrutture hardware necessarie per realizzare un sistema di database efficiente), oggi il loro utilizzo è diffuso praticamente in ogni contesto.

L'espressione applicazione enterprise, che nel gergo informatico si riferisce ad applicazioni legate al business delle aziende che le utilizzano, implica quasi "per definizione" la presenza di una o più basi di dati amministrate da uno o più DBMS.
La teoria dei database, e dei DBMS, rappresenta da sempre uno dei filoni più solidi e importanti dell'informatica.

Quali sono i vanataggi nell'utilizzare un dbms ?

Controllo dell duplicazione dei dati e software, diverse interfacce che possono essere utilizzate da diversi utenti, database descrive automaticamente il formato dei dati. E' utile quando si trattano dati complessi.

DATA MART è un raccoglitore di dati specializzaro in un particolare soggetto.

un data mart contiene un 'immagine dei dati che permette di formaulare strategie sulla base degli andamenti passati. Normalmente si colloca a valle di un data warehouse più globale ed è alimentato a partire da esso , di cui si costituisce in partica , un estratto detto i termini più tecnici un data mart.

Avere a disposizione le informazioni aziendali che aiutano a improntare la strategia vincente per il proprio business: è questa la sfida della Business Intelligence, la nuova tecnologia che estrapola l'insieme di informazioni a disposizione dell'azienda in un'ottica di futuro vantaggio competitivo.Attività di analisi e report, comunicazioni e strategie di marketing personalizzate, rapido accesso ai dati, riorganizzazione della produzione per un'efficiente risposta alle richieste dei clienti: sono solo alcune delle funzionalità presenti nei sistemi di BI.

Grazie al portafoglio di prodotti Microsoft® Dynamics, SB Soft offre una soluzione flessibile e avanzata alle aziende che cercano un software in grado di ridurre i tempi decisionali e di aiutarle a pianificare in maniera efficiente il proprio posizionamento sul mercato.È necessario quindi raccogliere le informazioni ed elaborarle in grafici e report precisi e al tempo stesso chiari, per dare l'opportunità ai ruoli direzionali di comprendere l'andamento del mercato ed ipotizzare future strategie e trend grazie a strumenti di supporto efficaci.

DSS

Ai fini di fornire al manager uno srtumento per il monitoraggio delle attività aziendali, che permetta di analizzare il trend dei vari comparti produttivi e di misurarne le performance, è stato realizzato il Decision Support System (DSS).

La formula DSS porta una rivoluzione che vede gli utenti diventare "protagonisti" nel definire, gestire e manipolare i propri dati.

La principale motivazione del DSS è quella di consentire di disporre di un sistema di indicatori aziendali (economici, finanziari, di performance, ecc.) rappresentabili sotto forma di pannelli di controllo, che permettono al manager di prendere delle decisioni in minor tempo, sulla scorta di dati certi e costantemente aggiornati.

La fonte prima dei dati è necessariamente il sistema informativo tradizionale (dopo opportune cernite, selezioni, aggregazioni).

Il DSS fornisce il serbatoio per conservare (copia di) grandi volumi di dati e trasformarli in informazioni a decisioni nei modi più estemporanei. Il DSS conterrà dati interni dell'azienda (per esempio relativi alla vendita, alla produzione, all'amministrazione, al personale) e spesso dati esterni (mercato, concorrenza, congiuntura); sarà quindi uno spaccato "trasversale" delle applicazioni aziendali ed anche dei vari usi o viste del dato (controllo di gestione, controllo di qualità, auditing, revisione, pianificazione, ecc.).

Nel DSS potranno convivere dati della natura più varia: consuntivi, budget, stime, estrapolazioni, ecc. la formula DSS si compone di:

Legge di Pareto , cruscotto aziendale e reporting

Caratteristiche:
Il D.S.S. è uno strumento di monitoraggio delle attività aziendali, navigazione nei dati e supporto alle decisioni aziendali. Offre la possibilità di:
Accedere a dati locali su reti di personal, su minisisemi o mainframe (ODBC);
Creare delle statistiche in modo semplice e farne dei report;
Confrontarle con altri periodi per verificarne il trend;
Avere un controlo di gestione strutturato e costantemente aggiornabile.

Aspetti funzionali:

Possiamo individuare le seguenti componenti:
Servizi di presentazione a schermo;
Un gestore di database, con tutti i relativi servizi;
Un sistema di reporting molto flessibile nel generare tabulati.
Queste componenti possono risiedere adottando un'architettura detta client-sever, o possono essere delegate a più stazioni di lavoro colegate in rete. L'ultima chiave di lettura necessaria è la questione del modello dati multidimensionali (i cosiddetti ipercubi); il modo di concepire i dati aziendali, è quello di pensare a tabelle "spaccate" secondo numerosi criteri.

Per esempio, le vendite possono essere analizzate per prodotto, cliente, canale, periodo, filiale; in altre parol, è possibile leggere questi dati, congiuntamente o singolarmente, o passare da un livello di dettaglio all'altro (clienti-mercati, prodotti-linee, mesi-trimestri-anni).

Vantaggi:
Il Decision Support System permette una gestione dei dati snella ed agevole, con evidente vantaggio:
Per i vertici aziendali, che possono disporre di un costante aggiornamento sullo stato di salute dell'azienda e verificare autonomamente l'andamento del business con estrema facilità;

Per il manager, che può ottenere informazioni sempre aggiornate, affidabili e immediatamente comprensibili, senza dovere attendere le informazioni necessarie dai suoi collaboratori;
Per il suo team, che, abbandonando le applicazioni "fai da te" in favore di un sistema puntuale, può produrre i dati necessari per implementare il processo decisionale in tempi più ridotti e nelle forme più svariate;
Per il responsabile EDP, che, investito da sempre dell'onere di alimentare, gestire e interrogare il sistema, si libera dalle continue richieste del management e può concentrarsi sui propri compiti istituzionali di gestione del sistema informativo centrale.

Proseguiamo la nostra analisi parlando dei cruscotti aziendali realizzati con I "cruscotti direzionali" sono sono una serie di strumenti software integrati di visualizzazione e calcolo di indici di performance; si chiamano così perchè la veste grafica evoca l'idea di un cruscotto di una vettura sofisticata o della plancia di un aereo.I sistemi ERP (Enterprise Resource Planning) hanno come peculiarità fondante quella di essere modulari, di poter ricoprire tutti i processi produttivi aziendali e di incidere, anche in modo sostanziale nei processi interni dell'azienda.
L'adozione di questi sistemi è da considerarsi in genere molto complessa sia per gli impatti organizzativi che per quelli tecnologici.
Un sistema gestionale (come spesso vengono definiti ERP) risulta anche piuttosto costoso da implementare: vi è da considerare il costo del software, dell'hardware, delle "customizzazioni" necessarie al software per adattarlo al meglio alle esigenze di business aziendale, nonché il tempo di addestramento necessario a tutto il personale dei reparti interessati.
Pur avendo un processo di adozione a volte complesso i sistemi ERP godono di una maggiore assimilazione nel loro ciclo di vita rispetto ad altre piattaforme come ad esempio succede per i sistemi CRM.
In considerazione di questi fattori analizziamo quali sono i moduli fondamentali che costituiscono un sistema di questo tipo.

Il che ci consentirà di comprendere quale sia il dominio di un'applicazione ERP e ci aiuterà nella progettazione consapevole degli strumenti di gestione aziendale.
I sistemi ERP afferiscono alla così detta "visione interna" dell'azienda ossia a tutte quelle attività di necessarie a supportare sia la produzione che le attività di marketing e vendita (visione esterna).
Considerando il concetto di catena del valore i sistemi ERP sostengono le attività definite di supporto: acquisti, human resource, infrastruttura aziendale.

COS'è DB2
è un Relational Database Management System (RDBMS) della IBM. La sua prima versione risale al 1983, e secondo molti è stato il primo prodotto a utilizzare il linguaggio SQL ed è stato scritto in C (linguaggio) e C++. Attualmente, DB2 e Oracle si contendono il primo posto nel mercato dei DBMS.
Oggi si può dire che DB2 è un DBMS relazionale a oggetti.Inizialmente era un DBMS per i mainframe, ma oggi è diffuso su qualsiasi tipo di server, perfino su PDA e altri dispositivi portatili; esistono versioni per GNU/Linux, Unix (AIX, HP-UX, Solaris) e Microsoft Windows.

DATA WAREHOUSE ( O DW) Un data warehouse ( o dw) (termine inglese traducibile con magazzino di dati) è un archivio informatico contenente i dati di un 'organizzazione. I DW sono progettati per consentire di produrre facilmente relazione ed analisi. Il termine Data Warehouse e' ormai entrato nel vocabolario di tutti i responsabili dei sistemi informativi ed in quello degli amministratori di basi dati(DBAs: DataBase Administrators). Ogni sistema informativo di discrete dimensioni contiene al suo interno un Data Warehouse o, almeno, ne applica alcune delle tecniche e gli strumenti.

cos'e' un Data WareHouse (DWH)? Il DWH e' una base dati che mantiene tutte le informazioni sulle attivita' dell'azienda e che viene utilizzata dal management per prendere decisioni strategiche.Da dove provengono i dati del DWH?

Dai sistemi informativi dell'azienda. I dati vengono semplicemente raccolti ed inseriti nel data warehouse con programmi di caricamento. Quindi vengono acceduti con programmi di analisi dei dati o ribaltati su DB specializzati (Data Mart)Chi ha inventato i DWH?I sistemi EIS (Enterprise Information System), MIS (Management Information System), DSS (Decision Support System), OLAP (OnLine Analytical Processing )... sono sempre esistiti. E lo stesso vale per la denormalizzazione, le time-series, l'analisi multimensionale, i VLDBMS (Very Large Database Management System), ... Non c'e' nulla di particolarmente nuovo o innovativo nei DWH. W.H.Inmon e' tuttavia considerato il padre dei DWH. Infatti ne ha coniato il termine, ha scritto diversi libri, ha fatto un mucchio di conferenze e, beato lui, di soldi! Il suo merito e' soprattutto quello di aver raccolto in una concezione unica una serie di concetti e strumenti gia' noti e sfruttati in modo singolo.

DIFFERENZE E ANALOGIE :TRA TABELLE E REPORT

Per molti aspetti i report sono simili alle maschere; è possibile generarli per mezzo di creazioni guidate simili e l’ambiente di progettazione è in gran parte il medesimo; come nelle maschere, è possibile aggiungere etichette, caselle di testo, immagini e altri controlli e naturalmente impostarne le proprietà si possono visualizzare informazioni di uno o più record provenienti da una o più tabelle o query ed avere più insiemi di intestazioni e piè di pagina.
Le maschere e i report hanno in comune lo scopo di fornire agli utenti il facile accesso alle informazioni memorizzate nel database. Le principali differenze fra le maschere e i report sono le seguenti:

Le maschere vengono utilizzate per immettere, visualizzare e modificare informazioni, mentre i report sono usati soltanto per visualizzare informazioni.
Le maschere di solito vengono visualizzate sullo schermo, mentre i report possono essere visualizzati in anteprima sullo schermo, ma generalmente vengono stampati.

Le maschere, di solito, forniscono una visione dettagliata dei record e sono rivolte a persone che lavorano con il database, mentre i report sono spesso utilizzati per raggruppare e riepilogare dati e sono in genere rivolti a persone che non lavorano con il database, ma che usano queste informazioni per altre attività aziendali.

Maschere e report sono abbastanza simili, tanto che è possibile salvare una maschera come report quando si desidera trarre vantaggio dalle funzionalità aggiuntive disponibili nei report e dalle loro capacità di stampa.

Le funzioni aggregative sono funzioni standard che permettono di ottenere valori numerici e/o effettuare calcoli in funzione di query specifiche. Esse forniscono informazioni statistiche relative a un set di record .

Esempio di report

Come spiegato in precedenza con il termine report si definisce la stampa o la visualizzazione sullo schermo dei dati. Non esistono limiti nel modo in cui organizzare le informazioni in un report: è possibile stampare semplici elenchi, lettere, etichette, resoconti e così via. Cosa che si può notare anche in questa immagine.

Report: Definizione e funzionamento

Un report costituisce un efficace mezzo per presentare i dati in un formato stampato. Scegliendo le dimensioni e l'aspetto di qualsiasi elemento contenuto in un report, è possibile visualizzare le informazioni nel formato desiderato.

La maggior parte delle informazioni contenute in un report derivano da una tabella, query o istruzione SQL sottostante, che costituisce l'origine dei dati del report. Le altre informazioni del report vengono memorizzate nella struttura del report.

Esempi di tabelle

Una tabella è un insieme di informazioni organizzate sotto forma di righe, che nella terminologia dei database costituiscono i record, e colonne denominate campi. La figura 1 presenta una tabella di esempio contenente nomi e indirizzi per illustrare la definizione di campo e di record. I nomi dei campi nella parte superiore della tabella forniscono una breve descrizione del tipo di informazione contenuta nel campo stesso.
Occorre quindi tenere presente che, nel caso in cui i dati non siano già in forma tabulare è necessario organizzarli in questa forma per poterli immettere in Access.

martedì 11 maggio 2010

SISTEMI INFORMATIVI AZIENDALI:OLTP OLAP

OLTP:acronimo di On Line Transaction Processing, è un insieme di tecniche di software utilizzate per l'analisi dei dati. A differenza delle analisi con tecnologia OLAP(Online Analitytical Processing), la tecnologia OLTP non prevede la creazione di banche dati separate, infatti le analisi vengono effettuate direttamente sui dati di esercizio. Questa soluzione permette di avere i dati sempre aggiornati ed evita fasi intermedie di trasformazione dei dati , tuttavia per la sua stessa natura non è facilmente applicabile in situazioni dove la quantità di dati da analizzare sia molto elevata.

Il termine OLAP (On line Analitical processing) identifica sia gli strumenti, che le tecniche di analisi di grosse quantità di dati.

Grazie alla vista multidimensionale dei dati. Rappresenta la tecnologia più avanzata che permette di manipolare i dati nella maniera più semplice.

Dal momento in cui si sostituisce la solita griglia con un’interfaccia OLAP, gli utenti possono essere in grado, in modo indipendente, di realizzare svariati queries ad-hoc, filtrare i dati, ruotare la tabella, espandere i dati, ottenere le somme desiderate, ecc. Il principale oggetto di un applicazione OLAP è il CUBO, che fornisce una rappresentazione multidimensionale dei dati. Il cubo contiene i dati sia a livello di dettaglio, che in forma aggregata. Il cubo si appoggia su una serie di elementi di base: le dimensioni (Dimension) sono le tabelle che contengono gli attributi descrittivi delle misure (es: provincia, regione, descrizione del prodotto, categoria del prodotto, ecc). I lati del cubo contengono le dimensioni, mentre la singola cella contiene il valore relativo all’intersezione delle dimensioni.Le misure (Measures) descrivono l’aspetto quantitativo (es: ogni vendita è misurata dal valore e della quantità). Le misure sono quindi valori aggregati ed analizzabili. L’ aggregazione di una misura è eseguita in una porzione di dimensione in base ad un dato algoritmo (somma, media, etc.).Il cubo si crea suddividendo campi del database sorgente in dimensioni e misure.Il primo passo da eseguire nel progetto del cubo, è la costruzione dell' istruzione SQL, con la quale si estraggono i dati dal database per alimentare il cubo. La tabella risultante, conterrà tutte le dimensioni da analizzare e le relative misure. Dopo aver costruito l'istruzione SQL, selezionando il tipo progetto cubo, viene emesso il Wizard, nel quale trascinate le dimensioni e le misure della tabella risultante. Dopo aver eseguito questa semplice funzione, confermando si attiva il cubo.Si possono ordinare i dati di qualsiasi dimensione, in ordine ascendente o discendente di dimensione (Sorting); si possono ordinare i dati di qualsiasi colonna o di qualsiasi riga, in ordine ascendente o discendente di misura della dimensione selezionata; si possono filtrare i dati di qualsiasi dimensione includendo solo quelli desiderati (Filtering); si possono visualizzare i dati delle dimensioni sia in forma espansa che compressa, automaticamente per tutte le dimensioni verticali e/o orizzontali, oppure sulle singole dimensioni; si possono visualizzare i dati di una dimensione nei livelli di maggior dettaglio, effettuandone l'espansione, o comprimere le dimensioni, visualizzando i dati aggregati ai livelli superiori. Con questa funzione, esplorate i dati espandendoli dai valori sommati, ai relativi dettagli lungo la direzione desiderata(Drilldown/Drill/up). Quest'ultimo lo possiamo comparare alla funzione di slice and dice, una delle principali funzionalità olap, è ciò che consente di ristrutturare le informazioni in modo da renderne più efficace la visualizzazione: creazione di master-detail e rotazione degli assi delle rappresentazioni a matrice.In questi casi viene generalmente preferito l'utilizzo di analisi di tipo OLAP.

REPORTISTICA

i sistemi di reportistica sono un sottoambito dei sistemi informativi e per generalità di attribuzione anche dei sistemi di business Intelligence e ne costituiscono una estensione legata all'evoluzione informatica.
L' obiettivo di un sistema di Reportistica all'interno dei sistemi informativi è generalmente quello di fruire documentazione analitica sulle attività di rilievo dell'organizzazione all'interno della quale è sviluppato: tale base informativa ha l'obiettivo di essere un 'univoca, prassi organizzativa e perciò non suscettibile di rilievi e incongruenze interpretative.

Cos´è l´ETL?

I processi di estrazione, trasformazione e caricamento comprendono step multipli che hanno come obiettivo il trasferimento dei dati dalle applicazioni di produzione ai sistemi di Business Intelligence :

Estrazione dei dati dalle applicazioni di produzione e dai database (ERP, CRM, RDBMS, file ecc.) .

Trasformazione di questi dati per la loro riconciliazione su tutti i sistemi sorgente, eseguire calcoli o parsing di stringhe, arricchirli con informazioni di lookup esterne e confrontare il formato richiesto dal sistema target (Third Normal Form Star Schema, Slowly Changing Dimensions, ecc.).

Caricamento dei dati risultanti nelle varie applicazioni BI: Data Warehouse o Enterprise Data Warehouse, Data Mart, applicazioni Online Analytical Processing (OLAP) o “cubi”, ecc.

La latenza dei processi ETL varia da batch (a volte mensilmente o settimanalmente, ma più spesso quotidianamente), a near-real-time con aggiornamenti più frequenti (ogni ora, ogni minuto, ecc).

Le sfide dell´ETL
Ci sono numerose difficoltà da fronteggiare per ottenere un´implementazione efficiente ed affidabile dei processi ETL.
I volumi di dati crescono in maniera esponenziale, e i processi ETL devono elaborare grandi quantità di dati granulari (prodotti venduti, chiamate telefoniche, transazioni bancarie.).Alcuni sistemi BI raramente vengono aggiornati incrementalmente mentre altri richiedono un caricamento completo ad ogni iterazione.
Con l´aumento della complessità dei sistemi informatici, anche la disparità delle sorgenti aumenta. I processi ETL richiedono una connettività di vasta portata per i pacchetti di applicazioni (ERP, CRM, ecc.), database, mainframe, file, Servizi Web, ecc.
Le strutture e le applicazioni di Business Intelligence comprendono data warehouse, data mart, applicazioni OLAP per l´analisi, il reporting, il dashboarding, lo scorecarding, ecc. Tutte queste strutture target hanno diversi requisiti di trasformazione dei dati e diverse latenze.
Le trasformazioni coinvolte nei processi ETL possono essere altamente complesse. I dati devono essere aggregati, sottoposti a parsing, calcolati, elaborati statisticamente, ecc. Le trasformazioni specifiche BI sono anch´esse necessarie, come lo Slowly Changing Dimensions.
Mentre la BI tende alla simultaneità real-time, i data warehouse e data mart devono essere aggiornati più spesso e le finestre di tempo del caricamento diventano sempre più brevi.

DATA WAREHOUSE ( O DW)
Un data warehouse ( o dw) (termine inglese traducibile con magazzino di dati) è un archivio informatico contenente i dati di un 'organizzazione. I DW sono progettati per consentire di produrre facilmente relazione ed analisi.
Il termine Data Warehouse e' ormai entrato nel vocabolario di tutti i responsabili dei sistemi informativi ed in quello degli amministratori di basi dati(DBAs: DataBase Administrators). Ogni sistema informativo di discrete dimensioni contiene al suo interno un Data Warehouse o, almeno, ne applica alcune delle tecniche e gli strumenti.
Ma cos'e' un Data WareHouse (DWH)?
Il DWH e' una base dati che mantiene tutte le informazioni sulle attivita' dell'azienda e che viene utilizzata dal management per prendere decisioni strategiche.
Da dove provengono i dati del DWH?
Dai sistemi informativi dell'azienda. I dati vengono semplicemente raccolti ed inseriti nel data warehouse con programmi di caricamento. Quindi vengono acceduti con programmi di analisi dei dati o ribaltati su DB specializzati (Data Mart)
Chi ha inventato i DWH?
I sistemi EIS (Enterprise Information System), MIS (Management Information System), DSS (Decision Support System), OLAP (OnLine Analytical Processing )... sono sempre esistiti. E lo stesso vale per la denormalizzazione, le time-series, l'analisi multimensionale, i VLDBMS (Very Large Database Management System), ... Non c'e' nulla di particolarmente nuovo o innovativo nei DWH. W.H.Inmon e' tuttavia considerato il padre dei DWH. Infatti ne ha coniato il termine, ha scritto diversi libri, ha fatto un mucchio di conferenze e, beato lui, di soldi! Il suo merito e' soprattutto quello di aver raccolto in una concezione unica una serie di concetti e strumenti gia' noti e sfruttati in modo singolo.

mercoledì 5 maggio 2010

NOZIONI PER LA PROGETTAZIONE DI UN DATABASE, ED ESEMPI.

Per Iniziare

Un database progettato correttamente consente di accedere a informazioni aggiornate e accurate. Le informazioni vengono organizzate da Microsoft Office Access 2007 in tabelle, ovvero elenchi di righe e colonne simili a un blocco per la contabilità o un foglio di lavoro di Microsoft Office Excel 2007. Un database semplice può includere una sola tabella. Nella maggior parte dei database sono necessarie più tabelle.
Si può ad esempio disporre di una tabella contenente informazioni sui Studenti, un'altra tabella contenente informazioni sull’ Università e un'altra tabella con informazioni sulle iscrizioni.
Ogni riga viene denominata record e ogni colonna viene denominata campo. Un record costituisce un modo significativo e coerente per combinare le informazioni su un determinato argomento. Un campo rappresenta un singolo elemento di informazioni, ovvero un tipo di elemento incluso in ogni record.
Nella tabella Studentii, ad esempio, ogni riga o record conterrà informazioni su un determinato Studente, mentre ogni colonna o campo includerà un tipo di informazioni sullo Studente, ad esempio il nome o la matricola ecc..

Progettazione appropriata

Il processo di progettazione di database è basato su determinati principi. Il primo è costituito dal fatto che la presenza di informazioni duplicate, denominate anche dati ridondanti, è negativa poiché causa uno spreco di spazio e aumenta le probabilità di errori e incoerenze. Il secondo principio è rappresentato dall'importanza della correttezza e della completezza delle informazioni. Se il database contiene informazioni non corrette, qualsiasi report che estrae informazioni dal database conterrà a propria volta informazioni non corrette. Di conseguenza, qualsiasi decisione a partire da tali report sarà basata su informazioni errate.
Una progettazione di database appropriata presenta pertanto le caratteristiche seguenti:

Suddivide le informazioni in tabelle per argomento in modo da ridurre i dati ridondanti.
Offre ad Access le informazioni necessarie per unire le informazioni delle tabelle in base alle esigenze.
Supporta e garantisce l'accuratezza e l'integrità delle informazioni.
Soddisfa le esigenze di elaborazione dei dati e creazione di report.

Processo di progettazione

Il processo di progettazione è costituito dai passaggi seguenti:

Identificare lo scopo del database.
Individuare e organizzare le informazioni necessarie. Raccogliere tutti i tipi di informazioni che si desidera registrare nel database, ad esempio il nome dello studente la matricola ecc..
Suddividere le informazioni in tabelle. Suddividere gli elementi di informazioni in argomenti o entità principali, ad esempio Studenti, Università. A ogni argomento verrà quindi assegnata una tabella.
Trasformare gli elementi di informazioni in colonne. Determinare le informazioni che si desidera memorizzare in ogni tabella. A ogni elemento viene assegnato un campo, visualizzato come una colonna della tabella. Una tabella Stundeti può ad esempio includere campi come Cognome e Data immatricolazione.
Specificare chiavi primarie. Scegliere la chiave primaria di ogni tabella. La chiave primaria è la colonna utilizzata per identificare in modo univoco ogni riga, ad esempio Matricola studente o ID Università.
Impostare le relazioni tra le tabelle. Esaminare ogni tabella e determinare la relazione tra i dati di una tabella e i dati di altre tabelle. Aggiungere campi alle tabelle o creare nuove tabelle per chiarire le relazioni, in base alle esigenze.
Perfezionare la progettazione. Analizzare la progettazione per individuare eventuali errori. Creare le tabelle e aggiungere alcuni record di dati di esempio. Verificare se è possibile ottenere i risultati desiderati dalle tabelle. Apportare modifiche alla progettazione in base alle esigenze.
Applicare le regole di normalizzazione. Applicare le regole di normalizzazione dei dati per verificare la corretta strutturazione delle tabelle. Apportare modifiche alle tabelle in base alle esigenze.

Perfezionamento della struttura

Quando si dispone delle tabelle, delle relazioni e dei campi necessari, è consigliabile creare e popolare le tabelle con dati di esempio e provare a utilizzare le informazioni creando query, aggiungendo nuovi record e così via. È così possibile evidenziare potenziali problemi. Può ad esempio essere necessario aggiungere una colonna che non è stata inserita durante la fase di progettazione oppure suddividere una tabella in due per rimuovere dati duplicati.
Controllare se è possibile utilizzare il database per ottenere le risposte desiderate. Creare bozze delle maschere e dei report e verificare se contengono i dati previsti. Cercare eventuali dati duplicati non necessari e, se presenti, modificare la progettazione in modo da eliminarli.
Quando si eseguono prove con il database iniziale, sarà possibile individuare margini di miglioramento. Di seguito sono elencati alcuni aspetti da verificare:

Sono state omesse eventuali colonne? In caso affermativo, le informazioni appartengono alle tabelle esistenti? Se le informazioni riguardano un altro argomento, può essere necessario creare un'altra tabella. Creare una colonna per ogni informazione di cui si deve tenere traccia. Se le informazioni non possono essere calcolate da altre colonne, è probabilmente necessario aggiungere una nuova colonna.
Sono presenti colonne non necessarie poiché calcolabili dai campi esistenti? Se un'informazione può essere calcolata da altre colonne esistenti, come nel caso di un prezzo scontato calcolato dal prezzo di listino, è in genere preferibile evitare di creare una nuova colonna.
Si immettono ripetutamente informazioni duplicate in una delle tabelle? In questo caso, è probabilmente necessario suddividere la tabella in due tabelle con una relazione uno-a-molti.
Sono presenti tabelle con molti campi, un numero limitato di record e numerosi campi vuoti nei singoli record? In questo caso, può essere opportuno riprogettare la tabella in modo da ridurre il numero di campi e aumentare il numero di record.
Ogni informazione è stata suddivisa nelle sue unità significative più piccole? Se è necessario eseguire l'ordinamento, la ricerca, il calcolo o la creazione di report in base a un'informazione, inserire tale informazione in un'apposita colonna.
Ogni colonna contiene un dato relativo all'argomento della tabella? Una colonna che non contiene informazioni sull'argomento della tabella appartiene a una tabella diversa.
Sono rappresentate tutte le relazioni tra le tabelle, mediante campi comuni o una terza tabella? Le relazioni uno-a-uno e uno-a-molti necessitano di colonne comuni, mentre per le relazioni molti-a-molti è necessaria una terza tabella.

Applicazione delle regole di normalizzazione

Queste regole consentono di verificare la corretta strutturazione delle tabelle. Il processo di applicazione delle regole alla progettazione del database viene denominato normalizzazione del database o semplicemente normalizzazione.
La normalizzazione, maggiormente utile dopo che sono stati rappresentati tutti gli elementi di informazioni ed è stata definita una progettazione preliminare, è finalizzata a garantire che gli elementi di informazioni siano stati suddivisi nelle tabelle appropriate. La normalizzazione non può tuttavia garantire che si disponga di tutti gli elementi di dati corretti come punto di partenza.
Le regole vengono applicate in successione, verificando in ogni passaggio che la struttura raggiunga la cosiddetta "forma normale". Sono in genere accettate cinque forme normali, dalla prima forma normale fino alla quinta forma normale. Le prime tre, però sono considerate sufficienti per la maggior parte delle strutture di database.

1. Prima forma normale
Prevede che in corrispondenza di ogni intersezione di riga e colonna nella tabella sia presente un singolo valore e mai un elenco di valori. Non è ad esempio possibile disporre di un campo denominato Prezzo in cui vengono inseriti più prezzi. Considerando ogni intersezione di righe e colonne come una cella, ogni cella può contenere un solo valore.

2. Seconda forma normale
Richiede che ogni colonna non chiave dipenda completamente dall'intera chiave primaria, non soltanto da una parte della chiave. Questa regola è applicabile in caso di chiave primaria costituita da più colonne. Si supponga ad esempio di disporre di una tabella contenente le colonne seguenti, con ID ordine e ID prodotto come chiave primaria:
· ID ordine (chiave primaria)
· ID prodotto (chiave primaria)
· Nome prodotto
Questa progettazione viola la seconda forma normale, poiché Nome prodotto dipende da ID prodotto, ma non da ID ordine. Non dipende pertanto dall'intera chiave primaria. È necessario rimuovere Nome prodotto dalla tabella, poiché appartiene a una diversa tabella (Prodotti).

3. Terza forma normale
Richiede non solo che ogni colonna non chiave dipenda dall'intera chiave primaria, ma anche che le colonne non chiave siano reciprocamente indipendenti.
In altri termini, ogni colonna non chiave deve dipendere dalla chiave primaria ed esclusivamente da tale chiave. Si supponga ad esempio di disporre di una tabella contenente le colonne seguenti:
· ID prodotto (chiave primaria)
· Nome
· Prezzo consigliato
· Sconto
Se lo sconto dipende dal prezzo di listino consigliato, questa tabella viola la terza forma normale poiché la colonna non chiave Sconto dipende da un'altra colonna non chiave, Prezzo consigliato. L'indipendenza delle colonne garantisce la possibilità di modificare qualsiasi colonna non chiave senza influire su altre colonne. Se si modifica un valore nel campo Prezzo consigliato, lo sconto dovrà essere modificato di conseguenza violando così tale regola. In questo caso, lo sconto deve essere spostato in un'altra tabella con chiave basata sul prezzo di listino consigliato.

Analogie tra i concetti base di statistica e quelli informatici

Spreadsheet e DBMS

Spreadsheet in inglese significa foglio di calcolo, altrimenti detto foglio elettronico Il principio su cui si basa è semplice: fornire una tabella, detta anche foglio di lavoro, formata da celle in cui si possono inserire dati, numeri o formule. I fogli di calcolo automatizzati offrono un gran numero di funzionalità per il calcolo e la creazione di grafici per la visualizzazione e la modifica di dati tabulari. Possono inoltre essere utilizzati efficacemente per memorizzare elenchi di informazioni, attualmente il foglio di calcolo maggiormente utilizzato è Microsoft Excel.
Man mano che i requisiti degli elenchi crescono in complessità, può diventare difficile gestire i dati in un foglio di calcolo. Un'applicazione di database relazionale è più adatta alla creazione e all'utilizzo di elenchi complessi, si parla in questi casi di DBMS (database management system) è un sistema software progettato per consentire la creazione e manipolazione efficiente di collezioni di dati strutturati. I DBMS svolgono un ruolo fondamentale in numerose applicazioni informatiche, dalla contabilità, alla gestione delle risorse umane e alla finanza fino a contesti tecnici come la gestione di rete o la telefonia. Molto conosciuto Microsoft Access o anche Oracle. La progettazione del database (database design) è il processo decisionale su come organizzare i dati in possesso in tipi di record e su come ciascun tipo di record si relaziona con gli altri.
Analogie e differenze
Database e fogli di calcolo hanno molte analogie se prendiamo ad esempio le due più conosciute applicazioni, Excel e Access riscontriamo che entrambe consentono infatti di eseguire potenti query per ordinare e filtrare i dati, eseguire calcoli, utilizzare maschere per aggiungere, modificare, eliminare e consultare i dati con facilità, utilizzare visualizzazioni tabella pivot e grafico pivot per gestire i dati in modo interattivo, generare rapporti sui dati e visualizzarli in più formati, e ancora, importare dati da database esterni creare pagine web, infine entrambe le applicazioni organizzano i dati in colonne, dette anche campi, non ostate tutte queste somiglianze bisogna comunque tenere a mente che Excel rimane un foglio di calcolo mentre in un database i dati vengono memorizzati in tabelle molto simili ai fogli di lavoro, ma progettate per l'esecuzione di query complesse in relazione ai dati memorizzati in altre tabelle e posizioni, nonché in campi di altre tabelle.

Esempio di schema Entità/relazioni per la memorizzazione dei dati sulle immatricolazioni