In questo blog, approfondiremo gli aspetti matematici e pratici della scelta del metodo di visualizzazione dati più appropriato. Offriremo insights su quando e perché dovresti utilizzare ognuno di essi.
Come senior data analyst che lavora in un’azienda di mobilità tecnologica, ho incontrato vari tipi di dati. Ho scoperto che la scelta del giusto grafico, plot o diagramma può influenzare significativamente il modo in cui si percepiscono e interpretano i dati.
Grafici a linee per dati di serie temporali
I dati di serie temporali, che rappresentano informazioni raccolte nel tempo, sono diffusi in quasi ogni settore.
Nell’industria dei taxi, monitoriamo volumi di corse giornalieri, ricavi settimanali e tendenze delle ore dei conducenti. Questo rende i grafici a linee un’ottima scelta.
La ragione è radicata nel concetto fondamentale di continuità. I grafici a linee rappresentano visivamente i punti dati connessi da linee, evidenziando la sequenza e le tendenze nei dati.
Matematicamente, i grafici a linee interpolano tra i punti dati, rendendoli adatti ai dati basati sul tempo in cui i valori intermedi sono importanti. L’interpolazione assume un cambiamento continuo nei valori tra i punti.
Creando un grafico a linee per dati di serie temporali, ricordati di assicurarti che gli intervalli di tempo tra i punti dati siano costanti, rendendolo adatto per operazioni matematiche come la differenziazione o l’integrazione, che possono essere utilizzate per l’analisi delle tendenze o le previsioni.
Il grafico a linee qui sotto illustra una crescita continua fino a un picco, scemando a una posizione relativamente simile a quella di partenza. Questo potrebbe essere un indicatore di modelli dipendenti dall’ora del giorno.
Grafici a barre per dati categorici
I dati categorici, che consistono in categorie o etichette discrete, giocano un ruolo vitale nell’industria dei taxi quando si analizzano feedback dei clienti, valutazioni dei conducenti o tipi di corse.
I grafici a barre sono la scelta ideale per visualizzare dati categorici. Rappresentano ogni categoria come una barra separata, con l’altezza della barra corrispondente alla frequenza o proporzione delle occorrenze di quella categoria.
Matematicamente, i grafici a barre utilizzano un asse discreto e non continuo. Ciò significa che non c’è interpolazione tra le barre, rendendolo la scelta ideale per categorie discrete.
Inoltre, i grafici a barre sono versatili e possono essere visualizzati sia come barre orizzontali che verticali, a seconda delle preferenze.
Consentono facili confronti tra le categorie e possono essere utilizzati per illustrare tendenze o modelli nei dati. I grafici a barre qui sotto utilizzano dati fittizi identici relativi alle posizioni di prelievo degli utenti.
Le barre orizzontali e verticali sono selezionate a discrezione dell’analista e in base a ciò che è meglio per comunicare i risultati finali.
Pie chart per parti di un intero
Quando devi visualizzare la composizione di un intero set di dati, i pie chart sono uno strumento imprtante.
Nell’industria dei taxi, potresti utilizzare i grafici a torta per mostrare la suddivisione percentuale delle fonti di ricavo, delle spese o delle demografie dei clienti.
Matematicamente, rappresentano un cerchio diviso in fette, con ciascuna fetta che corrisponde alla parte di un componente dell’intero. L’angolo di ciascuna fetta è proporzionale alla dimensione del componente rispetto al tutto.
Sono particolarmente utili quando vuoi enfatizzare il rapporto parte-tutto e fornire una chiara rappresentazione visiva delle proporzioni.
Tuttavia, è importante utilizzarele con parsimonia e assicurarsi che i dati non siano troppo complessi, poiché può essere difficile confrontare più grafici a torta.
Qui sotto illustro la suddivisione degli utenti provenienti da diversi paesi, determinata dal prefisso del numero di telefono. Questo può essere utile quando si cerca di comprendere le demografie degli utenti.
Diagrammi di dispersione per correlazione e relazioni
Nell’industria dei taxi, comprendere la relazione tra diverse variabili è cruciale. I diagrammi di dispersione sono un modo potente per visualizzare la correlazione tra due variabili continue.
Ciò è particolarmente utile quando si studiano fattori come la durata della corsa rispetto alla distanza percorsa o le valutazioni dei conducenti rispetto alla frequenza delle corse.
Matematicamente, i diagrammi di dispersione mostrano i punti dati come singoli punti su un piano bidimensionale, con una variabile sull’asse x e l’altra sull’asse y.
Tracciando i punti dati in questo modo, puoi valutare visualmente la presenza e la forza di eventuali relazioni lineari o non lineari tra le due variabili.
I diagrammi di dispersione ti consentono anche di individuare i valori anomali e i raggruppamenti di punti dati. Ciò può essere essenziale per rilevare anomalie o identificare specifici modelli nei tuoi dati.
Il diagramma di dispersione qui sotto illustra la relazione tra volumi e ricavi. Qui possiamo vedere una chiara relazione lineare. Possiamo facilmente estrarre un’equazione. E ora può essere utilizzata per apportare cambiamenti a favore delle esigenze dell’azienda.
Istogrammi per la distribuzione dei dati
Comprendere la distribuzione dei dati è cruciale nell’industria dei servizi di taxi.
Gli istogrammi sono uno strumento chiave per visualizzare la distribuzione di frequenza di una variabile continua, come tariffe delle corse, valutazioni dei clienti o tempi di attesa.
Matematicamente, gli istogrammi dividono l’intervallo di una variabile continua in intervalli o bin e rappresentano la frequenza o la densità dei punti dati che cadono in ciascun bin utilizzando barre.
La larghezza e il numero di bin possono essere regolati per perfezionare il livello di dettaglio nella visualizzazione.
Gli istogrammi ti aiutano a identificare la forma della distribuzione, compreso se è normale (a forma di campana), asimmetrica o multimodale.
Queste informazioni possono essere preziose per prendere decisioni basate sui dati e identificare aree di miglioramento.
Diagrammi a scatola per la distribuzione dei dati e gli outliers
I diagrammi a scatola, noti anche come diagrammi a scatola e baffi, forniscono un modo compatto per visualizzare la distribuzione di un set di dati e identificare potenziali outliers e confrontare le distribuzioni di gruppi diversi.
Nell’industria dei taxi, possiamo utilizzare i diagrammi a scatola per analizzare guadagni dei conducenti, tempi di attesa dei clienti o distanze delle corse in diverse città.
Matematicamente, un diagramma a scatola è composto da una scatola rettangolare e due baffi. La scatola rappresenta l’intervallo interquartile (IQR), con la mediana all’interno. I whiskers si estendono ai valori minimi e massimi entro un certo intervallo (tipicamente, 1,5 volte l’IQR).
I diagrammi a scatola sono ideali per mostrare la dispersione, l’asimmetria e la presenza di outliers nei dati.
I diagrammi a scatola sono ideali per mostrare la dispersione, l’asimmetria e la presenza di outliers nei dati.
Mappe di calore per la densità dei dati e la correlazione
Le mappe di calore sono uno strumento di visualizzazione versatile per mostrare relazioni complesse tra i dati, la densità dei dati e le correlazioni.
Nell’industria dei taxi, potresti utilizzarle per esplorare i modelli di viaggio dei clienti, identificare le ore di punta o analizzare distribuzioni geografiche e geospaziali.
Matematicamente, rappresentano i dati come una griglia di celle colorate, con l’intensità del colore di ciascuna cella che indica il valore o la densità. Le mappe di calore sono particolarmente utili per visualizzare dati su due dimensioni, come tempo e posizione.
Le mappe di calore possono rivelare tendenze, cluster o punti caldi nei tuoi dati. Questo le rende uno strumento potente per il riconoscimento di modelli e l’identificazione di aree che richiedono attenzione.
Sono particolarmente preziose quando si lavora con grandi set di dati o dati multidimensionali.
La mappa di calore qui sotto mostra la densità di volumi intorno alla nostra isola, come parte di un progetto che aveva bisogno di determinare percorsi ottimali utilizzando quantità specifiche di taxi.
Grafici radar per dati multivariati
Quando si tratta di dati multivariati nell’industria dei taxi, come le prestazioni dei conducenti in varie categorie o la soddisfazione dei clienti su diversi attributi, i grafici radar sono una scelta preziosa.
Matematicamente, i grafici radar rappresentano ogni variabile come un asse che si irradia dal centro. Colleghiamo i punti dati per formare un poligono. La forma del poligono fornisce un riepilogo visivo dei valori attraverso più variabili.
I grafici radar sono eccellenti per visualizzare i modelli complessivi e le differenze tra entità (ad esempio, conducenti, città o segmenti di clientela). Possono rivelare punti di forza e debolezza nelle prestazioni di ciascuna entità in modo chiaro e intuitivo.
In conclusione, la visualizzazione dei dati e i grafici sono strumenti preziosi per sbloccare gli insight nascosti nei vasti set di dati e trasmettere informazioni complesse in modo comprensibile.
Sia che tu sia un data scientist, un analista o semplicemente una persona curiosa che cerca di capire meglio il mondo intorno a te, il potere della narrazione visiva non può essere sopravvalutato.
Scegliendo il tipo giusto di visualizzazione per i tuoi dati, padroneggiando l’arte della chiarezza e della semplicità e abbracciando il mondo sempre in evoluzione delle tecnologie di visualizzazione dei dati, puoi sfruttare appieno il potenziale dei tuoi dati.
Buona visualizzazione!
Julia è Senior Data Analyst presso eCabs Technologies. Ha una laurea in Matematica e Fisica e una laurea magistrale in Apprendimento Automatico, Riconoscimento dei Pattern e Elaborazione di Immagini/Segnali. I suoi studi l’hanno portata all’Organizzazione Europea per la Ricerca Nucleare, più comunemente nota come CERN. Qui ha lavorato nell’analisi dei dati grezzi ottenuti dalle collisioni protone-piombo nel più grande e potente collider di particelle del mondo. Ha lavorato come analista di pagamenti e frodi e ha iniziato la sua carriera di analista dei dati presso una delle ‘Big Four’. Ha anche ricoperto il ruolo di analista di ricerca e supporto per l’Università di Oxford. Quando non sta facendo calcoli, la puoi trovare ad arrampicare su pareti rocciose, in palestra o a giocare ai videogiochi.