Statistica Inferenziale e

dati ad alta dimensione (8CFU)

Laurea magistrale in Matematica (Tor Vergata)

 

§  Anno accademico: 2017-2018 (secondo semestre, IV- V anno)

§  Testo adottato:  The Elements of Statistical Learning T. Hastie, R. Tibshirani & J. Friedman. Springer Series in Statistics (second edition)

https://web.stanford.edu/~hastie/ElemStatLearn/

§  Obiettivi del Corso: fornire agli studenti le conoscenze teoriche e le intuizioni di base necessarie per utilizzare ed eventualmente sviluppare efficaci soluzioni per l’analisi di dati in problemi reali e di diversa natura.

§  Programma: corso_SL\programma_definitivo2017_2018.pdf (prerequisiti: algebra lineare, concetti base di ottimizzazione, di teoria della probabilità e di statistica. Gli studenti sono tenuti ad avere familiarità con MATLAB)

§  Ricevimento studenti: Sono disponibile a ricevere studenti, previo appuntamento da prendere via mail, presso il mio studio dell’ I.A.C. (Istituto per le Applicazioni del Calcolo - CNR)  di via dei Taurini n. 19, 00185 Roma.

§  Materiale didattico di supporto:  reperibile sul sito dropbox del corso 

 §  Diario delle lezioni:

lez. 1 del 7/03/2018: Introduzione all'inferenza statistica. Problemi supervised e problemi unsupervised. Il workflow di un problema di analisi dati. Esempi vari (Cap 1).

 

lez. 2 del 9/03/2018: La regressione: cosa è e perché usarla. La definizione di Loss function e di Risk function. Analisi delle Loss function più comuni: L1, L2, quantile, Vapkin’s e Huber.

 

lez. 3 del 12/03/2018: Definizione di Bias e Varianza, discussione e primi esempi di compromesso tra Bias e Varianza (il metodo dei vicini più vicini e il metodo lineare). La maledizione della dimensionalità. (Cap 2)

 

lez. 4 del 14/03/2018: La regressione lineare. La regressione lineare semplice ed il metodo dei minimi quadrati per la stima dei coefficienti.

 

lez. 5 del 16/03/2018: Sotto l’ipotesi di rumore bianco dimostrazione delle proprietà distribuzionali degli stimatori ai minimi quadrati e teorema di Gauss-Markov. Il loro uso per la costruzione di test di ipotesi.

 

lez. 6 del 20/03/2018: Utilizzo delle proprietà distribuzionali degli stimatori ai minimi quadrati per la costruzione di intervalli di confidenza per la risposta media futura e di intervalli di predizione per la risposta futura. Coefficiente di determinazione per la valutazione della bontà del fit.

 

lez. 7 del 21/03/2018: Esempio di regressione lineare semplice sul data set di Galton. Utilizzo della subroutine fitlm di matlab.

 

lez. 8 del 23/03/2018: La regressione lineare multipla. Interpretazione algebrica ed interpretazione geometrica della soluzione ai minimi quadrati. Sotto l’ipotesi di rumore bianco dimostrazione delle proprietà distribuzionali dello stimatore ai minimi. (Par 3.2)

 

lez. 9 del 27/03/2018: Utilizzo delle proprietà distribuzionali dello stimatore ai minimi quadrati per la costruzione di test di ipotesi e di intervalli di confidenza e di predizione. Il teorema di Gauss-Markov (Par. 3.2.2)

 

lez. 10 del 28/03/2018: Esempio in matlab di regressione multipla (Par. 3.2.1)

 

lez. 11 del 10/04/2018: Dalla regressione semplice alla regressione multipla, interpretazione dei coefficienti (Par. 3.2.3)

 

lez. 12 del 11/04/2018: Implementazione dell’algoritmo 3.1 di pag 54. Discussione delle problematiche in caso di collinearità e/o nel caso p>n

 

lez. 13 del 13/04/2018: Discussione generale sulle possibili tecniche da adottare nel caso di dati ad alta dimensione, specializzazione di queste tecniche al caso del modello lineare con funzione perdita L2.

 

lez. 14 del 17/04/2018: Discussione generale sulle possibili tecniche per fare selezione del modello, studio della Cross Validation. (Par 7.1-7.2-7.10)

 

lez. 15 del 18/04/2018: Accenno ai seguenti criteri di selezione del modello: C_p (Mallow’s), AIC (Akaike Information Criterion), BIC (Bayeisan Informaion Criteiron), MDL (Minimum Description Lenght).

 

lez. 16 del 20/04/2018: Il metodo della Best Subset Selection, vantaggi e svantaggi. Su un data set sintetico verifica della sua forte variabilità.

 

lez. 17 del 20/04/2018: Il metodo della Forward Stepwise Selection, vantaggi e svantaggi. Confronto con la Best Subset Selection su un data set sintetico, il comando stepwiselm di matlab. Il metodo della Forward Stagewise Regression, vantaggi e svantaggi

 

lez. 18 del 24/04/2018: La tecnica della PCA (Principal Component Analysis) per la riduzione della dimensionalità di un set di dati qualsiasi. Il metodo della PC regression, vantaggi e  svantaggi.

 

lez. 19 del 27/04/2018: I Partial Least Square, e loro confronto con la PC regression. La tecnica della supervised PC regression.

 

lez. 20 del 2/05/2018: La Ridge regression come metodo di penalizzazione e dal punto di vista geometrico.

 

lez. 21 del 4/05/2018: Il concetto generale di degree of fredom per un metodo di supervised learning. Il calcolo del df nel caso della ridge regression.

 

lez. 22 del 8/05/2018: Equivalenza tra la scelta del parametro di penalizzazione della Ridge e la regolarizzazione iterativa ad arresto precoce. Introduzione alla penalizzazione LASSO. Giustificazione numerica e geometrica della scelta della norma l_1 per avere soluzioni sparse.

 

lez. 23 del 9/05/2018: Soluzione esplicita del problema di regressione lineare con penalizzazione LASSO nel caso di matrice design ortonormale. Algoritmo Pathwise coordinate optimization per la soluzione del problema di regressione lineare con penalizzazione LASSO nel caso di matrice design generale.

 

lez. 24 del 11/05/2018: Nota sulla normalizzazione delle colonne della matrice design e commenti sulla routine di matlablasso.m’. Interpretazione bayesiana della penalty lasso.

 

lez. 25 del 15/05/2018: La scelta del parametro di regolarizzazione e possibile stima dl degree of fredom per il problema di regressione lineare con penalty lasso. Risultati sul prediction error nel caso Least Square

 

lez. 26 del 16/05/2018: Proprietà teoriche dello stimatore lasso nel caso di modello lineare. Dimostrazione della slow e della fast convergence rate del prediction error.

 

lez. 27 del 16/05/2018: Analisi della subroutine lasso di matlab esempio di applicazione del metodo al dataset prostate cancer data e ricostruzione completa della tavola 3.3 del libro di testo.

 

lez. 28 del 18/05/2018: Possibili miglioramenti del metodo Lasso: elastic net, relaxed lasso, adaptive lasso.

 

lez. 29 del 22/05/2018: la penalty SCAD e MCP. Commenti ed esempio sintentico per un confronto tra le possibili penalty diverse.

 

lez. 30 del 23/05/2018: come utilizzare il modello lineare per lavorare con modelli non lineari sia parametrici che non parametrici. La regressione polinomiale a tratti: le regression splines e le smoothing splines.

 

lez. 31 del 25/05/2018: il concetto di grafo, il concetto di indipendenza condizionata e proprietà di Markov di un grafo indiretto. Per una distribuzione di probabilità positiva equivalenza tra proprietà di Markov e fattorizzazione della congiunta.

 

lez. 32 del 29/05/2018: Il metodo graphical lasso per stima di un gaussian graphical model.