Corso di: Statistical Learning and High dimensional data (8CFU)

Laurea specialistica in Matematica (Tor Vergata)



§  Anno accademico: 2016-2017 (secondo semestre, IV anno)

§  Testo adottato:  The Elements of Statistical Learning T. Hastie, R. Tibshirani & J. Friedman. Springer Series in Statistics (second edition) http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf

§  Materiale didattico di supporto:     reperibile sul sito dropbox del corso 

§  Obiettivi del Corso: fornire agli studenti le conoscenze teoriche e le intuizioni di base necessarie per utilizzare ed eventualmente sviluppare efficaci soluzioni per l’analisi di dati in problemi reali e di diversa natura.

§  Programma: Definizione generale di un problema inferenziale. Il disegno sperimentale e l’estrazione delle caratteristiche. Inferenza supervisionata e non supervisionata. Assunzioni di base, definizione generale di funzione Perdita e di funzione Rischio. Definizione di training set e di test set. La classificazione come problema supervisionato: cosa è e perché usarla. Definizioni di base: funzione perdita 0-1, funzione Rischio, Classificatore di Bayes, funzioni discriminanti, regioni decisionali e contorni decisionali. Metodi di classificazione: Linear Discriminant Analysis (LDA), Quadratic Discriminant Analysis (QDA), il metodo dei vicini-più-vicini, regressione logistica, Support Vector Machine (S.V.M.), alberi di classificazione (C.A.R.T.), bagging tree e boosted tree. Il problema della dimensionalità per problemi di classificazione e tecniche per

affrontarlo: le componenti discriminanti lineari, la selezione delle variabili per passi succcessivi e la penalizzazione L1. La regressione come problema supervisionato: cosa è e perché usarla. Definizioni di base: funzione perdita quadratica e funzione Rischio. La regressione lineare semplice e multipla. Strategie per trattare il problema della dimensionalità dei dati: selezione del modello per passi successivi, l’analisi delle componenti principali (PCA), metodi di regolarizzazione tipo L2 (Ridge regression) e tipo L1 (LASSO). L’analisi di dati funzionali: metodi lineari e non lineari per l’analisi di dati funzionali basati su una espansione in una base (Splines, Fourier, Wavelet) oppure basati su una espansione in un dizionario qualsiasi (Gabor, RDWT, random). Tecniche di regolarizzazione alla Tikonov (es.Filtro di Wiener) e di regolarizzazione alla LASSO (es. soft thresholding ). Il problema della dimensionalità per problemi di regressione e la scalabilità algoritmica: costo per iterazione del metodo del gradiente discendente e regolarizzazione attraverso un arresto precoce dell’iterazione (Regularization via early stopping);

Prerequisiti: Nel corso si fà ampio uso di algebra lineare, di concetti base di teoria della probabilità e di statistica. Gli studenti sono tenuti ad avere familiarità con MATLAB.