Big Data

Anno Accademico 2013/2014
Big Data
Presentazione del corso
Prof. Riccardo Torlone
Universita di Roma Tre
2
Riccardo Torlone - Corso di Big Data
Un corso sperimentale
 E’ il primo anno che si tiene a Roma Tre
 E’ il primo corso sui Big Data in una Università italiana
 Sperimenteremo insieme alcune tecnologie
 Potremo usufruire di un grant di Amazon
 Conosceremo progetti accademici e industriali sui Big Data
 Insomma, faremo tutti parte di un’avventura..
3
Riccardo Torlone - Corso di Big Data
4
Riccardo Torlone - Corso di Big Data
Big Data? Why?
Well, because they are..
5
Riccardo Torlone - Corso di Big Data
.. BIG
“The greater the struggle, the more glorious the triumph”
6
Riccardo Torlone - Corso di Big Data
(The Butterfly Circus)
.. NECESSARY
“It is a capital mistake to theorize before one has data”
7
Riccardo Torlone - Corso di Big Data
(Sherlock Holmes)
.. FASHIONABLE
“I always wanted to be fashionable.”
8
Riccardo Torlone - Corso di Big Data
(John Malkovich)
.. PROFITABLE
“Data is a precious thing and will last longer than the
systems themselves.”
9
Riccardo Torlone - Corso di Big Data
(Tim Bersten Lee)
.. EXCITING
“When human judgment and big data intersect there are
some funny things that happen”
(Nate Silver)
10
“ The most exciting phrase to hear in science, is not
'Eureka!' but 'That's funny’... ”
(Isaac Asimov)
Riccardo Torlone - Corso di Big Data
General information
 Teacher
 Prof. Riccardo Torlone
 Email: torlone@dia.uniroma3.it
 Office hours:
 VEN 11:00 - 13:00
 DIA – II piano – stanza 209
 Course Web site
 http://torlone.dia.uniroma3.it/bigdata/
 Moodle page
 http://moodle2.ing.uniroma3.it/moodle/
 You must register
 Twitter:
 #bigdataroma3
 Lectures
 LUN-GIO dalle 14:00 alle 16:00, Aula N8
 Interruzione: periodo pasquale
11
Riccardo Torlone - Corso di Big Data
Goals
 Illustrare le moderne soluzioni tecniche e metodologiche per la gestione di
collezioni di dati destrutturati le cui dimensioni superano le capacità di memorizzazione,
gestione e analisi tipiche dei tradizionali sistemi per basi di dati.
 In particolare:
 I requisiti delle moderne applicazioni
 I problemi da risolvere con i big data
 Le possibili soluzioni hardware e software
 Strategia:
 Cura di aspetti metodologici e tecnologici
 Esercitazioni pratiche con l'ausilio di sistemi reali
 Svolgimento di progetti pratici
 Seminari aziendali
12
Riccardo Torlone - Corso di Big Data
Contenuti del Corso (provvisiori)
 Introduzione al corso
 Terminologia, caratteristiche principali ed esempi di applicazioni.
 Memorizzazione di Big Data
 Hadoop & Map-reduce;
 Cloud computing;
 I sistemi NoSQL.
 Elaborazione di Big Data
 Cleaning, trasformazione e integrazione di dati;
 Strumenti di alto livello: Pig, Hive;
 Tecniche di nuova generazione per l’accesso ai dati.
 Analisi dei Big Data
 Metodi e algoritmi di data analysis;
 Tecnologie per l'analisi di big data: Mahout, Open R;
 Applicazioni
 SemanticWeb e Open data, Social networks, Gestione di dati genomici.
 Seminari aziendali
13
Riccardo Torlone - Corso di Big Data
Materiale
 Testi
 Dispense a cura del docente (scaricabili dal sito Web)
 Sistemi NoSQL:
 Martin J. Fowler, Pramodkumar J. Sadalage. “NoSQL Distilled: A Brief Guide to the
Emerging World of Polyglot Persistence”, Addison-Wesley, 2013.
 Articoli scientifici e capitoli di libro
 Dettagli sul sito quando sarà il momento
 Software
 Hadoop
 Amazon Web Services
 Altri strumenti specifici
14
Riccardo Torlone - Corso di Big Data
Esami..
 I have a dream..
15
Riccardo Torlone - Corso di Big Data
16
Riccardo Torlone - Corso di Big Data
Modalità di esame
 Per chi segue:
 2 progetti che possono essere svolti in gruppi (2, max 3 persone)
 Progetto comune, consegna metà aprile, peso 30%
 Progetto assegnato, consegna fine corso, peso 50%
 prova finale di circa 30 minuti, data d'esame, peso 20%
 Per tutti gli altri:
 Progetto individuale assegnato
 Prova scritta di circa 3 ore
 Regole:
 Sono previsti tre appelli in un anno
 Appelli: Luglio 2014, Settembre 2014, Febbraio 2015
17
Riccardo Torlone - Corso di Big Data
Progetto principale
 Obiettivi
 Risolvere un problema di Big data
 Sperimentare nuove tecnologie
 Passi:
 Trovare sfide e dati
 Selezionare una tecnica di analisi
 Scegliere la tecnologia più adatta
 Implementare il metodo
 Sperimentarlo
18
Riccardo Torlone - Corso di Big Data