Lezione 1 - Centro di Bioinformatica Molecolare

Informazioni sul corso
Fabrizio Ferrè
fabrizio.ferre@uniroma2.it
Tel: 06 72594320
Dipartimento di Biologia, stanza 320 (dente di Genetica)
Materiale del corso:
http://bioinformatica.uniroma2.it/GC2014/
Username: GC2014
Password: GC2014!
Informazioni sul corso
Calendario
Lezione 1 (7 Aprile): Sequenziamento e assemblaggio
Lezione 2 (14 Aprile): Sequenziamento e assemblaggio 2
Lezione 3 (28 Aprile): Sequenziamento del trascrittoma
Lezione 4 (5 Maggio): Sequenziamento del trascrittoma 2
Lezione 5 (12 Maggio): Annotazione del genoma
Lezione 6 (19 Maggio): Annotazione del genoma 2
Lezione 7 (26 Maggio): Banche dati genomiche
Lezione 8 (2 Giugno): Varie ed eventuali
Informazioni sul corso
Valutazione finale:
Relazione scritta sull’analisi di dati di
sequenziamento del trascrittoma
Informazioni sul corso
Valutazione finale:
Relazione scritta sull’analisi di dati di
sequenziamento del trascrittoma:
1. 
2. 
3. 
4. 
5. 
6. 
Analisi di qualità
Mappatura sul genoma
Calcolo dell’espressione
Test di espressione differenziale
Visualizzazione e interpretazione
Analisi funzionale
Informazioni sul corso
Valutazione finale:
Relazione scritta sull’analisi di dati di
sequenziamento del trascrittoma:
Per ognuno di voi verrà creato un account sul
server per la didattica, dove metterò i dati e I
installerò i programmi necessari
Scrivetemi un’email e vi manderò le
credenziali per entrare nel vostro spazio
Lezione 1
Sequenziamento del
genoma
Genomica – Introduzione
Genoma: corredo dell'acido nucleico contenente l'informazione genetica di un organismo
Nucleare
Cromosomico
Genoma
Degli organelli
Extracromosomico
Genomica – Introduzione
Genoma: corredo dell'acido nucleico contenente l'informazione genetica di un organismo
Nucleare
Cromosomico
Genoma
Degli organelli
Extracromosomico
Individuali
Epigenoma
Variazioni genomiche
Diverso da cellula a cellula
In alcuni tipi cellulari
Genomica – Introduzione
Genoma: corredo dell'acido nucleico contenente l'informazione genetica di un organismo
Nucleare
Cromosomico
Genoma
Degli organelli
Extracromosomico
Individuali
Epigenoma
Variazioni genomiche
In alcuni tipi cellulari
Diverso da cellula a cellula
Genoma “core”
Pan-genoma
Genoma dispensabile
Genomica – Introduzione
l 
l 
La Genomica è
strettamente legata a molte
altre discipline, ciascuna
delle quali impiega molte
metodologie computazionali
l 
l 
l 
l 
l 
l 
GENOMA
Geni e sequenze reagolatorie
TRASCRITTOMA
RNA ed espressione genica
PROTEOMA
Proteine
METABOLOMA
Metaboliti e vie metaboliche
FARMACOGENOMA
Relazione tra genoma e risposta ai farmaci
INTERATTOMA
Insieme di interazioni fra proteine
EPIGENOMA
Modificazioni del genoma
REGOLOMA
Sequenze regolative e molecole regolatrici
Genomica – Introduzione
La Genomica e la Biologia Computazionale sono evolute insieme
Anni 70: i dati erano pochi e poco rappresentativi, ma gia i biologi iniziavano
ad applicare algoritmi per analizzare sequenze di proteine ed acidi nucleici;
Anni 80: vari studiosi iniziarono ad introdurre metodi presi in prestito da
informatica e statistica per analisi più sofisticate;
Anni 90: non appena i primi genomi iniziarono ad essere sequenziati, nasce
la genomica computazionale;
2000-: i genomi completamente sequenziati sono numerosi, nuove
tecnologie promettono di ottenere valanghe di dati in tempi brevissimi, e la
genomica computazionale è ormai integrata nelle metodologie di analisi
biologica e non più applicata solo a posteriori.
Genomica – Introduzione
Figure 7.14 Genomes 3 (© Garland Science 2007)
Genomica – Introduzione
Organismo
Paia di basi
(aploide)
Numero
geni
Descrizione
Saccharomyces
cerevisiae
12,495,682
5,770
Lievito della birra
Cyanidioschyzon merolae
16,520,305
5,331
Alga rossa unicellulare
Plasmodium falciparum
22,853,764
5,268
Protozoo
Caenorhabditis elegans
100,258,171
19,427
Nematode
Arabidopsis thaliana
115,409,949
28,000
Angiosperma
Drosophila melanogaster
122,653,977
13,379
Moscerino della frutta
Anopheles gambiae
278,244,063
13,683
Zanzara
Mus musculus
2.6 x 109
22,000
Topo domestico
Homo sapiens
3.2 x 109
22,000
Uomo
Tetraodon nigroviridis
3.42 x 108
27,918
Pesce palla
Oryza sativa
3.9 x 108
37,544
Riso
Genomica – Introduzione
Genomica – Introduzione
The Sanger chain-termination method
Molecole di DNA a singolo filamento
che differiscono anche solo di una
singola base in lunghezza possono
esere separate su gel di poliacrilamide
per elettroforesi
The Sanger chain-termination method
ddNucleotidi
l 
l 
ddA, ddT, ddC, ddG
Quando incorporati nella
catena nascente di DNA
causano l'arresto della
replicazione.
The Sanger chain-termination method
Si parte da DNA a singolo strand
che si vuole sequenziare;
Si iniziano 4 reazioni di replicazione
separate;
Nella miscela di reazione sono
presenti i 4 nucleotidi standard e
sono aggiunti dideossinucleotidi
(ddNTPs) marcati che terminano
l'allungamento;
Dopo un numero sufficiente di cicli
ci saranno polimeri che terminano
ad ogni possibile posizione del
templato.
Separando per elettroforesi questi
polimeri in base alla loro
dimensione, si osserveranno una
serie di bande corrispondendti alla
sequenza del templato.
The Sanger chain-termination method
The Sanger chain-termination method
Elettroferogramma
Mentre i frammenti ottenuti dalla reazione di sequenziamento sono separati dal gel,
un laser legge la fluorescenza di ogni frammento e determina automaticamente la
sequenza. Ogni colore (blu, verde, rosso o giallo), oppure l'intensità della
fluorescenza, corrisponde ad un nucleotide diverso (ad esempio blu per le G, e cosi
via).
The Sanger chain-termination method
The Sanger chain-termination method
The Sanger chain-termination method
Qualità della sequenza
Phred
PHRED – PHil s Read
EDitor (Phil Green)
Generata sequenza della
read e valutazione della
qualità
PHRED quality =
-10×log10Prob(Error)
Il formato FASTQ
@SEQUENCE1
GCCCGGCGGGTTCATGCTGAAGAAAGGCGAAGTGTTCGGTTGGGCGGC
+
fffffffefe^eeceedffdcd^dXecffbeed`Reebe`db\]XWSS
Un file FASTQ utilizza 4 righe per ogni sequenza:
- La prima riga inizia con una @ ed è seguita dall’identificativo della sequenza ed
una descrizione (opzionale); equivale alla prima riga di un file FASTA (che inizia per
>).
-  La seconda riga contiene la sequenza.
-  La terza riga inizia con un + e può contenere identificativo e descrizione.
-  La quarta riga contiene I punteggi di qualità per ogni nucleotide della sequenza
codificati come conversione decimale del codice ASCII (American Standard Code
for Information Interchange) del carattere corrispondente (ad es. ]=93,f=102).
The Sanger chain-termination method
Sequenziatori:
- La separazione e' effettuata per
elettroforesi su capillare invece che su gel
- 1 corsa = 4 ore
- 1 corsa = 384 sequenze in parallelo
- più di 2000 sequenze al giorno
- ogni sequenza = fino a 700 bp
Next Generation Sequencing
DNA sequencing technologies
•  Sanger sequencing
• 
Next-Generation sequencing
•  Roche 454
•  ABI SOLiD
•  Illumina (Solexa)
• 
Next-Next (3rd) Generation sequencing
•  VisiGen
•  Helicos
•  Oxford Nanopore
Next Generation Sequencing
- Producono un'enorme mole di reads corte;
- I tempi di corsa sono molto brevi;
- Grosso risparmio economico;
- Possono essere applicate a DNA, RNA e altre varianti;
- Di recente sono state estese per la produzione di paired reads;
- L'analisi bioinformatica è lo step limitante di tutta la procedura: I dati sono
prodotti più velocemente e facilmente di quanto sia possibile analizzarli.
Next Generation Sequencing
Next Generation Sequencing
[Kahvejian et al., Nature Biotech 2008]
Piattaforme per Next Generation Sequencing
Piattaforme per Next Generation Sequencing
Polony =
PCR colony
Sequenziamento con terminatori reversibili
1) Estrazione del DNA
2) Frammentazione
3) Attacco degli adattatori
Sequenziamento con terminatori reversibili
4) Attacco ad un supporto solido
5) Amplificazione per PCR
Lezione 1
Genomica Computazionale,
Sequenziamento con terminatori reversibili
adattatore
sequenza del
frammento
adattatore
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A A A
G G
T T T T
C C C
T T
T T T T
T T T
C C
C C C C
G G G
T T
A A A A
A A A
G G
G G G G
A A A
A A
G G G G
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Cluster 1
Cluster 2
Cluster 3
Sequenziamento con terminatori reversibili
Primo ciclo di sequenziamento
.
.
.
A
C
T
G
A
A
.
.
.
Aggiunta di adattatori
liberi e basi marcate
Sequenziamento con terminatori reversibili
Fluoroforo
Sito di taglio
del fluoroforo
3'-O-azydomethyl
Sequenziamento con terminatori reversibili
Primo ciclo di sequenziamento
.
.
Lettura dell'emissione
.
A
C
T
G
A
A
.
.
.
Laser
Sequenziamento con terminatori reversibili
Primo ciclo di sequenziamento
.
.
.
A
C
T
G
A
A
.
.
.
rimozione del terminatore
Sequenziamento con terminatori reversibili
Secondo ciclo di sequenziamento
.
.
.
A
C
T
G
A
A
.
.
.
Aggiunta di basi
marcate
Sequenziamento con terminatori reversibili
Secondo ciclo di sequenziamento
.
Lettura dell'emissione
.
.
A
C
T
G
A
A
.
.
.
Laser
Sequenziamento con terminatori reversibili
Terzo ciclo di sequenziamento
Lettura dell'emissione
.
.
.
A
C
T
G
A
A
.
.
.
Laser
Sequenziamento con terminatori reversibili
Lettura dell'emissione
Quarto ciclo di sequenziamento
.
.
.
A
C
T
G
A
A
.
.
.
Laser
Sequenziamento Illumina/Solexa Genome Analyzer
1. Caricamento dei campioni
2. Attacco del DNA alla
superficie
DNA a singolo strand si
attacca casualmente sulla
superficie
3. Bridge amplification
Nucleotidi ed enzimi sono
aggiunti per iniziare
l’amplificazione su fase solida
Sequenziamento Illumina/Solexa Genome Analyzer
4. Il DNA diventa a
doppio strand
5. Il DNA doppio strand
viene denaturato
La denaturazione lascia
DNA a singolo strand
attaccato alla superficie
6. L’amplificazione e’
ripetuta
Vari milioni di gruppi di DNA
amplificato sono generati alla
fine del processo
Sequenziamento Illumina/Solexa Genome Analyzer
1. Attacco della prima
base
Si aggiungono i 4
nucleotidi con terminatori
reversibili
5. Imaging della prima
base
Ogni cluster emettera’ in base
al nucleotide incorporato nella
prima posizione
6. Attacco della
seconda base
Si aggiungono di nuovo I 4
nucleotidi con terminatori
reversibili
Sequenziamento Illumina/Solexa Genome Analyzer
sequence
clusters
tile
Ciclo 1
Ciclo 2
Ciclo 3
Ciclo 4
Ciclo 5
Ciclo 6
Sequenziamento Illumina/Solexa Genome Analyzer
Illumina Genome Analyzer Flow cell
- Divisa in 8 canali (lanes);
- Ogni canale può essere caricato con fino a
12 campioni diversi ientificati da diverse tag
(multiplexing);
- Input: 0.1–1.0 µg;
- 96-120 milioni di reads (clusters) per flow
cell, ogni cluster contenente ~1,000 copie
dello stesso templato.
lanes
Sequenziamento Illumina/Solexa Genome Analyzer
Illumina Genome Analyzer Flow cell
control
lane
tile
lanes
1
2
3
4
5
lanes
6
7
8
Sequenziamento Illumina/Solexa Genome Analyzer
Read
Length
Run
Time
(Giorni)
Output
(Gb)
1 X 35
bp
~2
10-12
2 X 50
bp
~5
25-30
2 X 75
bp
~7
18-37.5
2 X 100
bp
~9.5
54-60
2 X 150
bp
~14
85-95
Sequenziamento Roche/454
Emulsion-based clonal amplification (emPCR)
Frammenti di DNA sono amplificati per PCR in una goccia d'acqua in
olio. Nella goccia si trovano biglie ricoperte da primer, nucleotidi e
enzimi per la PCR.
Le biglie sono
caricata su una
piastra (PicoTiter
plate)
[Mezker, Nature Rev. Genet. 2010]
Sequenziamento Roche/454
La solforilasi converte il pirofosfato in ATP
L'ATP è idrolizzato dalla luciferasi emettendo luce
[Mezker, Nature Rev. Genet. 2010]
Sequenziamento Roche/454
La solforilasi converte il pirofosfato in ATP
L'ATP è idrolizzato dalla luciferasi emettendo luce
[Mezker, Nature Rev. Genet. 2010]
Sequenziamento Roche/454
T
C
A
GG
TTTTTT
AA
La solforilasi converte il pirofosfato in ATP
L'ATP è idrolizzato dalla luciferasi emettendo luce
[Mezker, Nature Rev. Genet. 2010]
Sequenziamento Roche/454
Flow Order
T
A
C
G
Assemblaggio del
genoma
Strategie per il sequenziamento di genomi
Genomica – Introduzione
Strategie per il sequenziamento di genomi
Coverage
(numero totale di basi sequenziate)/
(lunghezza della sequenza
assemblata)
31/13=2.3
Strategie per il sequenziamento di genomi
Bottom-up
Top-down
Metodo top-down
Top-down (or hierarchical, or clone-based) shotgun sequencing
1. Il genoma è frammentato, e i frammenti sono clonati in un vettore adatto:
- YAC (yeast artificial chromosome)
- BAC (bacterial artificial chromosome)
2. I BAC o YAC sono replicati nelle cellule ospiti per produrre milioni di copie.
3. Questi cloni sono poi analizzati cercando dei marcatori specifici (STS, siti di
restrizione, etc.).
4. Marcatori condivisi da piu' cloni sono utilizzati per determinare l'ordine di questi
cloni sul cromosoma da cui originano (tiling path). Gruppi di cloni con regioni
sovrapposte sono chiamati contigs.
5. Un sottoinsieme di questi cloni e' scelto per massimizzare la copertura della
sequenza e al contempo minimizzare il numero di sequenze necessarie, e sottoposto
a sequenziamento shotgun.
Metodo top-down
Top-down Method
~100mln bp
Libreria di YAC
(Yeast Artificial
Chromosome)
YACs
~1mln bp
~40k bp
Strategie per il sequenziamento di genomi
Top-down Method
~40k bp
Sequenziamento
shotgun
Libreria di BAC
(Bacterial
Artificial
Chromosome)
Vettore virale,
Plasmide
Metodo top-down
Un clone in un BAC
genoma
mappa
1.  Si parte da una libreria di cloni in BAC
2.  Mappatura dei cloni sul genoma (mediante mappe fisiche)
3.  Selezione un set minimo di BAC sovrapposti (minimum tiling path)
Metodo top-down
Mappe fisiche cromosomiche
Forniscono la posizione
relativa e una stima della
distanza di una serie di
marcatori:
- geni
- polimorfismi
- siti di restrizione
- STS
- etc.
Metodo top-down
Un clone in un BAC
genoma
1. 
2. 
3. 
4. 
5. 
6. 
mappa
Si parte da una libreria di cloni in BAC
Mappatura dei cloni sul genoma (mediante mappe fisiche)
Selezione un set minimo di BAC sovrapposti (minimum tiling path)
Sequenziamento di ogni clone per shotgun
Assemblaggio
Identificazione relazioni a lunga distanza
Metodo top-down
I BAC che sono stati selezionati sono poi
purificati dalle corrispondenti colonie
batteriche.
Il DNA purificato è rotto con mezzi fisici, e
frammenti di dimensione 2–5 kb sono clonati,
stavolta in plasmidi.
Questi frammenti sono poi sequenziate con il
metodo di Sanger a partire da una od
entrambe le estremità.
Le sequenze generate sono chiamate reads.
Le reads le cui sequenze si sovrappongono
sono raggruppate (assemblate), e la
sequenza che si genera dalla loro
sovrapposizione e' chiamata contig di
sequenza.
Questi contigs sono una versione preliminare
dell'assemblaggio finale, intervallati da regioni
non coperte (gaps) o di scarsa qualità. La
ripetizione di alcune sequenze, o l'aggiunta di
nuovi dati, può aiutare a rifinire
l'assemblaggio.
Metodo top-down
Contig: un set continuo di sequenze overlappanti
Gap
Metodo top-down
Read Coverage
l
n
L
Lunghezza del segmento assemblato: L
Numero di reads:
n
Lunghezza media delle reads:
l
Coverage C = n l / L
Modello di Lander-Waterman:
Assumendo una distribuzione uniforme delle reads, C=10 equivale a 1 gap
ogni 1,000,000 di nucleotidi
Metodo top-down
6
5
4
3
2
1
Contig
Reads
Coverage
Read Coverage