Informazioni sul corso Fabrizio Ferrè fabrizio.ferre@uniroma2.it Tel: 06 72594320 Dipartimento di Biologia, stanza 320 (dente di Genetica) Materiale del corso: http://bioinformatica.uniroma2.it/GC2014/ Username: GC2014 Password: GC2014! Informazioni sul corso Calendario Lezione 1 (7 Aprile): Sequenziamento e assemblaggio Lezione 2 (14 Aprile): Sequenziamento e assemblaggio 2 Lezione 3 (28 Aprile): Sequenziamento del trascrittoma Lezione 4 (5 Maggio): Sequenziamento del trascrittoma 2 Lezione 5 (12 Maggio): Annotazione del genoma Lezione 6 (19 Maggio): Annotazione del genoma 2 Lezione 7 (26 Maggio): Banche dati genomiche Lezione 8 (2 Giugno): Varie ed eventuali Informazioni sul corso Valutazione finale: Relazione scritta sull’analisi di dati di sequenziamento del trascrittoma Informazioni sul corso Valutazione finale: Relazione scritta sull’analisi di dati di sequenziamento del trascrittoma: 1. 2. 3. 4. 5. 6. Analisi di qualità Mappatura sul genoma Calcolo dell’espressione Test di espressione differenziale Visualizzazione e interpretazione Analisi funzionale Informazioni sul corso Valutazione finale: Relazione scritta sull’analisi di dati di sequenziamento del trascrittoma: Per ognuno di voi verrà creato un account sul server per la didattica, dove metterò i dati e I installerò i programmi necessari Scrivetemi un’email e vi manderò le credenziali per entrare nel vostro spazio Lezione 1 Sequenziamento del genoma Genomica – Introduzione Genoma: corredo dell'acido nucleico contenente l'informazione genetica di un organismo Nucleare Cromosomico Genoma Degli organelli Extracromosomico Genomica – Introduzione Genoma: corredo dell'acido nucleico contenente l'informazione genetica di un organismo Nucleare Cromosomico Genoma Degli organelli Extracromosomico Individuali Epigenoma Variazioni genomiche Diverso da cellula a cellula In alcuni tipi cellulari Genomica – Introduzione Genoma: corredo dell'acido nucleico contenente l'informazione genetica di un organismo Nucleare Cromosomico Genoma Degli organelli Extracromosomico Individuali Epigenoma Variazioni genomiche In alcuni tipi cellulari Diverso da cellula a cellula Genoma “core” Pan-genoma Genoma dispensabile Genomica – Introduzione l l La Genomica è strettamente legata a molte altre discipline, ciascuna delle quali impiega molte metodologie computazionali l l l l l l GENOMA Geni e sequenze reagolatorie TRASCRITTOMA RNA ed espressione genica PROTEOMA Proteine METABOLOMA Metaboliti e vie metaboliche FARMACOGENOMA Relazione tra genoma e risposta ai farmaci INTERATTOMA Insieme di interazioni fra proteine EPIGENOMA Modificazioni del genoma REGOLOMA Sequenze regolative e molecole regolatrici Genomica – Introduzione La Genomica e la Biologia Computazionale sono evolute insieme Anni 70: i dati erano pochi e poco rappresentativi, ma gia i biologi iniziavano ad applicare algoritmi per analizzare sequenze di proteine ed acidi nucleici; Anni 80: vari studiosi iniziarono ad introdurre metodi presi in prestito da informatica e statistica per analisi più sofisticate; Anni 90: non appena i primi genomi iniziarono ad essere sequenziati, nasce la genomica computazionale; 2000-: i genomi completamente sequenziati sono numerosi, nuove tecnologie promettono di ottenere valanghe di dati in tempi brevissimi, e la genomica computazionale è ormai integrata nelle metodologie di analisi biologica e non più applicata solo a posteriori. Genomica – Introduzione Figure 7.14 Genomes 3 (© Garland Science 2007) Genomica – Introduzione Organismo Paia di basi (aploide) Numero geni Descrizione Saccharomyces cerevisiae 12,495,682 5,770 Lievito della birra Cyanidioschyzon merolae 16,520,305 5,331 Alga rossa unicellulare Plasmodium falciparum 22,853,764 5,268 Protozoo Caenorhabditis elegans 100,258,171 19,427 Nematode Arabidopsis thaliana 115,409,949 28,000 Angiosperma Drosophila melanogaster 122,653,977 13,379 Moscerino della frutta Anopheles gambiae 278,244,063 13,683 Zanzara Mus musculus 2.6 x 109 22,000 Topo domestico Homo sapiens 3.2 x 109 22,000 Uomo Tetraodon nigroviridis 3.42 x 108 27,918 Pesce palla Oryza sativa 3.9 x 108 37,544 Riso Genomica – Introduzione Genomica – Introduzione The Sanger chain-termination method Molecole di DNA a singolo filamento che differiscono anche solo di una singola base in lunghezza possono esere separate su gel di poliacrilamide per elettroforesi The Sanger chain-termination method ddNucleotidi l l ddA, ddT, ddC, ddG Quando incorporati nella catena nascente di DNA causano l'arresto della replicazione. The Sanger chain-termination method Si parte da DNA a singolo strand che si vuole sequenziare; Si iniziano 4 reazioni di replicazione separate; Nella miscela di reazione sono presenti i 4 nucleotidi standard e sono aggiunti dideossinucleotidi (ddNTPs) marcati che terminano l'allungamento; Dopo un numero sufficiente di cicli ci saranno polimeri che terminano ad ogni possibile posizione del templato. Separando per elettroforesi questi polimeri in base alla loro dimensione, si osserveranno una serie di bande corrispondendti alla sequenza del templato. The Sanger chain-termination method The Sanger chain-termination method Elettroferogramma Mentre i frammenti ottenuti dalla reazione di sequenziamento sono separati dal gel, un laser legge la fluorescenza di ogni frammento e determina automaticamente la sequenza. Ogni colore (blu, verde, rosso o giallo), oppure l'intensità della fluorescenza, corrisponde ad un nucleotide diverso (ad esempio blu per le G, e cosi via). The Sanger chain-termination method The Sanger chain-termination method The Sanger chain-termination method Qualità della sequenza Phred PHRED – PHil s Read EDitor (Phil Green) Generata sequenza della read e valutazione della qualità PHRED quality = -10×log10Prob(Error) Il formato FASTQ @SEQUENCE1 GCCCGGCGGGTTCATGCTGAAGAAAGGCGAAGTGTTCGGTTGGGCGGC + fffffffefe^eeceedffdcd^dXecffbeed`Reebe`db\]XWSS Un file FASTQ utilizza 4 righe per ogni sequenza: - La prima riga inizia con una @ ed è seguita dall’identificativo della sequenza ed una descrizione (opzionale); equivale alla prima riga di un file FASTA (che inizia per >). - La seconda riga contiene la sequenza. - La terza riga inizia con un + e può contenere identificativo e descrizione. - La quarta riga contiene I punteggi di qualità per ogni nucleotide della sequenza codificati come conversione decimale del codice ASCII (American Standard Code for Information Interchange) del carattere corrispondente (ad es. ]=93,f=102). The Sanger chain-termination method Sequenziatori: - La separazione e' effettuata per elettroforesi su capillare invece che su gel - 1 corsa = 4 ore - 1 corsa = 384 sequenze in parallelo - più di 2000 sequenze al giorno - ogni sequenza = fino a 700 bp Next Generation Sequencing DNA sequencing technologies • Sanger sequencing • Next-Generation sequencing • Roche 454 • ABI SOLiD • Illumina (Solexa) • Next-Next (3rd) Generation sequencing • VisiGen • Helicos • Oxford Nanopore Next Generation Sequencing - Producono un'enorme mole di reads corte; - I tempi di corsa sono molto brevi; - Grosso risparmio economico; - Possono essere applicate a DNA, RNA e altre varianti; - Di recente sono state estese per la produzione di paired reads; - L'analisi bioinformatica è lo step limitante di tutta la procedura: I dati sono prodotti più velocemente e facilmente di quanto sia possibile analizzarli. Next Generation Sequencing Next Generation Sequencing [Kahvejian et al., Nature Biotech 2008] Piattaforme per Next Generation Sequencing Piattaforme per Next Generation Sequencing Polony = PCR colony Sequenziamento con terminatori reversibili 1) Estrazione del DNA 2) Frammentazione 3) Attacco degli adattatori Sequenziamento con terminatori reversibili 4) Attacco ad un supporto solido 5) Amplificazione per PCR Lezione 1 Genomica Computazionale, Sequenziamento con terminatori reversibili adattatore sequenza del frammento adattatore . . . . . . . . . . . . . . . . . . . . . . . . . . . A A A G G T T T T C C C T T T T T T T T T C C C C C C G G G T T A A A A A A A G G G G G G A A A A A G G G G . . . . . . . . . . . . . . . . . . . . . . . . . . . Cluster 1 Cluster 2 Cluster 3 Sequenziamento con terminatori reversibili Primo ciclo di sequenziamento . . . A C T G A A . . . Aggiunta di adattatori liberi e basi marcate Sequenziamento con terminatori reversibili Fluoroforo Sito di taglio del fluoroforo 3'-O-azydomethyl Sequenziamento con terminatori reversibili Primo ciclo di sequenziamento . . Lettura dell'emissione . A C T G A A . . . Laser Sequenziamento con terminatori reversibili Primo ciclo di sequenziamento . . . A C T G A A . . . rimozione del terminatore Sequenziamento con terminatori reversibili Secondo ciclo di sequenziamento . . . A C T G A A . . . Aggiunta di basi marcate Sequenziamento con terminatori reversibili Secondo ciclo di sequenziamento . Lettura dell'emissione . . A C T G A A . . . Laser Sequenziamento con terminatori reversibili Terzo ciclo di sequenziamento Lettura dell'emissione . . . A C T G A A . . . Laser Sequenziamento con terminatori reversibili Lettura dell'emissione Quarto ciclo di sequenziamento . . . A C T G A A . . . Laser Sequenziamento Illumina/Solexa Genome Analyzer 1. Caricamento dei campioni 2. Attacco del DNA alla superficie DNA a singolo strand si attacca casualmente sulla superficie 3. Bridge amplification Nucleotidi ed enzimi sono aggiunti per iniziare l’amplificazione su fase solida Sequenziamento Illumina/Solexa Genome Analyzer 4. Il DNA diventa a doppio strand 5. Il DNA doppio strand viene denaturato La denaturazione lascia DNA a singolo strand attaccato alla superficie 6. L’amplificazione e’ ripetuta Vari milioni di gruppi di DNA amplificato sono generati alla fine del processo Sequenziamento Illumina/Solexa Genome Analyzer 1. Attacco della prima base Si aggiungono i 4 nucleotidi con terminatori reversibili 5. Imaging della prima base Ogni cluster emettera’ in base al nucleotide incorporato nella prima posizione 6. Attacco della seconda base Si aggiungono di nuovo I 4 nucleotidi con terminatori reversibili Sequenziamento Illumina/Solexa Genome Analyzer sequence clusters tile Ciclo 1 Ciclo 2 Ciclo 3 Ciclo 4 Ciclo 5 Ciclo 6 Sequenziamento Illumina/Solexa Genome Analyzer Illumina Genome Analyzer Flow cell - Divisa in 8 canali (lanes); - Ogni canale può essere caricato con fino a 12 campioni diversi ientificati da diverse tag (multiplexing); - Input: 0.1–1.0 µg; - 96-120 milioni di reads (clusters) per flow cell, ogni cluster contenente ~1,000 copie dello stesso templato. lanes Sequenziamento Illumina/Solexa Genome Analyzer Illumina Genome Analyzer Flow cell control lane tile lanes 1 2 3 4 5 lanes 6 7 8 Sequenziamento Illumina/Solexa Genome Analyzer Read Length Run Time (Giorni) Output (Gb) 1 X 35 bp ~2 10-12 2 X 50 bp ~5 25-30 2 X 75 bp ~7 18-37.5 2 X 100 bp ~9.5 54-60 2 X 150 bp ~14 85-95 Sequenziamento Roche/454 Emulsion-based clonal amplification (emPCR) Frammenti di DNA sono amplificati per PCR in una goccia d'acqua in olio. Nella goccia si trovano biglie ricoperte da primer, nucleotidi e enzimi per la PCR. Le biglie sono caricata su una piastra (PicoTiter plate) [Mezker, Nature Rev. Genet. 2010] Sequenziamento Roche/454 La solforilasi converte il pirofosfato in ATP L'ATP è idrolizzato dalla luciferasi emettendo luce [Mezker, Nature Rev. Genet. 2010] Sequenziamento Roche/454 La solforilasi converte il pirofosfato in ATP L'ATP è idrolizzato dalla luciferasi emettendo luce [Mezker, Nature Rev. Genet. 2010] Sequenziamento Roche/454 T C A GG TTTTTT AA La solforilasi converte il pirofosfato in ATP L'ATP è idrolizzato dalla luciferasi emettendo luce [Mezker, Nature Rev. Genet. 2010] Sequenziamento Roche/454 Flow Order T A C G Assemblaggio del genoma Strategie per il sequenziamento di genomi Genomica – Introduzione Strategie per il sequenziamento di genomi Coverage (numero totale di basi sequenziate)/ (lunghezza della sequenza assemblata) 31/13=2.3 Strategie per il sequenziamento di genomi Bottom-up Top-down Metodo top-down Top-down (or hierarchical, or clone-based) shotgun sequencing 1. Il genoma è frammentato, e i frammenti sono clonati in un vettore adatto: - YAC (yeast artificial chromosome) - BAC (bacterial artificial chromosome) 2. I BAC o YAC sono replicati nelle cellule ospiti per produrre milioni di copie. 3. Questi cloni sono poi analizzati cercando dei marcatori specifici (STS, siti di restrizione, etc.). 4. Marcatori condivisi da piu' cloni sono utilizzati per determinare l'ordine di questi cloni sul cromosoma da cui originano (tiling path). Gruppi di cloni con regioni sovrapposte sono chiamati contigs. 5. Un sottoinsieme di questi cloni e' scelto per massimizzare la copertura della sequenza e al contempo minimizzare il numero di sequenze necessarie, e sottoposto a sequenziamento shotgun. Metodo top-down Top-down Method ~100mln bp Libreria di YAC (Yeast Artificial Chromosome) YACs ~1mln bp ~40k bp Strategie per il sequenziamento di genomi Top-down Method ~40k bp Sequenziamento shotgun Libreria di BAC (Bacterial Artificial Chromosome) Vettore virale, Plasmide Metodo top-down Un clone in un BAC genoma mappa 1. Si parte da una libreria di cloni in BAC 2. Mappatura dei cloni sul genoma (mediante mappe fisiche) 3. Selezione un set minimo di BAC sovrapposti (minimum tiling path) Metodo top-down Mappe fisiche cromosomiche Forniscono la posizione relativa e una stima della distanza di una serie di marcatori: - geni - polimorfismi - siti di restrizione - STS - etc. Metodo top-down Un clone in un BAC genoma 1. 2. 3. 4. 5. 6. mappa Si parte da una libreria di cloni in BAC Mappatura dei cloni sul genoma (mediante mappe fisiche) Selezione un set minimo di BAC sovrapposti (minimum tiling path) Sequenziamento di ogni clone per shotgun Assemblaggio Identificazione relazioni a lunga distanza Metodo top-down I BAC che sono stati selezionati sono poi purificati dalle corrispondenti colonie batteriche. Il DNA purificato è rotto con mezzi fisici, e frammenti di dimensione 2–5 kb sono clonati, stavolta in plasmidi. Questi frammenti sono poi sequenziate con il metodo di Sanger a partire da una od entrambe le estremità. Le sequenze generate sono chiamate reads. Le reads le cui sequenze si sovrappongono sono raggruppate (assemblate), e la sequenza che si genera dalla loro sovrapposizione e' chiamata contig di sequenza. Questi contigs sono una versione preliminare dell'assemblaggio finale, intervallati da regioni non coperte (gaps) o di scarsa qualità. La ripetizione di alcune sequenze, o l'aggiunta di nuovi dati, può aiutare a rifinire l'assemblaggio. Metodo top-down Contig: un set continuo di sequenze overlappanti Gap Metodo top-down Read Coverage l n L Lunghezza del segmento assemblato: L Numero di reads: n Lunghezza media delle reads: l Coverage C = n l / L Modello di Lander-Waterman: Assumendo una distribuzione uniforme delle reads, C=10 equivale a 1 gap ogni 1,000,000 di nucleotidi Metodo top-down 6 5 4 3 2 1 Contig Reads Coverage Read Coverage
© Copyright 2024 Paperzz