Home

AA 2010/2011

Docente:
Prof. Giorgio Valle

Esercitazioni:
Andrea Telatin

Seconda esercitazione

Prima di iniziare effettuate l'appello elettronico. Per fare ciò aprite il Terminale (Applicazioni -> Accessori -> Terminale) e digitate ./appello seguito da Invio.
Nella vostra home troverete una cartella chiamata "lab2", e al suo interno un file "es2_login.doc" da usare come traccia per la relazione. Come sempre ricordate di salvarlo frequentemente...

1) Cos'è un cromatogramma?

Come accennato durante la scorsa esercitazione, la corsa elettroforetica che separa i prodotti di sequenziamento Sanger viene salvata in un formato elettronico. Il cromatogramma può essere aperto con programmi specifici e visualizzato appare generalmente come segue. Il programma assegna una lettera ad ogni posizione interpretando le curve del cromatogramma. In base alla risoluzione dell'output, ad ogni base è assegnato un valore di qualità, ovvero un numero che indica con che probabilità quella base è corretta. Come avrete modo di notare l'inizio e la fine del cromatogramma sono illeggibili, e le ultime e prime basi di una sequenza sono effettivamente di bassa qualità perché il programma assegna con difficoltà una base ad una certa posizione. Guardate l'esempio qui sotto:

Questa è una porzione centrale di una sequenza. Infatti una sequenza sanger è generalmente lunga da 600 a 1100 basi, e stiamo visualizzando le basi da 510 a 530. Come potete notare la posizione 523 propone un doppio picco di altezza circa metà di quelli adiacenti. La qualità di quella base (rappresentata dalle barrette grigie; la riga azzurra indica la soglia sotto la quale ritenere non affidabile la lettura) è – come ci attendiamo – bassa. In questo caso non si tratta di un errore di sequenziamento, bensì di un polimorfismo. Se amplifichiamo con dei primer una regione di un genoma diploide, generalmente avremo due templati che si amplificano parallelamente: l'uno e l'altro degli alleli disponibili (in quali si amplifica un solo allele?).

2) Aprire e leggere un cromatogramma

Per poter leggere i cromatogrammi occorre un software ad hoc. Ne esistono diversi, viene spesso consigliato FinchTV perché gratuito e disponibile per le tre maggiori piattaforme (Mac, Linux e Windows). Proviamo ad installarlo.

1. Scaricate il pacchetto da questo sito. Si tratta di un file compresso.
2. Scompattate il file avendo cura di mettere la cartella nella vostra home.
3. Troverete alla fine una cartella "finchtv_1_3_1" nella vostra home, al cui interno è presente il programma "finchtv". Con un doppioclic potete lanciarlo.

NOTA: Tutte le operazioni appena descritte possono essere eseguite dal Terminale.
1. Entrate nella cartella lab2 digitando cd lab2
2. Scaricate il pacchetto digitando:
wget http://telatin.com/genomics/bin/finchtv_1_3_1.tar.gz
3. Scompattate l'archivio digitando: tar xvfz finchtv_1_3_1.tar.gz
4. Lanciate il programma digitando: ./finchtv_1_3_1/finchtv&
Ricordate di tabbare per verificare di invocare il file corretto.

 

Il sito di BMR Genomics propone una mini guida per capire eventuali problemi del cromatogramma.

FinchTV ha due funzioni fondamentali: quella di poter salvare il cromatogramma come testo (formato FASTA... come al solito il nostro preferito) e quella di poter effettuare un BLAST della sequenza.

Ora scaricate da questo indirizzo un pacchetto con una serie di cromatogrammi ottenuti sequenziando due tipi di PCR (siglate come "3" e "4"):
http://didattica.cribi.unipd.it/biomoldue/.../cromatogrammi.zip

Estraete l'archivio zippato e aprite un po' di cromatogrammi, salvateli come files di testo nella cartella "lab2" e blastateli. Mettete la cartella "cromatogrammi" obbligatoriamente dentro la cartella lab2.

Di che gene si tratta? A che organismo appartiene? Ci sono differenze fra la sequenza query e quella di riferimento?

Scegli cinque sequenze di tipo "3". Salvale in formato testuale, effettua il BLAST e studia i polimorfismi eventualmente presenti. Cadono nella porzione codificante? Introducono mutazioni sinonimo o non sinonimo?

Scaricate la sequenza genomica del gene di interesse, salvandola in formato FASTA nella cartella "lab2" col nome "generif.fasta".
Attenzione: perché il resto dell'esercitazione funzioni è vitale che queste istruzioni siano state eseguite alla lettera.

3) Un nuovo programma di allineamento

In quest'esercitazione imparerete ad usare un utilissimo programma di allineamento, anche se usato in un contesto un po' particolare. Il programma in questione è PASS (a Program to Align Short Sequences), sviluppato al CRIBI da Davide Campagna.

Come state studiando a Bioinformatica II un programma veloce di allineamento di sequenze contro larghissimi database di riferimento è BLAST. Con l'avvento delle nuove tecnologie di sequenziamento è nata una nuova necessità di avere programmi ancora più rapidi. Pensate ad esempio di sequenziare il trascrittoma di un paziente (ovvero l'RNA estratto da un suo tessuto). Otterrete milioni di piccole sequenze che devono essere allineate contro il genoma di riferimento. Se anche un programma di allineamento impiega un solo secondo ad effettuare un allineamento, per allineare 100.000.000 di sequenze impieghereste più di un giorno. Per questo sono nati nuovi programmi di allineamento, e fra questi PASS è probabilmente il più veloce.

Pass richiede una sequenza target, un set di sequenze di query e offre un output in cui posiziona la sequenza da allineare contro il target evidenziando eventualmente eventuali discrepanze.

Provate a lanciare PASS per vedere che sia accessibile:
cd
../pass/pass

Il "cd" serve a portarci nella home directory, il secondo comando invoca PASS che ci risponde dandoci le istruzioni per l'uso!

4) SNP detection

In questa esercitazione proviamo a usare "PASS" per mappare i polimorfismi. Come faremo?

Per prima cosa allineeremo tutte le sequenze ottenute contro il riferimento. L'output ottenuto contiene informazioni sui polimorfismi perché l'allineamento evidenzia anche le discrepanze.

Davide Campagna ha sviluppato un programma (chiamato pass_snp) che analizza l'output di PASS per evidenziare le posizioni di cambiamento (discuteremo in aula il funzionamento del programma).

1. Creiamo un file query. Questo file deve contenere tutte le sequenze (sarà quindi un multifasta). Per farlo ci posizioniamo nella cartella lab2 e concateniamo tutte le sequenze in un unico file:
cd lab2
cat cromatogrammi/Converted\ files/SEQ*.FASTA >> sequenze.fasta
wc -l sequenze.fasta

l'ultimo comando ("word count") ci darà il numero di righe del file sequenze fasta. Dovrebbe superare il migliaio. Questo è il nostro file query.

Adesso proviamo a lanciare PASS:

../pass/pass -i sequenze.fasta -d generif.fasta -fid 80 -g 4

se funziona... richiamate la riga appena scritta (freccina su) e aggiungete

-query_size 2000 -gff -info_gff > aligned.gff 2> log_aligned.txt

Proviamo ad analizzare rapidamente gli SNPs:

cat aligned.gff | perl ../pass2mm.pl > snp.txt

Adesso aprite con l'editor di testo snp.txt, e provate a valutare le posizioni con maggior numero di polimorfismi.

Ci sono interruzioni del frame di lettura?

Quali sono gli "hot spot" nella popolazione in esame?

Riferendovi alla figura sotto... Esistono due isoforme del trascritto, una delle quali produce 2 proteine funzionali, la seconda 1 sola. Trovate entrambe le isoforme nella popolazione?

 

 

Tim

Fig. 1. Alternative ATG start codons of ls-tim and s-tim. The N-terminal coding sequences for both alleles are shown together with their corresponding protein translations. The G insertion/deletion (position 294, GenBank U37018) in ls-tim allows it to generate both the L-TIM1421 and S-TIM1398 isoforms, whereas the s-tim allele may also generate a 19-residue peptide from the upstream ATG (Tauber 2007).