Home

AA 2010/2011

Docente:
Prof. Giorgio Valle

Esercitazioni:
Andrea Telatin

Uno sguardo approfondito al gene tim del moscerino

Dalla scorsa esercitazione abbiamo ereditato un set di sequenze riguardanti un gene di Drosophila melanogaster, l'elegante moscerino dalla dieta sana. Tramite un BLAST contro il database "nr" (non-redundant) si individua che il gene in esame è tim, proteina essenziale della ritmicità circadiana nel moscerino.

1. Durante la scorsa esercitazione avete analizzato i cromatogrammi relativi ad un gene, recuperate le informazioni relative nel database di riferimento per quell'organismo modello. Chi studia un gene appartenente ad un organismo modello spesso ha a che fare con una risorsa specializzata. Chi lavora con il moscerino della frutta ha come riferimento il sito www.flybase.org, e ne esistono di analoghi per tutti gli organismi modello più conosciuti.

Dal sito potete cercare il gene e visualizzare le seguenti informazioni relative al gene "tim", ovvero la struttura in termini di introni ed esoni, nonché le porzioni codificanti e gli UTR.

2. Mappare le sequenze nel Genome Browser. Create un nuovo file multifasta contenente due sequenze: una di tipo "3" ed una di tipo "4". Dall'UCSC Genome Browser allineatele sul reference con "BLAT" (BLAST-like alignment tool) e verificate le porzioni coperte dalle sequenze. In questo modo capiremo in maniera intuitiva quali porzioni del genoma sono state sequenziate.
Le due sequenze sono sovrapposte?

3. Un'altra informazione fondamentale è la relazione fra gene e proteina.FlyBase ci ha dato un'immagine visiva del tutto, proviamo a costruire un sistema che ci permetta di associare ad ogni nucleotide del CDS il suo specifico aminoacido. Ricordiamo che FlyBase ci ha permesso di sapere che esistono 10 isoforme del gene, codificanti 10 polipeptidi: ecco un riassunto della situazione. Immancabile una consutlazione di UNIPROT.

A questo punto dovreste avere in tasca la sequenza genomica, il CDS di riferimento, la sequenza proteica.

Alcuni tools

4. Traduzione in silico. Come già sapete esistono diversi programmi per la traduzione virtuale degli acidi nucleici. Per continuare ad impratichirvi con la shell di linux vi ho preparato un semplice script che a) traduce un file FASTA in tutti i frame possibili e b) lista la ORF più lunga fra quelle individuate. Naturalmente l'ultima informazione va utilizzata con cura, in quanto non è necessariamente la ORF di interesse. L'uso è semplice:

cat filedatradurre | /home/bm2/tools/translate Screenshot

Provate ad utilizzarlo con un file nucleotidico a vostra scelta e incollate il risultato nella relazione.

5. Sequenze sovrapposte... Come avete notato, le PCR "3" e "4" sono parzialmente sovrapposte. Possiamo quindi utilizzarle assieme. Sono entrambe nella stessa direzione (strand)? Anche in questo caso vi ho preparato un semplice programma che permette di unire le due sequenze. Funziona così:

/home/bm2/tools/forever filefastatipo3 filefastatipo4 Screenshot

Come vedete dall'output da un lato mostra la sequenza "consenso" cioé la fusione delle due, dall'altro mostra l'allineamento fatto per ottenerla. Questo permette di vedere eventuali discrepanze fra le due. Vi aspettate discrepanze? Se sì, quando e dovute a cosa?

Allineamento

Una cartella "chromas" presente in /home/bm2 (ovvero una cartella superiore a quella della vostra home) contiene i cromatogrammi usati la volta scorsa, più le sequenze "fuse" for+rev. Proviamo a vedere il contenuto di questa cartella:

ls /home/bm2/chromas

Come vedete ci sono sequenze "3" e "4", più una serie di files che finiscono per log e altri che finiscono per txt. Sono stati entrambi prodotti con 'forever', ed i primi contengono l'allineamento visivo, i secondi la sequenza di fusione in formato FASTA.

Per creare un file di input multifasta con tutte le sequenze di fusione usiamo il comando (verificate di essere dentro la vostra home prima di eseguire):

cat /home/bm2/chromas/*.txt >> lab2/seq3-4.txt

Il doppio ">" serve ad indicare che vogliamo appendere ogni file in fondo a quello che stiamo creando, e non sovrascriverlo ogni volta (append, non overwrite).

Adesso scarichiamo da FlyBase il CDS di riferimento e salviamolo nella cartella "lab2" con il nome "tim.cds", possiamo così lanciare PASS (sempre dalla home):

../pass/pass -i lab2/seq3-4.txt -d lab2/tim.cds -fid 25 -g 2
-query_size 3000 -pst ../pass/PST/W7M1m0G0X0.pst -l > lab2/align.txt

Il comando appena lanciato dice a PASS di usare come input il file con le sequenze fuse e come reference il CDS di tim, permettiamo di allineare con scarsa identità di sequenza (25%) e con 2 gaps (perché permettiamo una identità così scarsa?) inoltre diamo altri parametri utili. Infine chiediamo a PASS di salvare il file.

Se riuscite a produrre il file apritelo, altrimenti se ci sono problemi con pass potete visualizzare direttamente il risultato.

Se allo stesso comando di pass appena lanciato aggiungiamo due parametri:

../pass/pass -i lab2/seq3-4.txt -d lab2/tim.cds -fid 25 -g 2
-query_size 3000 -pst ../pass/PST/W7M1m0G0X0.pst -l -gff -info_gff > lab2/align.gff

Otterremo un output con un formato diverso. In questo caso il formato è facile da interpretare per un programma. Proviamo a vedere che SNPs ci sono:

cat lab2/align.gff | /home/bm2/pass2mm.pl

Questo semplice programma cataloga i polimorfismi trovati con PASS. Utile in generale, ma ancora non abbiamo scoperto se gli SNPs cambiano il frame di lettura, o la sequenza proteica.

Proteine...

Provate a fare un CLUSTALW della proteina Timeless (scaricatela voi) e di tutte le proteine (frammenti) tradotte dalle sequenze in nostro possesso (le trovate in /home/bm2/chromas/AllTranslatedSeq.faa).

Ci sono differenze fra le sequenze della popolazione selvatica e quella originale?

Compiti per casa

Scrivetemi individualmente una mail, firmandola col vostro nome e cognome, in cui esprimerete una preferenza di argomento fra i seguenti. Vi manderò le istruzioni per la semplice tesina:

a) Ricerca in Banche dati
b) Banche dati di organismi modelli
c) Genome Browsers
d) Analisi di proteine
e) Allineamenti di sequenze
f) Ricerca di regioni conservate
h) Ricerca di geni omologhi in banche dati
i) Vostra proposta...