Esercitazione 3: ricerche di similarità con BLAST

attenzioneIstruzioni: Rispondere alle domande proposte in un file da salvare nella propria home, chiamandolo, se siete in due per computer: "es4_nome1_cognome1_nome2_cognome2.txt". Usare esclusivamente il programma Editor di Testo (Applicazioni -> Accessori -> Editor di Testo). Per favore, non usate OpenOffice.
attenzione Attenzione: se avete stampato l'esercitazione, controllate la versione on line. Sono aggiunte domande e/o effettuate piccole modifiche prima di ogni esercitazione.

L'esercitazione di oggi prevede l'utilizzo di risorse web per effettuare ricerche di similarità, usando come esempi l'insulina e la proteina GRB2 umana. La ricerca dovrà essere effettuata a partire dai seguenti link: http://www.ncbi.nlm.nih.gov/Entrez  (Entrez, NCBI), http://www.ncbi.nlm.nih.gov/BLAST (BLAST).

Ricerche di similarità: l'insulina

L'insulina è la proteina la cui mancanza o difetto determina il diabete, che è una delle patologie con maggiore impatto sociale nei paesi industrializzati. Essa è prodotta come pro-insulina dal gene corrispondente e solo dopo processi di maturazione viene trasformata in due frammenti che corrispondono all'insulina attiva. Nelle ricerche di database è quindi necessario ricercare il termine "proinsulin". Lo schema qui sotto mostra, schematicamente, come il polipeptide proinsulina venga modificato per dare vita all'insulina.

Insulina 

Qui sotto riportiamo la sequenza aminoacidica delle due catene dell'inulina attiva, evidenziando anche i ponti disolfuro (legami covalenti che si formano fra specifiche cisteine) in magenta.

Insulina

Recupero della sequenza nucleotidica dell'insulina

Da Entrez recuperare il record relativo all’RNA messaggero della proinsulina umana, utilizzando i criteri che avete appreso nelle esercitazioni precedenti, in particolare scegliere il database più appropriato.
Se si fosse effettuato la ricerca direttamente dalla pagina di Entrez, cosa si sarebbe ottenuto?
Si dovrebbe ottenere un elenco di record; tra questi, individueremo quello di nostro interesse. Cercando la "proinsulina umana" troveremo dei record chiamati "insulin" (esistono tre differenti varianti di questo gene), fra i messaggeri.
(se siete 'bravi', usando in modo appropriato gli operatori booleani,sui giusti campi, dovreste ottenere soli tre record)

Clicchiamo a questo punto sul record inerente la variante 1, per accedere alla sequenza nucleotidica. La vogliamo recuperare in formato FASTA per la successiva ricerca di similarità.

Prima di continuare con la ricerca di similarità, entrate nel modo grafico (in alto a sx). Provate a descrivere brevemente le informazioni che ritenete importanti, presenti in questa nuova pagina. Poi ritornate alla pagina precedente (record dell'insulina umana).

Provate ora un altro link 'interessante', presente sulla colonna a destra, 'Homologs of the INS gene'. Entrerete così in HomoloGene dove sono elencati alcuni geni omologhi dell'insulina umana, presenti in alcuni organismi. Da questa pagina è possibile allineare tra loro, a due a due, le sequenze dei geni omologhi. Nel qiquadro 'Pairwise alignments generated using BLAST', provate l'allineamento tra INS di Homo sapiens e Pan troglodytes (Scimpanzè, un Primate) (notate differenze tra le due sequenze?) . Fate la stessa cosa allineando INS umana con quella di Mus Musculus (topo, un roditore) e poi anche con quella di G.gallus. Che differenze notate tra i differenti allineamenti. I risultati così ottenuti sono coerenti con la teoria evoluzionistica?

Tra poco, ritroveremo questi stessi geni utilizzando l'allineamento di BLAST.

Torniamo ora al record della Insulina umana:

Ricerca di similarità (insulina) usando l'algoritmo BLASTN

INTERPRETAZIONE DEI RISULTATI DI BLASTN

La pagina dei risultati si può dividere in cinque parti (dall’alto in basso):

PRIMA SEZIONE
La prima parte dà informazioni sul programma (in questo caso BLASTN), sui database utilizzati e sulla sequenza "query" (quella con cui si effettua la ricerca), tra le quali la sua lunghezza (indicata in basi). Presenta inoltre un link denominato "Taxonomy reports", da cui si arriva ad una pagina che presenta tre diverse organizzazioni dei risultati di una data ricerca effettuata con BLAST, in base all'informazione presente nel database tassonomico dell'NCBI.

SECONDA SEZIONE
La seconda parte consiste in una immagine che illustra graficamente i risultati (Figura 1):

blast

Figura 1

TERZA SEZIONE
La terza parte consiste nell'elenco delle sequenze nucleotidiche del database scelto che producono allineamenti significativi con la sequenza "query" e comincia con la frase: "Sequences producing significant alignments:". Le sequenze sono ordinate in base all'E value, parametro che misura la significatività degli allineamenti: minore è, più significativo è l'allineamento. Ciascuna sequenza contiene un link (parte sottolineata e in colore), da cui si arriva al record di Entrez Nucleotide (NCBI) relativo a quella sequenza. A destra, per una data sequenza sono eventualmente presenti link ad altri database dell'NCBI come UniGene ("U") e Gene ("G").

QUARTA SEZIONE
La quarta parte visualizza gli allineamenti significativi della sequenza "query" con sequenze del database scelto (vedi Figura 2) e comincia con la frase: "Alignments".

alignments

Figura 2 - Data una sequenza del database scelto che produce uno o più allineamenti significativi con la sequenza "query", come prima cosa viene visualizzata la descrizione della sequenza del database, che contiene un link (parte sottolineata e in colore), da cui si arriva al record di Entrez Nucleotide relativo a quella sequenza. La descrizione contiene eventualmente anche i link a UniGene ("U") e Gene ("G"). Sotto la descrizione è indicata la lunghezza in basi della sequenza.
Successivamente vengono visualizzati il o gli allineamenti di questa sequenza con la sequenza "query".
Per ciascun allineamento è indicato:

Vale la relazione: lunghezza allineamento = identities + gaps + altri mismatch nell'allineamento (ad esempio "c" che sia allinea con "g", come indicato dalla freccia).
Successivamente si ha l'allineamento vero e proprio tra la sequenza "query" e la sequenza del database in questione, denominata "Sbjct".
I numeri indicano la posizione delle basi all'interno delle rispettive sequenze.
Se in una data posizione dell'allineamento la base nella sequenza "query" e la corrispondente della sequenza del database coincidono, nella riga tra le due sequenze compare il carattere "|"(pipe).
Quando tale carattere non è presente significa che, in quella posizione dell'allineamento, la base nella sequenza "query" e la corrispondente della sequenza del database sono diverse oppure che una delle due sequenze presenta un gap.

QUINTA SEZIONE
La quinta parte contiene dettagli statistici della ricerca.

RICERCA DI SIMILARITA’ CON LA SEQUENZA NUCLEOTIDICA DELL'INSULINA UTILIZZANDO IL PROGRAMMA BLASTX

Che tipo di ricerca esegue blastx?

(controllate che sia stato scelto il database Non-redundant protein sequences (nr))

Questo programma risulterà un po' più lento ..perchè.??)

INTERPRETAZIONE DEI RISULTATI DI BLASTX

Alcune note:
dovreste ottenere nell'elenco anche la sequenza della proteina (NP_000198.1 Insulin precursor [Homo sapiens] )relativa alla seqeunza nucleotidica ( NM_000207.2) che avete usato come query. Sapreste spiegare come mai l'allineamento non inizia dal primo codone / primo aminoacido ? Rispondere a questa domanda non è facile, fatevi aiutare dai docenti.

RECUPERO DELLA SEQUENZA NUCLEOTIDICA DI GRB2 E TRADUZIONE IN SEQUENZA AMINOACIDICA

Simuliamo ora una ricerca partendo da una nuova sequenza nucleotidica ottenuta mediante sequenziamento del trascrittoma umano. Per comodità, utilizziamo una sequenza già nota, quindi i risultati che otteremo dovranno essere in linea con quanto già conosciuto.

Utilizzeremo GRB2 (growth factor receptor-bound protein 2) che è una proteina coinvolta nei processi di trasduzione del segnale.
Come prima cosa, recuperare la sequenza nucleotidica in formato FASTA dell'mRNA umano di GRB2, variante 1, come fatto per la sequenza dell'insulina.  (anche qui, se siete 'bravi', combinando opportunamente gli operatori booleani, dovreste ottenere un piccolo numero di record).

Per la traduzione utilizzeremo il software Traslate, sviluppato dal gruppo di Amos Bairoch, raggiungibile dal sito ExPASY ( www.expasy.org ), o direttamente al link www.expasy.org/tools/dna.html. Copiamo la sequenza nucleotidica nel box del programma Traslate e avviamo la traduzione.

Scegliamo il frame intuitivamente più corretto, cliccando sulla metionina d'inizio della sequenza: automaticamente il programma creerà una entry virtuale all'interno del database SWISS-PROT, corrispondente alla sequenza incognita. Tale entry sarà automaticamente cancellata dalla banca dati nel giro di pochi giorni.

RICERCA DI SIMILARITA’ CON LA SEQUENZA AMINOACIDICA (ricavata con 'Expasy') UTILIZZANDO IL PROGRAMMA BLASTP

INTERPRETAZIONE DEI RISULTATI DI BLASTP

La pagina dei risultati si può dividere in cinque parti (dall’alto in basso), del tutto equivalenti a quelle dei risultati di BLASTN visti precedentemente:

PRIMA SEZIONE
La prima parte dà informazioni sul programma (in questo caso BLASTP), sulla sequenza "query" (quella con cui si effettua la ricerca), tra le quali la sua lunghezza (indicata in aminoacidi), e sul database utilizzati. Presenta inoltre un link denominato "Taxonomy reports", da cui si arriva ad una pagina che presenta tre diverse organizzazioni dei risultati di una data ricerca effettuata con BLAST, in base all'informazione presente nel database tassonomico dell'NCBI.

SECONDA SEZIONE
La seconda parte consiste in una immagine che illustra graficamente i risultati (equivalente alla Figura 1):

TERZA SEZIONE
La terza parte consiste nell'elenco delle proteine del database scelto che producono allineamenti significativi con la sequenza "query" e comincia con la frase: "Sequences producing significant alignments:". Le sequenze sono ordinate in base all'E value. Ciascuna sequenza contiene un link (parte sottolineata e in colore), da cui si arriva al record di Entrez relativo a quella sequenza. A destra, per una data sequenza sono inoltre eventualmente presenti i link a Gene ("G").

QUARTA SEZIONE
La quarta parte visualizza gli allineamenti significativi della sequenza "query" con sequenze del database scelto (vedi Figura 3) e comincia con la frase: "Alignments".

allineamento2

Figura 3 - Data una sequenza del database scelto che produce uno o più allineamenti significativi con la sequenza "query", come prima cosa viene visualizzata la descrizione della sequenza del database, che contiene un link (parte sottolineata e in colore), da cui si arriva al record di Entrez relativo a quella sequenza. La descrizione contiene eventualmente anche il link a Gene ("G"). Sotto la descrizione è indicata la lunghezza in aminoacidi della sequenza.
NOTA: possono essere presenti più sequenze del database contemporaneamente se il database è non ridondante (come il database scelto per la ricerca con BLASTP): la ragione per cui sono associate è perché coincidono esattamente dal primo all'ultimo aminoacido;
Successivamente vengono visualizzati il o gli allineamenti di questa sequenza con la sequenza "query".
Per ciascun allineamento è indicato:

Vale la relazione: lunghezza allineamento = identities + gaps + altri mismatch nell'allineamento.
Successivamente si ha l'allineamento vero e proprio tra la sequenza "query" e la sequenza del database in questione, denominata "Sbjct".
I numeri indicano la posizione degli aminoacidi all'interno delle rispettive sequenze.
Se in una data posizione dell'allineamento l'aminoacido nella sequenza "query" e il corrispondente della sequenza del database coincidono, la lettera che lo rappresenta viene ripetuta nella riga tra le due sequenze.
Il carattere "+" indica che, in una data posizione dell'allineamento, l'aminoacido nella sequenza "query" e il corrispondente della sequenza del database sono simili.
Quando nella riga tra le due sequenze non è presente alcun carattere significa che, in quella posizione dell'allineamento, l'aminoacido nella sequenza "query" e il corrispondente della sequenza del database sono diversi oppure che una delle due sequenze presenta un gap.

QUINTA SEZIONE
La quinta parte contiene dettagli statistici della ricerca.

Risultati Attesi:

Se avete tradotto 'bene' la sequenza nucleotidica del gene GRB2, nell'elenco delle sequenze proteiche allineate dovreste trovare anche molte sequenze relative alla proteina GRB2. Notare anche l'elevata similarità tra organismi filogeneticamente distanti (es. mammiferi, insetti (Drosophila), nematodi (vermi), ecc.
Se così non fosse, controllate la traduzione del messaggero.

 

ALLINEAMENTO TRA LA SEQUENZA AMINOACIDICA DI GRB2 E..

Vogliamo ora allieneare tra loro due differenti sequenze: GRB2 iniziale e una sequenza simile individuata con blast appartenente a Gallus gallus ( gallo rosso, è considerato il progenitore delle attuali razze domestiche di polli). Rilanciate Blastp, selezionando l'organismo Gallus gallus

Le figure qui riportate sono solo indicative

gallus

gallus

Figura 4


 

La parte sottostante è facolativa. Potete svolgerla a casa e se ci sono problemi, interpellate il docente.



Ed ora svolgete da soli questo esercizio

Questa è la sequenza nucleotidica di un trascritto umano di cui non avete altre informazioni:

ctttccagagATGGAGCAGAAGGAAGGGAAGCTCTCTGAGGATGGGACCACCGTCTCCCCAGCTGCGGACAACCCTGAGATG
TCAGGAGGTGGAGCCCCTGCAGAGGAGACCAAAGGCACAGCTGGAAAGGCCATCAATGAGGGGCCTCCCACTGAGTCAGGAA
AGCAGGAAAAGGCACCAGCCGAGGACGGCATGTCAGCAGAACTCCAGGGGGAAGCAAATGGATTAGATGAGGTCAAAGTGGA
ATCTCAGAGGGAGGCTGGTGGGAAAGAGGATGCTGAGGCTGAACTTAAAAAGGAGGATGGTGAGAAGGAAGAGACCACTGTG
GGTTCTCAGGAGATGACTGGCAGGAAAGAAGAGACCAAATCTGAACCCAAAGAGGCTGAGGAAAAGGAGAGCACGCTGGCCT
CTGAGAAGCAGAAGGCTGAGGAGAAAGAGGCCAAACCTGAATCTGGGCAGAAAGCCGATGCCAATGACAGAGACAAGCCTGA
ACCTAAGGCAACAGTTGAGGAGGAGGACGCCAAGACAGCCTCTCAGGAGGAGACAGGCCAGAGGAAAGAGTGCAGCACTGAA
CCCAAGGAGAAGGCTACTGATGAAGAGGCCAAGGCTGAATCGCAGAAGGCTGTTGTGGAGGATGAGGCTAAGGCTGAACCCA
AGGAGCCCGATGGGAAAGAGGAGGCCAAACATGGTGCAAAAGAGGAGGCTGATGCAAAAGAGGAGGCGGAGGATGCAGAGGA
GGCAGAGCCAGGCAGTCCCAGCGAAGAGCAGGAGCAGGACGTGGAAAAAGAGCCAGAGGGAGGGGCAGGGGTGATTCCCAGC
TCCCCAGAGGAGTGGCCTGAGAGCCCCACTGGGGAGGGGCACAACCTCAGCACAGATGGGCTGGGTCCAGACTGTGTAGCTT
CCGGACAGACCAGTCCTTCAGCCAGTGAGTCTTCACCCAGCGACGTGCCCCAGAGTCCCCCTGAGTCCCCTTCCTCAGGGGA
GAAGAAGGAGAAGGCACCAGAGCGCAGGGTATCAGCCCCTGCTCGGCCCCGGGGGCCCCGGGCACAGAACCGCAAAGCCATC
GTGGACAAGTTTGGCGGGGCAGCTTCCGGCCCCACGGCCTTGTTCCGCAACACTAAGGCAGCCGGGGCAGCCATTGGTGGTG
TCAAGAACATGCTCTTGGAGTGGTGCCGAGCCATGACAAAAAAATACGAGCATGTGGACATCCAGAACTTCTCCTCCAGCTG
GAGCAGTGGTATGGCCTTCTGTGCCCTCATCCACAAGTTCTTCCCTGACGCCTTTGACTACGCAGAGCTGGATCCCGCAAAG
CGCCGGCACAACTTCACCCTGGCCTTCTCCACAGCAGAGAAACTGGCTGACTGTGCTCAGCTGCTGGACGTGGATGACATGG
TGCGGTTGGCTGTGCCCGACTCCAAGTGCGTCTACACATACATCCAGGAACTGTACCGCAGCCTTGTGCAGAAAGGACTGGT
GAAGACCAAGAAGAAGTGA
ggaggtgactggctctgtgggcagagatgggcagggtgcccagctcagcagccacggcccggg
ggttcccttctgctccatggaggcaccagagccaggggcttaggcaagggtgtgtggcgttggttttaactgcattaaaagt
acttttgtaaaatcctgtctggcccctcagtgctc

1. Eseguite un blastn contro il database "nr", applicando ciò che avete appreso nella prima parte dell'esercitazione; l'unica differenza è che dovete selezionare tra le opzioni l'organismo Homo sapiens.

Quali informazioni riuscite a ricavare dai risultati del blastn? E' già stato caratterizzato un trascritto in uomo che presenta un'elevata similarità con la sequenza data?

2. A questo punto verificate se esiste un ortologo in topo.
Per fare questo lanciate un nuovo blastn contro il database "nr" di Mus musculus e poi un blastx contro il medesimo database.
Cosa potete dedurre dai risultati ottenuti con i due blast? Perchè si trova una similarità maggiore con blastx rispetto a blastn?

3. In particolare, focalizzate l'attenzione sul miglior allineamento del blastx: notate una regione ben allineata tra la sequenza subject e la sequenza query?
Si potrebbw ipotizzare l'esistenza di un dominio funzionale. Per provare questo utilizziamo un tool disponibile sul sito di ExPASy (http://www.expasy.org/), scegliere 'Proteomics', poi 'families, patterns and profile' poi 'Prosite' , che individua la presenza di motivi funzionali all'interno di una sequenza proteica.

Aprite il record della proteina trovata in topo e copiate la sequenza nel box di Prosite.

Ci sono motivi funzionali significativi rilevati dal programma? Quali sono?