Esercitazione 3: ricerca di informazioni di carattere biologico

attenzioneIstruzioni: Rispondere alle domande proposte in un file da salvare nella propria home, chiamandolo "es3_nome_cognome.txt". Se usate il computer in due, inserite il nome e cognome di entrambi, senza spazi. Usare esclusivamente il programma Editor di Testo (Applicazioni -> Accessori -> Editor di Testo). Per favore, non usate OpenOffice.
attenzione Attenzione: se avete stampato l'esercitazione, controllate la versione on line. Sono aggiunte domande e/o effettuate piccole modifiche prima di ogni esercitazione.

L'esercitazione di oggi prevede l'utilizzo di risorse web per la ricerca di informazioni di carattere biologico, a partire dai seguenti siti: ENTREZ (ncbi), SRS (EBI),  ed il Genome Browser dell'UCSC.

L'enzima "tirosinasi" di Homo sapiens

La tirosinasi è un enzima, trovato sia nei procarioti che negli eucarioti, coinvolto nella formazione di pigmenti come la melanina. In particolare è un’ossidasi e lega due ioni rame attraverso tre residui di istidina conservati. Difetti in questo enzima sono la causa di una forma di albinismo nota come albinismo aculocutaneo di tipo IA, in cui la riduzione di melanina nella pelle porta ad un’aumentata sensibilità alle radiazioni ultraviolette e alla predisposizione a tumori della pelle.

Tirosinasi 

L’obiettivo della prima esercitazione è la ricerca del gene della tirosinasi umana e il reperimento di informazioni di carattere biologico utilizzando l’UCSC Genome Browser (http://genome.ucsc.edu/). Questo sito contiene la sequenza di una grande collezione di genomi e mette a disposizione un’enorme varietà di dati, sia sperimentali che bioinformatici, organizzandoli attorno la sequenza genomica. Tra i genomi a disposizione ci sono quello umano, di topo, di Drosophila melanogaster, C. elegans e S. cerevisiae, ecc .

A.1.      Cliccare il link Genomes nella pagina iniziale. In questo modo entriamo nella porzione del sito dedicata al Genome Browser.

A.2.      Dal momento che vogliamo cercare informazioni sul gene della tirosinasi umana, selezionare dalla maschera di input:

Clade → mammalian
Genome Human
Assembly il più recente (Feb.2009)

Quindi nella casella 'Position' inserire la parola tyrosinase (in questa casella potete inserire una posizione fisica oppure il nome di un gene).
Per inviare la richiesta al database cliccare sul pulsante Submit.

A.3.      Verrà visualizzata una lista di risultati (record contenenti la parola cercata). Fra i risultati individuare e scegliere quello che ci interessa (il record corretto e abbastanza evidente). Per sceglierlo è necessario cliccare sulla sua posizione nel genoma umano. Si aprirà una nuova pagina dove sarà possibile visualizzare l’allineamento del gene della tirosinasi sul genoma umano.

Bioinfo1 

 

A.4.     Le informazioni che si possono recuperare sono molte, fra cui la posizione del gene sul genoma: su quale cromosoma mappa il gene? Sul braccio corto (p, da petite) o su quello lungo (q)?

Il browser permette di "navigare" il cromosoma come si trattasse di una cartina. Potete infatti zoomare e spostarvi a destra o sinistra. Quali geni fiancheggiano quello che stiamo visualizzando? (potete ridurre lo zoom con zoom out).

Cliccando sopra il gene della tirosinasi (ovvero sulla sua rappresentazione nella mappa genomica nella traccia RefSeq e non in quella principale in alto) si apre una nuova pagina da cui è possibile aprire diversi collegamenti, fra cui:

A.5. Le linee verticali indicano gli esoni mentre le linee sottili gli introni: nel caso della tirosinasi, quanti esoni contiene il gene?  

A.6. Aprire il record nucleotidico di RefSeq (cercate di visualizzare i campi più importanti descritti durante il corso). Poi, usando la modalità grafica, riuscireste a risalire alla lunghezza del trascritto? Alla lunghezza della sequenza codificante? Alla sequenza della proteina? Per quest'ultima lunghezza (della proteina) fatevi aiutare dai docenti, perchè non è semplice, bisogna conoscere alcuni aspetti della biologia cha ancora non sapete.

A.7. Dalla sequenza codificante, quanto dovrebbe essere lunga la proteina? Corrisponde con quanto trovato?

Ritornando a Genome Browser, sulle altre righe della finestra grafica sono disponibili altre caratteristiche del gene selezionabili nei box che si trovano al di sotto della finestra (tra cui il livello di similarità con altri organismi, sequenze ripetute, EST...).     

 

E ora provate da soli...

...a cercare informazioni sul gene della mioglobina ('myoglobin') di Homo sapiens utilizzando il sito dell'UCSC Genome Browser.
attenzione E' importante che proviate da soli, per capire se avete metabolizzato quanto fatto fino a questo punto!

La mioglobina è una proteina citoplasmatica della muscolatura cardiaca e scheletrica . Essa partecipa al trasporto di ossigeno all'interno dei miociti (cellule muscolari) ed ha un peso molecolare di 17,8 kDa. La sua forma ossigenata (oximyoglobin) costituisce un'importante riserva di ossigeno da utilizzare, per scopi metabolici, durante i periodi di ipossia (carenza di ossigeno) cellulare. Qui sotto vi riportiamo una rappresentazione schematica che mette in risalto la sua struttura terziaria.

Mioglobina picture

 
 D. In particolare rispondete alle seguenti domande sulla mioglobina:
  1. Qual'é la sua posizione sul genoma (cromosoma, braccio ecc...)?
  2. Quante varianti esistono per questo gene?
  3. Qual è la lunghezza nucleotidica di ciascuna variante? Da quanti esoni è costituita [leggete con calma il record, l'informazione si può ricavare]?
  4. Su quale filamento del genoma è trascritto questo gene?
  5. Quante forme proteiche esistono per questo gene? Da quanti aminoacidi sono costituite?
  6. Se non già selezionato, selezionare 'full' In Conservation nella parte relativa a Comparative Genomics. Poi, cosa si deduce osservando le traccie 'Mammal Cons'? Poi osservate anche le tracce relative a Rhesus (una scimmia) e di Chicken (pollo) e riportate le vostre osservazioni.
  7. Esistono malattie genetiche legate a questo gene. Siete in grado di trovare il codice OMIM di questo gene e il relativo link ad OMIM. (suggerimento utilizzare i settaggi nella parte inferiore della pagina)
  8. Riportate i nomi dei geni adiacenti (a sx e a dx) e il loro verso di trascrizione.

 

Allineamento di sequenze "visuale" con Dotlet

In questa parte dell'esercitazione dovrete allineare due sequenze proteiche ed individuare eventuali domini in comune. A questo scopo utilizzerete il programma DOTLET che consente di allineare due sequenze aminoacidiche (o nucleotidiche) tra loro.  

Le sequenze che dovrete allineare sono quelle relative alla proteina muscolare ALP (Actinin associated LIM Protein) di Homo sapiens e di Mus musculus (topo).

>HUMAN PDZ and LIM domain protein 3 (Actinin-associated LIM protein) (Alpha- actinin-2-associated LIM protein) - Homo sapiens
MPQTVILPGPAPWGFRLSGGIDFNQPLVITRITPGSKAAAANLCPGDVILAIDGFGTESM
THADAQDRIKAAAHQLCLKIDRGETHLWSPQVSEDGKAHPFKINLESEPQDGNYFEHKHN
IRPKPFVIPGRSSGCSTPSGIDCGSGRSTPSSVSTVSTICPGDLKVAAKLAPNIPLEMEL
PGVKIVHAQFNTPMQLYSDDNIMETLQGQVSTALGETPLMSEPTASVPPESDVYRMLHDN
RNEPTQPRQSGSFRVLQGMVDDGSDDRPAGTRSVRAPVTKVHGGSGGAQRMPLCDKCGSG
IVGAVVKARDKYRHPECFVCADCNLNLKQKGYFFIEGELYCETHARARTKPPEGYDTVTL
YPKA


dotlet_homo


>MOUSE PDZ and LIM domain protein 3 (Actinin-associated LIM protein) (Alpha- actinin-2-associated LIM protein) - Mus musculus

MPQNVVLPGPAPWGFRLSGGIDFNQPLVITRITPGSKAAAANLCPGDVILAIDGFGTESM

THADAQDRIKAASYQLCLKIDRAETRLWSPQVSEDGKAHPFKINLEAEPQEFKPIGTAHN

RRAQPFVAAANIDDKRQVVSASYNSPIGLYSTSNIQDALHGQLRGLIPGSLQNEPTASVP

PQSDVYRMLHDNRDDPAAPRQSGSFRVLQDLVNDGPDDRPAGTRSVRAPVTKVHGGAGSA

QRMPLCDKCGSGIVGAVVKARDKYRHPECFVCADCNLNLKQKGYFFVEGELYCETHARAR

TRPPEGYDTVTLYPKA

DOTLET_mus
Collegatevi ora alla home page del DOTLET e  procedete con l'allineamento delle due sequenze. Se volete consultarla, Dotlet ha una guida in linea .

attenzione Dovete inserire le due sequenze in input nel programma. Per copiare selezionare la sequenza selezionatela; per incollarla, cliccate nel box in cui la volete inserire con il tasto centrale (alias rotellina) del mouse.
In alcuni computer il pulsante per effettuare l'allineamento potrebbe essere un parzialmente nascosto.

E. Rispondete a queste domande:

  1. Cosa potete osservare?
  2. Ci sono degli allineamenti in comune corrispondenti ai domini che vi aspettate di trovare per queste proteine?
  3. Sono sulla stessa diagonale? In caso negativo sapreste spiegare il perchè?

 

Utility Biologiche

In rete esisto alcuni siti che mettono a disposizione programmi e utility per analisi e ricerche biologiche. Molti di questi, potrebbero esservi utili in futuro.
Uno di questi è:

ExPASy Bioinformatics Resource Portal

ExPASy is the SIB Bioinformatics Resource Portal which provides access to scientific databases and software tools (i.e., resources) in different areas of life sciences including proteomics, genomics, phylogeny, systems biology, population genetics, transcriptomics etc. (see Categories in the left menu).

Qui vengono messi a disposizione molti strumenti, molti dei quali non riuscirete ancora a comprendere, ma saranno utili nel proseguo dei vostri studi (utility riservate alla proteomica, genomica, filogenetica e molti altri). Provate a navigare e ad osservare la quantità e qualità degli strumenti messi a disposizione)

1) Determinare il peso molecolare e il punto isoelettrico di una proteina:
Selezionare 'Proteomics', poi 'Protein characterisation and function', poi 'Compute pI/MW'. Utilizzare una delle sequenze proteiche riportate nell'esercizio precedente e inviate la richiesta. Riportate i dati ottenuti.

2) Ricerca di motivi funzionali:
Sempre da 'Proteomica', selezionare 'families, patterns and profiles' e poi 'ScanProsite'. Utilizzare una delle sequenze proteiche usate nell'esercizio precedente. I risultati ottenuti dovrebbero confermare le figure riportate nell'esercizio precedente.

 

A questo proposito, vi segnaliamo un altro sito interessante (potrebbe esservi utile in futuro)
Sequence Manipulation Suite (SMS)

SMS

Fine esercitazione



Ricerca utilizzando SRS all'EMBL.

Molte interrogazioni fatte contemporaneamente a questo sito rallentano la velocità di esecuzione. Perciò, invitiamo gli studenti ad effettuare questa ricerca individualmente in un altro momento.

Il fattore MyoD

Il gene MyoD codifica un fattore di trascrizione coinvolto nella differenziazione del muscolo, in particolare induce i fibroblasti a differenziare in mioblasti. Utilizziamo il sito http://srs.ebi.ac.uk

B.1.  Cliccare sul pulsante 'Library Page' e selezionare la banca dati che si desidera consultare, nel nostro caso il database nucleotidico EMBL. Quindi selezionare 'Standard Query Form', che aprirà una pagina web utile per impostare query complesse.

B.2. Il nostro scopo è individuare il gene corrispondente al fattore di trascrizione MyoD nell’uomo. Provate quindi ad immaginare quali possano essere i possibili campi da selezionare, note le caratteristiche della nostra query (myoD; molecule=genomic DNA; Organism=Homo sapiens), e lanciate la ricerca tramite il pulsante SEARCH. A seconda del numero di campi che viene riempito e quindi della specificità della domanda, si può restringere o allargare l’insieme dei risultati ottenuti. 
attenzione Attenzione: SRS, come dovreste aver capito, è spesso lento. Lanciate la query proposta qui sotto in una scheda (Tab) del browser e nel frattempo andate pure avanti con il prossimo esercizio in un'altra finestra/scheda.
attenzione Attenzione: vi ricordate che in SRS non si usano gli operatori AND e OR bensì...?

 

Bioinfo1 

 

B.3.    Tra i risultati ottenuti individuare quello corrispondente alla sequenza del gene umano myoD .

B.4.     Cliccando sul codice EMBL è possibile accedere a una serie di informazioni sul gene: