Esercitazione 2: Ricerche in banche dati di sequenze

Consultare la pagina "Banche dati" prima di cominciare l'esercitazione.

Rispondere alle domande proposte in un file da salvare nella propria home, chiamandolo "es2_nome_cognome.txt". Usare un programma per creare testi (text editor), che trovate fra le applicazioni.

Ricerche con SRS ed Entrez

Ricerca nelle banche dati di sequenze genomiche umane codificanti la subunità 4 della citocromo c ossidasi.

La citocromo c ossidasi, complesso omo-dimerico localizzato nella membrana mitocondriale interna, partecipa al trasporto degli elettroni nella catena respiratoria mitocondriale. Ogni monomero è costituito da 13 subunità di cui 3 codificate dal genoma mitocondriale e 10 dal genoma nucleare. L'obiettivo della esercitazione è quello di selezionare i geni corrispondenti alla subunità 4 codificata dal genoma nucleare umano.

L'esercizio qui proposto dimostra che utilizzando sistemi di ricerca differenti si ottengono soluzioni diverse che sono strettamente dipendenti dalla formulazione sintattica delle query (formulazione sintattica della ricerca) e dal sistema utilizzato per effettuare la ricerca in banca dati.

I sistemi che utilizzeremo sono Entrez (USA) e SRS (EU) che sono disponibili in rete. Durante la scorsa esercitazione abbiamo avuto modo di evidenziare alcune differenze nella struttura dei record dei due database, pur molto simili nella sostanza. Iniziamo con l'effettuare la ricerca con Entrez dell'NCBI.

1) Ricerca attraverso Entrez

La ricerca viene fatta in più fasi.
Non è possibile ottenere i dati voluti mediante la formulazione di una sola query per la complessità della ricerca, quindi questa dovrà essere divisa in più fasi. Si ricorda che la formulazione di ciascuna ricerca viene effettuata combinando termini o frasi differenti mediante gli operatori logici AND, OR, NOT sempre digitati in maiuscolo.

Prima fase
P
oiché si richiede la selezione di sequenze genomiche umane la sintassi da formulare potrebbe essere  "Homo sapiens AND DNA" (oppure più semplicemente Human AND DNA). Quale risultato si otterebbe con tale query? Verrebbero selezionati solo i record di sequenze umane di DNA ?

Tale ricerca selezionerebbe i record contenenti le parole volute, ma poste in qualsiasi campo, quindi si otterrebbero sicuramente dei falsi positivi.

Noi cerchiamo le sequenze relative all'organismo Homo sapiens, che nel record del database si trova sul campo 'Organism' e cerchiamo i record con sequenze genomiche (DNA).
Possiamo utilizzare la funzione 'Limits' associata al database di Entrez. Cliccando infatti su Limits, appare una finestra che consente una ricerca assegnando ad alcuni campi dei dati precisi di ricerca.

Riformulate la ricerca utilizzando come query 'Homo sapiens' e modificare i limiti (attraverso il relativo menù a tendina) da 'All fields' in Organism, dal menu 'Molecule' selezionare l'insieme Genomic DNA/RNA, inoltre per evitare la selezione di subunità mitocondriale della nostra proteina, modificare il menu 'Gene Location' in Genomic DNA/RNA. Quest'ultima selezione esclude tutte le eventuali sequenze mitocondriali.

Cliccare su Go.

Query#1 : Si otterranno un elevato numero di entries.

Seconda fase:
obiettivo è di ricercare tutte le sequenze nucleotidiche codificanti per la subunità 4 della citocromo ossidasi. La complessità del problema è dovuta all'annotazione non rigorosa dei nomi dei geni e delle proteine nelle banche dati primarie. È necessario quindi combinare, attraverso l'uso degli operatori logici, termini sinonimi e termini parziali.

Infatti la quarta subunità potrebbe essere scritta come 'subunit 4' oppure 'subunit IV' oppure 'cox4'.

Possiamo provare due modi differenti:

provare tutte e due le ricerche eliminando la funzione Limits prima di eseguire la query. Perché è importante mettere le virgolette sul termine "subunit 4"?

Notare che nei due casi si ottengono risultati differenti.
I dati che avete ottenuto sono coerenti con le vostre aspettative? Motivate le vostre conclusioni.
Ricordate che le operazioni logiche avvengono, un operatore booleano alla volta, da sinistra a destra ed è fondamentale il corretto utilizzo delle parentesi

Cliccando su History dal top della homepage è possibile avere un quadro completo delle operazioni svolte e anche i numeri di entries associate ad ogni query.

Combinando i risultati delle varie query si possono ottenere i dati finali.

Combinare la Query#1 con la Query#2: nella riga di ricerca scrivere #1 AND #2, poi cliccare su Preview. Si ottiene la Query#4.

Poi:

Combinare la Query#1 con la Query#3: nella riga di ricerca scrivere #1 AND #3, poi cliccare su Preview. Si ottiene la Query#5.

Confrontare i dati ottenuti, visualizzare le query con 'Go' e scoprire il motivo delle eventuali discrepanze.

Siamo sicuri di aver ottenuto tutte le entries volute?
Esistono delle entries nei databases, in cui la funzione della citocromo c ossidasi è annotata erroneamente come 'cytocrome c oxidase' oppure 'cytochrome c oxydase'. Se impostiamo la query con:
(cytocrome c oxidase OR cytochrome c oxydase) AND (subunit 4 OR subunit iv OR cox4)
possiamo visualizzare le entries con le annotazioni errate.

Facoltativo: fare una ricerca simile utilizzando SRS all'EMBL (al posto di Entres). In questo caso, fate attenzione che i simboli booleani devono essere scritti in maniera differente: il simbolo '&' corrisponde ad AND, il simbolo '|' corrisponde ad OR, il simbolo '!' corrisponde a NOT.

Malattie ereditarie: OMIM

La banca dati OMIM (Online Mendelian Inheritance in Man) permette di risalire a numerose informazioni riguardanti le patologie ad ereditarietà genetica nell'uomo. La ricerca biomedica è sempre più indirizzata a chiarire quali siano gli aspetti molecolari che determinano l'insorgenza delle patologie nell'uomo. Sebbene la lista di malattie elencate in questo archivio sia lunghissima, attualmente solo per una parte di esse conosciamo le cause genetiche.

Now, we are writing some instructions in plain English. This is because all the web speaks English, papers and databases are in English... and your career as a biologist will heavily rely on how much you can master this language. You can answer each question in Italian, if you prefer so.

From OMIM to gene

  1. There is an on line database called OMIM (Online Mendelian Inheritance in Man). In the front page you can understand what is collected into this database. Write it down, in your words, what you can find in OMIM.
  2. In the left sidebar there is a link to some statistics about the OMIM database. Try to summarize the difference between “Gene with known sequence and phenotype” and “Phenotype description, molecular basis known”. Check the FAQs to find out more, skip this question if you are not able to answer.
  3. Search OMIM for “Beta thalassemia”. As you know human (adult) hemoglobin is a tetrameric protein composed by two alpha-globin peptides and two beta-globin peptides. Mutation in both chains can give raise to various diseases. Beta thalassemia, as the name implies, is originated by a mutation in the beta-chain. Thalassemia means “Mediterranean blood disease”, as this mutation originated in this region and it’s still quite diffused in certain (formerly marsh lands) areas (Veneto and Sardinia, for example). You’ll get a list of related diseases, but only one is a perfect match. a) Please report the ID of that OMIM record. Referring to the categories found in “question 2”, b) which kind of record did you find?
  4. Open the record if you haven’t. a) Describe a typical OMIM record, in particular what is peculiar about the text describing the disease (the presence of hyperlinks to...). b) In addition explain what does “gene map locus” means.
  5. The most diffused mutation causing Beta Thalassemia is a change in the sixth amioacid from Glu to Val. Yet we are currently interested in a nonsense mutation first described by Chang and Kan in 1979. a) Find the paper and report its title.

  6. Read (in Pubmed) the abstract of the paper. a) Which mutation was found? b) What does “nonsense mutation” means?
  7. Now go to Entrez. Select the “Gene” database and look for the gene that, if mutated, can cause Beta Thalassemia. a) Which is the Gene ID? b) And the “official symbol”?
  8. Describe which information you can access from Entrez Gene (record). In particular, a) how long is the gene and how long is the protein encoded? b) How many exons are encoded? c) Where can you find information about associated diseases?

Click here, If you want to read it in the italian language