Esercitazione 2: Ricerche in banche dati di sequenze

Consultare la pagina "Banche dati" prima di cominciare l'esercitazione.

Rispondere alle domande proposte in un file da salvare nella propria home, chiamandolo "es2_nome_cognome.txt". Usare un programma per creare testi (text editor), che trovate fra le applicazioni.

Ricerche con SRS ed Entrez

Ricerca nelle banche dati di sequenze genomiche umane codificanti la subunità 4 della citocromo c ossidasi.

La citocromo c ossidasi, complesso omo-dimerico localizzato nella membrana mitocondriale interna, partecipa al trasporto degli elettroni nella catena respiratoria mitocondriale. Ogni monomero è costituito da 13 subunità di cui 3 codificate dal genoma mitocondriale e 10 dal genoma nucleare. L'obiettivo della esercitazione è quello di selezionare tutte le sequenze geniche conosciute corrispondenti alla subunità 4 codificata dal genoma nucleare umano.

L'esercizio qui proposto dimostra che utilizzando sistemi di ricerca differenti si ottengono soluzioni diverse che sono strettamente dipendenti dalla formulazione sintattica delle query (formulazione sintattica della ricerca) e dal sistema utilizzato per effettuare la ricerca in banca dati.

I sistemi che utilizzeremo sono Entrez (USA) e SRS (EU) che sono disponibili in rete. Durante la scorsa esercitazione abbiamo avuto modo di evidenziare alcune differenze nella struttura dei record dei due database, pur molto simili nella sostanza. Iniziamo con l'effettuare la ricerca con Entrez dell'NCBI.

1) Ricerca attraverso Entrez

La ricerca viene fatta in più fasi.
Non è possibile ottenere i dati voluti mediante la formulazione di una sola query per la complessità della ricerca, quindi questa dovrà essere divisa in più fasi. Si ricorda che la formulazione di ciascuna ricerca viene effettuata combinando termini o frasi differenti mediante gli operatori logici AND, OR, NOT sempre digitati in maiuscolo.

Prima fase
P
oiché si richiede la selezione di sequenze genomiche umane la sintassi da formulare potrebbe essere  "Homo sapiens AND DNA".

  1. -Quale risultato si otterrebbe con tale query?
  2. -Verrebbero selezionati solo i record di sequenze umane di DNA ?

Tale ricerca selezionerebbe i record contenenti le parole volute, ma poste in qualsiasi campo, quindi si otterrebbero sicuramente dei falsi positivi.

Noi cerchiamo le sequenze relative all'organismo Homo sapiens, che nel record del database si trova sul campo 'Organism' e cerchiamo i record con sequenze genomiche (DNA).
Possiamo utilizzare la funzione 'Limits' associata al database di Entrez. Cliccando infatti su Limits, appare una finestra che consente una ricerca assegnando ad alcuni campi dei dati precisi di ricerca.

Riformulate la ricerca utilizzando come query 'Homo sapiens' e modificare i limiti (attraverso il relativo menù a tendina) da 'All fields' in Organism, dal menu 'Molecule' selezionare l'insieme Genomic DNA/RNA, inoltre per evitare la selezione di subunità mitocondriale della nostra proteina, modificare il menu 'Gene Location' in Genomic DNA/RNA. Quest'ultima selezione esclude tutte le eventuali sequenze mitocondriali.

Cliccare su Search.

Query#1 : Si otterranno un elevato numero di entries.

Seconda fase:
obiettivo è di ricercare tutte le sequenze nucleotidiche codificanti per la subunità 4 della citocromo ossidasi. La complessità del problema è dovuta all'annotazione non rigorosa dei nomi dei geni e delle proteine nelle banche dati primarie. È necessario quindi combinare, attraverso l'uso degli operatori logici, termini sinonimi e termini parziali.

Infatti la quarta subunità potrebbe essere scritta come 'subunit 4' oppure 'subunit IV' oppure 'cox4'.

Possiamo provare due modi differenti:

provare tutte e due le ricerche eliminando la funzione Limits prima di eseguire la query (per quale motivo?).
Perché è importante mettere le virgolette sul termine "subunit 4"?

Cliccando su Advanced dal top della homepage è possibile avere un quadro completo delle operazioni svolte e anche i numeri di entries associate ad ogni query.

Notare che nei due casi si ottengono risultati differenti. Secondo voi, quale query è più corretta e perchè?
Per capire come è stata eseguita la ricerca, consultate il riquadro ' Search details' (nella finestra ottenuta con 'Search'), dove è riportato, in dettaglio, la reale formulazione della richiesta.
Ricordate che le operazioni logiche avvengono, un operatore booleano alla volta, da sinistra a destra ed è fondamentale il corretto utilizzo delle parentesi.

Osserviamo che, scrivendo:
(Query#4)  "cytochrome c oxidase AND" ("subunit 4" OR "subunit IV" OR cox4) 
(in questo caso "cytochrome c oxidase" ha le virgolette), otteniamo lo stesso risultato della query#2 in cui cytochrome c oxidase non ha le virgolette. Perchè?

Combinazione delle query:
Combinando i risultati delle varie query si possono ottenere i dati finali.
Combinare la Query#1 con la Query#2: nella riga di ricerca scrivere #1 AND #2 (o farsi aiutare dalla maschera 'Advanced'). cliccando su 'Add to history'. Si ottiene la Query#5.

Poi:

Combinare la Query#1 con la Query#3: nella riga di ricerca scrivere #1 AND #3, poi cliccare su 'Add to history'. Si ottiene la Query#6.

Confrontare i dati ottenuti, visualizzare le query con 'Search' e scoprire il motivo delle eventuali discrepanze.

Siamo sicuri di aver ottenuto tutte le entries volute?
Esistono delle entries nei databases, in cui la funzione della citocromo c ossidasi è annotata erroneamente come 'cytocrome c oxidase' oppure 'cytochrome c oxydase'. Se impostiamo la query con:
("cytocrome c oxidase" OR "cytochrome c oxydase") AND ("subunit 4" OR "subunit iv" OR cox4)
possiamo visualizzare le entries con le annotazioni errate.

Nella precedentemente query (quella corretta) potevamo ottenere uno stesso risultato scrivendo cytochrome c oxidase con o senza virgolette. Invece, in questo ultimo caso, se avessimo scritto cytocrome c oxidase OR cytochrome c oxydase senza virgolette, avremmo ottenuto un differente risultato (provare per credere). Perchè?

Facoltativo: fare una ricerca simile utilizzando SRS all'EMBL (al posto di Entres). In questo caso, fate attenzione che i simboli booleani devono essere scritti in maniera differente: il simbolo '&' corrisponde ad AND, il simbolo '|' corrisponde ad OR, il simbolo '!' corrisponde a NOT.

 

 

 

Malattie ereditarie: OMIM

La banca dati OMIM (Online Mendelian Inheritance in Man) permette di risalire a numerose informazioni riguardanti le patologie ad ereditarietà genetica nell'uomo. La ricerca biomedica è sempre più indirizzata a chiarire quali siano gli aspetti molecolari che determinano l'insorgenza delle patologie nell'uomo. Sebbene la lista di malattie elencate in questo archivio sia lunghissima, attualmente solo per una parte di esse conosciamo le cause genetiche.

Nel database OMIM, oltre che essere presenti i fenotipi legati a disturbi (patologie) di origine genetica, sono catalogati anche i geni ad essi collegati.
Sono presenti record relativi ai geni e record relativi alle patologie ereditarie. I differenti record si riconoscono da un simbolo che precede il codice (codice MIM), '*' e '+' per i geni, '#' e '%' per i fenotipi associati alle patologie ereditarie

Ora, proponiamo un esercizio per analizzare una mutazione di un gene che rappresenta un fattore di rischio per le malattie vascolari, in particolare aumenta la suscettibilità alle trombosi (coaguli che possono bloccare la circolazione nelle vene o nelle arterie).

Introduzione:
La metilentetraidrofolatoreduttasi (MTHFR) è un enzima coinvolto nella trasformazione del 5-10 metilentetraidrofolato in 5 metiltetraidrofolato che serve come donatore di metili per la rimetilazione della omocisteina a metionina tramite l'intervento della vitamina B12.
Rare mutazioni ( trasmesse con modalità autosomica recessiva) possono causare la deficienza grave di MTHFR con attività enzimatica inferiore al 20% e comparsa di omocisteinemia ed omocistinuria e bassi livelli plasmatici di acido folico. La sintomatologia clinica è grave con ritardo dello sviluppo psico-motorio e massivi fenomeni trombotici.
Accanto alla deficienza grave di MTHFR è stato identificato un polimorfismo genetico comune, dovuto alla sostituzione di una C (citosina) in T (timina) al nucleotide 677 (C677T) (proteina Ala 222 Val)  , che causa una sostituzione di una alanina in valina nella proteina finale ed una riduzione dell'attività enzimatica della MTHFR. Tale variante tende a far aumentare i livelli di omocisteina nel sangue ed aumentare il rischio di trombosi. La frequenza genica in Europa della mutazione è del 3-3,7%

Nella parte sottostante, utilizzando OMIM, cercheremo di avere maggiori informazioni su questo gene ed in particolare del fenotipo della mutazione in 677 nt (222 aa nella proteina).

Ricercare il gene MTHFR in OMIM e riportare il relativo codice MIM e il nome completo

  1. - In che cromosoma si trova (Cytogenetic location)?
  2. - Quanti differenti fenotipi sono stati individuati per questo gene?
  3. - Quante varianti alleliche sono conosciute?
  4. - Individuare la variante "677C-T, ALA222VAL" e descrivere i potenziali rischi nella salute.

Sceglierne un link tra i fenotipi riportati (consigliamo Thromboembolism, susceptibility to) e visualizzare il relativo record.

Se avete un po' di tempo, consigliamo di osservare anche il fenotipo 'Neural tube defects, susceptibility to'
Si può vedere che questo fenotipo non è raro, anzi ... Può colpire una donna ogni 1000. Notare che la mutazione del gene studiato influenza la produzione dei folati. Elevati livelli nel plasma di homocysteine e bassi livelli di folati fanno aumentare il rischio di partorire un figlio con la spina bifida. E' per prevenire questo rischio, che alcuni medici consigliano una somministrazione di folati durante la gravidanza.

 

UniProtKB

UniProtKP è un banca dati di riferimento (protein knowledgebase) sviluppata a Ginevra.

Ricercare l'enzima studiato in OMIM (MTHFR) (naturalmente l'umano).

  1. Riportare la lunghezza della proteina
  2. Questo enzima ha bisogno di un particolare cofattore ?
  3. Quante varianti si conoscono (Potete osservare che sono riportate un numero maggiore di varianti varianti rispetto ad OMIM, sapreste formulare una ragione?)

Individuate la stessa variante studiata in OMIM (ALA222VAL),

  1. - Riportare nelle vostre note una sequenza di circa 10 aminoacidi intorno all'aminoacido mutato (un intorno della posizione 222)
  2. - Riportare il titolo di un articolo scientifico che descrive questa mutazione.

Notare che, dopo la bibliografia, sono riportati molti cross-reference.

Utilizzando i cross-reference, aprire il record della sequenza nucleoticia in RefSeq. Riportare nei vostri appunti l'AC (ACCESSION NUMBER) (attenzione che in RefSeq sono presenti record di proteine e di acidi nucleici, generalmente l'AC delle proteine inizia con NP, mentre quelli di DNA iniziano con NM)

FINE