DNA, una nuova descrizione matematica

Come funziona il codice genetico?

Dal punto di vista matematico, il codice genetico può essere visto come una mappa o applicazione suriettiva e non-iniettiva (Appendice 1) tra l’insieme dei 64 possibili codoni (composti da tre basi) e l’insieme dei 21 elementi necessari alla sintesi delle proteine (i 20 amminoacidi più il segnale di stop).

DNA

Come conseguenza di ciò, il codice è ridondante e degenerato. In analogia con il codice genetico, le rappresentazioni dei numeri interi del tipo non-potenza (non-power) sono anch’esse delle mappe suriettive e non-iniettive tra insiemi di differente cardinalità e pertanto ridondanti. Ciononostante, nessuna delle rappresentazioni studiate finora descrive la degenerazione reale riscontrata nel codice genetico.

In questo articolo viene descritto un nuovo tipo di rappresentazione numerica che porta alle seguenti sorprendenti conclusioni: la degenerazione del codice genetico si può descrivere matematicamente e all’interno di questa degenerazione può essere riscontrata una nuova simmetria, assegnando a ogni codone un’appropriata stringa binaria, i codoni possono essere suddivisi in classi di parità definita (determinata anche dalla sequenza di basi del codone stesso). Quest’ultima proprietà è particolarmente suggestiva perché la codificazione di parità costituisce una delle strategie più semplici per la correzione degli errori nei sistemi elettronici di trasmissione di dati digitali.

La codificazione degli amminoacidi obbedisce a uno schema di tipo digitale: quattro simboli diversi raggruppati in gruppi di tre elementi, o triplette, codificano i 20 amminoacidi più il segnale di stop, che indica la fine del processo di sintesi. Tale codifica non è altro che il codice genetico. Questa natura digitale della codificazione degli amminoacidi ha consentito lo sviluppo di modelli computazionali del DNA che hanno permesso, a loro volta, l’applicazione di tecniche della teoria dell’informazione per l’analisi e l’interpretazione di lunghe sequenze di basi all’interno dei genomi.

Sebbene sistemi di numerazione quaternari (in base 4) siano stati utilizzati per rappresentare numericamente le triplette (Appendice 2), dal punto di vista computazionale le codificazioni più efficienti sono del tipo binario (in base 2). Per rappresentare gli interi si utilizzano solo due diversi simboli invece dei quattro necessari per rappresentare le quattro basi della doppia elica di DNA (Timina, Citosina, Adenina e Guanina, o in modo abbreviato T, C, A, G). Per questo motivo fondamentale (ma non esclusivamente) diversi metodi sono stati proposti per convertire sequenze di basi in sequenze di bit (digiti binari). Quasi tutti utilizzano qualche forma di rappresentazione binaria fissa di due bit per ogni base all’interno della tripletta (in alcuni casi solo un bit quando si vuole evidenziare il carattere contrapposto di purina o pirimidina della base rappresentata). Ciononostante, la descrizione binaria usuale rappresenta i numeri in maniera univoca e, a causa di questa implicita proprietà iniettiva (a uno a uno), non è in grado di evidenziare l’eventuale ordine matematico nascosto in relazione con la degenerazione, e pertanto con il carattere suriettivo e non-iniettivo, del codice genetico (Appendice 1).

In questo senso, risultano molto più interessanti le cosiddette rappresentazioni binarie del tipo non-potenza. In queste rappresentazioni, un dato numero può essere codificato simultaneamente da diverse stringhe binarie, vale a dire che esiste una degenerazione essenziale nella rappresentazione. A questo punto, pertanto, può essere formulata una domanda di tipo generale: esiste una rappresentazione binaria del tipo non-potenza che descriva in modo completo la degenerazione del codice genetico? Per rispondere bisogna fare ricorso alle proprietà generali di queste rappresentazioni e più in particolare alla proprietà di palindromia (vedasi Appendice 2).

Cos’è la palindromia?

La proprietà di simmetria palindromica assicura che, in una data rappresentazione non-potenza, esiste al massimo un unico sottoinsieme di numeri rappresentati con la stessa degenerazione il cui numero cardinale sia dispari. Ne consegue che la degenerazione attuale del codice genetico non può essere descritta in questo modo, perché esistono tre sottoinsiemi di amminoacidi che condividono la stessa degenerazione e il cui numero cardinale è dispari: 3 amminoacidi hanno degenerazione 6, 5 hanno degenerazione 4, e 9 hanno degenerazione 2.

A questo punto, però, è necessario notare che ciò che sembra essere determinante non è la degenerazione totale, ma la degenerazione all’interno dei quartetti, cioè all’interno dei gruppi di quattro triplette determinate dalle loro due prime lettere (1113). Questo equivale a dire che gli amminoacidi di degenerazione 6 sono in realtà codificati da due sottoinsiemi: uno con degenerazione 2 e un altro con degenerazione 4. In tal caso si può dimostrare che la rappresentazione binaria non-potenza del codice genetico è possibile se si assegnano alle 6 basi numeriche posizionali i valori (x1, x2, … x6) = (1,1,2,4,7,8).

DNA 2

La degenerazione del DNA

Questa rappresentazione particolare si può chiamare “rappresentazione binaria non-potenza tipo DNA”. La rappresentazione tipo DNA descrive tutte le degenerazioni riscontrate all’interno dei quartetti nel codice genetico standard: ci sono 2 oggetti con degenerazione 1, 12 con degenerazione 2, 2 con degenerazione 3 e 8 con degenerazione 4 (gli amminoacidi con degenerazione 6 contribuiscono con 3 elementi alle famiglie di degenerazione 4 e 2). Calcoli fatti su altre corrispondenze simili (dal punto di vista delle trasformazioni matematiche coinvolte nella rappresentazione) dimostrano che la probabilità che la coincidenza riportata sia dovuta al caso è molto bassa.

Ciononostante, senza un collegamento tra le stringhe binarie della rappresentazione tipo DNA e le triplette reali, sembra difficile poter cogliere il significato biologico di questo ordine nascosto. Un primo tentativo per stabilire questa corrispondenza tra le stringhe binarie e le triplette del codice genetico è basato sulle proprietà di simmetria di entrambi. I principali argomenti che stanno alla base dell’assegnazione riportata possono essere riassunti brevemente in due punti.

Codificazione della terza lettera della tripletta

Tutte le versioni conosciute del codice genetico possiedono una simmetria perfetta nello scambio delle basi T e C (C/T) nell’ultima lettera della tripletta.

Tutti i numeri codificati da queste stringhe rimangono invariati dalla trasformazione 0,1/1,0. Pertanto, possiamo concludere che lo scambio a6, a5, a4, a3,0,1/a6, a5, a4, a3,1,0, a livello delle stringhe binarie, è equivalente allo scambio C/T nell’ultima lettera della tripletta; il numero codificato dalle rispettive stringhe o l’amminoacido codificato dalle triplette rimangono invariati in queste trasformazioni.

Per esclusione, si può concludere che le stringhe che finiscono in 0,0 o 1,1 devono codificare triplette che finiscono in A o G. Ma osservando che i due amminoacidi di degenerazione 1 (Triptofano e Metionina) sono codificati necessariamente dalle stringhe (0,0,0,0,0,0) e (1,1,1,1,1,1), e che entrambi hanno delle triplette che finiscono in G, si può dedurre che non basta la terminazione in 0,0 o 1,1 per definire la lettera finale associata a questo tipo di triplette (che finiscono in A o G); diventa necessario prendere in considerazione la parità delle stringhe. Infatti, stringhe pari che finiscono in 0,0 o 1,1 sono associate a triplette che finiscono in G e stringhe dispari che finiscono in 0,0 o 1,1 ad una A finale.

Questa assegnazione rappresenta la prima regola di parità. Ricordiamo che la parità di una stringa binaria si definisce in base alla quantità di 1 contenuti nella stessa: un numero pari di 1 definisce una stringa pari, un numero dispari di 1, una stringa dispari (Appendice 2).

Applicando le regole suddette e sapendo che i due amminoacidi di degenerazione 3 sono necessariamente rappresentati dalle due stringhe di degenerazione 3, si arriva alla conclusione che le triplette corrispondenti dovrebbero finire in T, C e A. Questo è vero per le triplette che codificano per l’amminoacido I (Ile) ma non lo è per il segnale di stop. Il segnale di stop è l’unico elemento con degenerazione minore o eguale a quattro che presenta triplette con diverse seconde lettere. Infatti, la tripletta TGA presenta delle caratteristiche anomale. Ad esempio, può codificare diversi amminoacidi in diverse versioni del codice e, in alcuni casi, un 21esimo amminoacido, la selenocisteina. Pertanto, si può pensare che questa assegnazione nel codice standard rappresenti una specie di rottura di simmetria, com’è stato suggerito in diversi contesti.

Possiamo osservare anche che, in una versione particolare del codice genetico, quella corrispondente al genere Euplotes (nucleare), la tripletta TGA rappresenta l’amminoacido C (Cys), il quale risulta allora uno dei due amminoacidi di degenerazione 3 (invece del segnale di stop) rappresentato da tre triplette che finiscono in T, C e A, come risulta implicito nella rappresentazione numerica tipo DNA.

Per questo motivo possiamo considerare, nel presente approccio, la versione corrispondente al genere Euplotes del codice, come una struttura generale sulla quale differenti rotture di simmetria possono descrivere le altre versioni e, in particolare, la versione standard che differisce dalla Euplotes solo nell’assegnazione della tripletta TGA. Possiamo osservare che, nel caso della versione Euplotes del codice genetico, la simmetria palindromica è rappresentata da trasformazioni fra quartetti (gruppi di quattro triplette) che preservano la degenerazione. In un certo senso, le trasformazioni palindromiche sono complementari delle trasformazioni di Rumer che collegano quartetti di differenti degenerazioni.

Il fatto notevole nel presente approccio è che le trasformazioni palindromiche vengono descritte a livello matematico da una regola semplice e precisa: due triplette sono palindromiche se sono rappresentate da stringhe binarie collegate dalla operazione di complemento a 1 (rimpiazzare ogni 1/0 con 0/1). L’insieme completo delle trasformazioni palindromiche per la versione “euplotidea” del codice, è rappresentata graficamente per le due prime lettere delle triplette (si sottolinea che il termine simmetria palindromica si riferisce qui alle proprietà matematiche delle stringhe binarie che rappresentano le triplette e non alla sequenza reale di basi lungo la catena di DNA).

Poiché le trasformazioni palindromiche non cambiano la parità, il risultato per la terza lettera delle triplette è triviale: C è scambiata con T mentre A e G rimangono invariate.

Molte proprietà interessanti della rappresentazione tipo DNA saranno discusse in un lavoro più esteso. Qui possiamo sottolineare solo altri due fatti relazionati con la simmetria palindromica:

Posizione delle triplette variabili nelle differenti versioni del codice genetico: abbiamo rappresentato le variazioni nell’assegnazione degli amminoacidi alle diverse triplette per tutte le versioni conosciute del codice genetico prendendo come struttura di riferimento quella corrispondente alla versione Euplotes (si può sottolineare che la posizione dei siti variabili rappresenta un sistema di riferimento assoluto).

È notevole che tutte le variazioni di assegnazione accadono in quartetti collegati dalla trasformazione palindromica che definisce esattamente due metà del codice genetico composte da 8 quartetti: una metà è proclive alla riassegnazione delle triplette e l’altra no. Solo una delle 24 varianti riportate nel riferimento 18 sfugge a questa regola.

DNA 3

Regole di parità

L’insieme delle trasformazioni palindromiche è compatibile con la seguente regola di parità per le triplette che finiscono in T o C: le triplette che finiscono in T o C e che hanno una parità totale dispari, hanno una T o una G come seconda lettera; quelle con parità totale pari, hanno una C o una A. Questa regola è complementare a quella precedente per triplette che finiscono in A o G e mostra che tutte le triplette sono marcate riguardo alla loro parità: se finiscono in G o in A, il segno è coincidente con detta lettera; se invece finiscono in T o in C, la parità è codificata nella seconda lettera della tripletta. Di nuovo emerge un fatto notevole, e cioè, che una proprietà matematica semplice e concisa, in questo caso la parità delle stringhe, è in relazione con proprietà definite delle triplette in termini della organizzazione dei nucleotidi lungo la doppia elica del DNA. Sembrerebbe che le triplette seguano un’organizzazione molto strutturata, che si basa su semplici regole matematiche a livello delle stringhe binarie che le rappresentano.

In questo lavoro si è dimostrato che un particolare sistema di rappresentazione dei numeri interi, cioè la rappresentazione non-potenza tipo DNA, descrive in modo esatto le degenerazioni riscontrate nel codice genetico. Si è visto, inoltre, che questo sistema consente una rappresentazione binaria delle triplette. Tale codificazione binaria non è fissa ma dipende dal contesto: la codificazione binaria di una base specifica dipende dalle altre lettere nella tripletta e anche dalle posizioni relative al suo interno.

Questo fatto, unitamente alla codificazione di parità per mezzo della seconda o terza lettera della tripletta, suggerisce fortemente l’esistenza di un meccanismo di correzione degli errori basato sul controllo della parità. Questa possibilità è stata suggerita e, almeno da un punto di vista lineare, investigata. È da sottolineare che una strategia di codificazione di parità è stata recentemente suggerita per rendere conto della selezione di basi complementari nella doppia elica di DNA.

Il nostro approccio suggerisce che anche “lungo” la doppia elica esista un meccanismo di correzione degli errori e che questo meccanismo contribuisca all’accuratezza della sintesi delle proteine. Infatti, a differenza della codificazione di parità delle coppie complementari, che hanno un significato solo in un contesto evoluzionistico, il meccanismo proposto può risultare attivo nel meccanismo di trascrizione/sintesi e, pertanto, può essere responsabile del bassissimo tasso di errori nella trascrizione e dei diversi tassi di errori a seconda della posizione dei nucleotidi nel sistema di riferimento per la lettura.

Questo fatto può avere un particolare significato in medicina, dato che un’anomalia in tale sistema di correzione può produrre un incremento nel numero degli errori o l’impossibilità di correggere errori specifici associati a specifiche malattie. Inoltre, una semplice proteina con una lunghezza di 100 amminoacidi, può essere codificata in 3100 modi, cioè approssimativamente in 1050 modi diversi.

Come e perché una sequenza particolare di nucleotidi sia scelta per codificare una specifica proteina rimane una delle domande più importanti sul problema dell’organizzazione dell’informazione nel DNA. Il presente approccio offre un’opportunità per esplorare a fondo alcuni di questi aspetti organizzativi della codificazione dell’informazione biologica.

Il suggerimento più naturale, in questo senso, è quello di analizzare le proprietà statistiche delle sequenze reali di triplette codificanti il DNA assegnando loro le stringhe binarie della rappresentazione tipo DNA prima descritta. Possono essere studiate anche altre statistiche semplificate, ad esempio utilizzando solo le proprietà di parità delle triplette (un unico bit per tripletta).

Dal punto di vista teorico, sono state proposte diverse teorie per spiegare le regolarità riscontrate nel codice genetico. In alcuni casi queste possono essere associate alle proprietà fisico-chimiche delle molecole coinvolte nella codifica e decodifica degli amminoacidi. Nonostante ciò, rimane sconcertante il fatto che diverse proprietà fondamentali del codice genetico, come la distribuzione della degenerazione, e anche insospettate proprietà nascoste, come la simmetria palindromica o la parità delle triplette, riflettano un ordine matematico profondo che viene descritto esattamente da una delle operazioni più elementari e semplici che stanno alle radici della matematica: la rappresentazione dei numeri.

DNA 4

Appendice 1: Proprietà delle applicazioni tra insiemi

In genere, un’operazione logica che mette in relazione, o “applica”, gli elementi di un insieme A con quelli di un altro insieme B, viene chiamata “applicazione” (in inglese mapping). A livello grafico la si può rappresentare mediante frecce che collegano gli elementi dei due insiemi. In base ad alcune proprietà generali, le applicazioni possono essere classificate come:

iniettive: se ogni elemento dell’insieme B proviene da uno o da nessun elemento di A;
suriettive: se ogni elemento di B proviene da uno o da più elementi di A;
biiettive: se valgono simultaneamente le due proprietà suddette.

Dal punto di vista della teoria degli insiemi, sia il codice genetico che le rappresentazioni dei numeri del tipo non-potenza sono, allo stesso tempo, suriettive (tutti gli elementi dell’insieme B, amminoacidi o numeri interi, provengono da almeno un elemento dell’insieme A, cioè codoni o stringhe binarie) e non-iniettive (alcuni elementi dell’insieme B provengono da più di un elemento dell’insieme A, quindi ridondanza e degenerazione sono implicite).

Appendice 2: Rappresentazione dei numeri interi

Le rappresentazioni degli interi utilizzano in genere le potenze di una base k, pesate con dei digiti che coprono il range (0; k-1). Questo assicura che la rappresentazione è univoca (a uno a uno). Nella rappresentazione digitale viene utilizzata la base 10 (k=10) e i coefficienti posizionali, che possono prendere i valori tra 0 e 9, sono collocati seguendo l’ordine ascendente delle potenze di 10. Ad esempio, la rappresentazione in base 10 del numero 15 viene rappresentata come segue:

La rappresentazione binaria corrisponde alla base k=2, pertanto i valori posizionali corrispondono alle potenze di due e i relativi pesi o coefficienti possono assumere solo i valori 0 o 1. Il numero 15 viene rappresentato nella base binaria nel modo seguente:

Una generalizzazione dei sistemi basati sulle potenze di una base k consiste nell’assegnare valori arbitrari a questi valori posizionali (invece delle potenze di k). Per questo motivo tali sistemi possono essere chiamati non-potenza (non-power). Se questi valori posizionali arbitrari crescono più lentamente delle potenze di 2, la rappresentazione è in generale completa (tutti i numeri da 0 al numero formato dalla somma di tutti i valori posizionali, sono rappresentati) ma ridondante (un dato numero può essere rappresentato da più di una stringa binaria).

Un esempio interessante di questo tipo lo costituisce la cosiddetta rappresentazione di Fibonacci. In questa rappresentazione, i valori delle basi posizionali corrispondono a successivi numeri di Fibonacci. I numeri di Fibonacci prendono il nome dal suo scopritore, Leonardo Pisano, il famoso matematico di Pisa noto anche come Fibonacci. I numeri di Fibonacci formano una serie nella quale l’ennesimo numero è ottenuto come somma dei due precedenti, e cioè, F= F+F, con la condizione iniziale F= 1 and F= 1. La n n-2 n-11 2 rappresentazione di Fibonacci di ordine 6 (parole binarie di lunghezza 6 o 6 bit) utilizza i primi 6 numeri di Fibonacci, 1, 1, 2, 3, 5, 8.

Abbiamo sottolineato in colore il concetto di parità di una stringa: stringhe pari sono evidenziate in rosso e stringhe dispari in verde. La parità si definisce in base al numero di 1 in una data stringa: un numero pari da una stringa pari, un numero dispari da una stringa dispari. La rappresentazione di Fibonacci di ordine 6 presenta diverse proprietà in comune con il codice genetico. Ad esempio, è ridondante (il numero 15 è rappresentato da 3 diverse stringhe binarie) e vi sono esattamente 21 numeri rappresentati da 64 stringhe binarie (come i 20 amminoacidi più il segnale di stop rappresentati dai 64 codoni).

Ciononostante, la degenerazione della rappresentazione di Fibonacci di ordine 6 non coincide con la degenerazione osservata nel codice genetico. In un contesto più largo, le rappresentazioni non-potenza hanno una proprietà che le caratterizza: la degenerazione è una funzione palindroma dei numeri rappresentati; i numeri r, and R-r, dove R è il massimo intero che può essere rappresentato, condividono la stessa degenerazione. Le coppie relazionate dalla simmetria palindromica sono rappresentate numericamente da stringhe complementari: il palindromo di una data stringa si ottiene scambiando simultaneamente tutti gli 1 per 0 e viceversa. Una conseguenza importante di questa proprietà è che il sottoinsieme di numeri che condividono la stessa degenerazione ha un numero cardinale pari per tutte le degenerazioni della rappresentazione.

Una sola eccezione a questa regola è possibile: nel caso la somma di tutte le basi posizionali sia un numero pari R, il numero centrale della rappresentazione, cioè, R/2, possiede una degenerazione che è condivisa da un numero dispari di numeri rappresentati.

Bibliografia

Brown, T.A., Genome, Second Edition, BIOS Scientific Publishers, Oxford, (2002).
Wolfram, S., A New Kind of Science, Wolfram Media, Illinois, (2002).
Knuth, D.E., The Art of Computer Programming, volume 2, Seminumerical Algorithms, third edition, Addison Wesley, Reading, Massachusetts (1997).
Sweeney, P., Error Control Coding, Wiley, New York, (2002)
Yockey, H.P., Information Theory and Molecular Biology, Cambridge University Press, Cambridge, New York, (1992).
Liebovitch L.S., Tao Yi, Todorov A.T. and Levine L., Is there an error-correcting code in the base sequence in DNA? Biophysical Journal, 71, 1539-1544 (1996).
Jimenez-Montaño, M.A., de la Mora-Basañez, C.R. and Poschel, T., The hypercube structure of the genetic code explains conservative and non-conservative amminoacid substitutions in vivo and in vitro, Biosystems, 39, 117- 125 (1996).
Jimenez-Montaño, M.A., de la Mora-Basañez, C.R., The genetic code as a six-dimensional boolean hypercube. In: Abstracts of Proc. Soc. Math. Biol. Annual Meeting, July 23-26, U.C., Berkeley, CA (1992).
Karasev, V.A. and Sorokin, S.G., Topological structure of the genetic code, Russ. J. Genet., 33, 622-628 (1997).
Klump, H.H., The physical bases of the genetic code: the choice between speed and precision, Archv. Biochem. Biophys., 301, 207-209 (1993).
Rumer, Y.B. About the codon’s systematization in the genetic code (in Russian), Proc. Acad. Sci. U.S.S.R. (Doklady) 167, 1393 (1966).
Lehmann, J., Physico-chemical constraints connected with the coding properties of the genetic system, J. Theor. Biol., 202, 129-144 (2002).
Shcherbak, V.I., The symmetrical architecture of the genetic code systematization principle, J. Theor. Biol., 162, 395-398 (1993).
Un calcolo riguardante la possibilità di generazione casuale delle cosidette trasformazioni di Rumer (le quali presentano alcune analogie con il presente approccio, nel senso che le trasformazioni palindromiche mettono anch’esse in relazione gruppi di 8 quartetti), danno una probabilità minore di 3.09-32; Zhaxybayeva, O., Statistical estimation of Rumer’s transformation of the universal genetic code, ISSOL’96, Orleans, France (1996).
Zinoni, F., Birkmann, A., Stadtman, T.C., and Bock, A, Nucleotide sequence and expression of the selenocysteine-containing polypeptide of formate dehydrogenase (formate-hydrogen-lyase-linked) from Escherichia coli, Proc. Nat. Acad. Sci., 83, 4650 (1986).
Atkins, J.F. and Gesteland, R.F., Selenocysteine, the 21st amino acid, Nature, 407, 463-465 (2000).
Jimenez-Montaño M.A., Protein evolution drives the evolution of the genetic code and viceversa, Biosystems, 54, 47-64 (1999).
Hornos, J.E.M. and Hornos Y.M.M., Algebraic model for the evolution of the genetic code, Phys. Rev. Lett., 71, 4401-4404 (1993).
Knight, R.D., Freeland, S.J and Landweber, L.F., Rewiring the Keyboard: Evolvability of the Genetic Code, Nature Reviews – Genetics, 2, 49-58 (2001).
Kuck, U., Jekosch, K. and Holtzamer, P., DNA sequence analysis of the complete mitochondrial genome of the green alga Scnenedesmus obliquus: evidence for UAG being a leucine and UCA being a non-sense codon, Gene, 253, 13-18, (2000).
Forsdyke, D., Are introns in-series error-detecting sequences, J. Theor. Biol., 93, 861-866 (1981).
Donall A. Mac Donaill, A parity code interpretation of nucleotide alphabet composition, Chem. Commun., 18, 2062-2063 (2002).
Di Giulio, M., On the origin of the genetic code, J. Theor. Biol., 187, 573-581 (1997).
O. Ore, Number Theory and its History, Dover Publications, New York (1988).

L'informazione presente nel sito deve servire a migliorare, e non a sostituire, il rapporto medico-paziente. In caso di disturbi e/o malattie rivolgiti al tuo medico di base o ad uno specialista.

Una nuova descrizione matematica del codice genetico