Nadie sabe qué tecnología de secuenciado es más rápida debido a que nunca ha habido una forma justa de comparar las tasas a las que se extrae información del ADN. Hasta ahora.
Uno de los grandes héroes desconocidos de la ciencia del siglo XX es Claude Shannon, ingeniero de los famosos Laboratorios Bell durante su auge en la mitad del siglo XX. La más perdurable contribución a la ciencia por parte de Shannon es su teoría de la información: la idea que apuntala toda la comunicación digital.
En un famoso artículo que data de finales de la década de 1940, Shannon fijó el problema fundamental de la comunicación: reproducir en un punto del espacio un mensaje que se había creado en otro punto. El mensaje se codificaba inicialmente de alguna manera, se transmitía, y luego se decodificaba.
Shannon demostró que un mensaje siempre puede reproducirse en otro punto del espacio con una precisión arbitraria siempre que el ruido esté por debajo de un nivel umbral. Pasó luego a calcular cuánta información podría enviarse de esta forma, una propiedad conocida como capacidad del canal de información.
Las ideas de Shannon se han aplicado ampliamente a todas las formas de transmisión de información con gran éxito. Una vía particularmente interesante ha sido la aplicación de la teoría de la información a la biología – la idea de que la propia vida es la transmisión de información de una generación a la siguiente.
Este tipo de pensamiento revolucionario está en proceso y aún en sus primeras etapas. Queda mucho por llegar.
Hoy revisamos un interesante corolario en el área de la transmisión de información biológica. Abolfazl Motahari y sus colegas de la Universidad de California en Berkeley, usan la aproximación de Shannon para examinar cómo de rápidamente puede extraerse la información del ADN usando el proceso del secuenciado de escopeta.
El problema aquí es determinar la secuencia de nucleótidos (A,G,C y T) en un genoma. Esto requiere tiempo debido a que los genomas tienden a ser largos – por ejemplo, el genoma humano consta de unos 3000 millones de nucleótidos o pares de bases. Secuenciar esta cantidad en serie llevaría una infinidad de tiempo.
La aproximación de escopeta implica cortar el genoma en trozos aleatorios, que constan de entre 100 y 1000 bases, y secuenciarlas en paralelo. La información se vuelve a pegar in silico mediante un algoritmo conocido como de re-ensamblado.
Por supuesto, no hay forma de saber cómo re-ensamblar la información procedente de una única ‘lectura’ del genoma. Por lo que en la aproximación de escopeta, este proceso se repite muchas veces. Dado que cada lectura divide el genoma de una forma distinta, los otros inevitablemente se solapan con segmentos de la ejecución anterior. Estas áreas de solapamiento hacen posible el re-ensamblado de todo el genoma, como un rompecabezas.
Esto tiene el aspecto del problema clásico de la teoría de la información y, efectivamente, distintas personas han pensado en ello de esta forma. Sin embargo, Motahari y compañía van un paso más allá cambiando su enunciado más o menos exactamente a un análogo de la famosa aproximación de Shannon.
Dicen que el problema del secuenciado del genoma es esencialmente la reproducción de un mensaje escrito en el ADN a un formato electrónico digital. Según esta forma de abordarlo, el mensaje original está en el ADN, se codifica para su transmisión mediante el proceso de lectura y luego se decodifica por el algoritmo de re-ensamblado para producir una versión electrónica.
Lo que demuestran es que hay una capacidad del canal que define una tasa máxima para el flujo de información durante el proceso de secuenciado. “Ofrece el número máximo de pares de bases de ADN que pueden resolverse en cada lectura, mediante cualquier algoritmo de ensamblaje, sin importar las limitaciones computacionales”, comentan.
Esto es un resultado significativo para cualquiera interesado en el secuenciado de genomas. Un tema importante es lo rápido que una tecnología concreta de secuenciado puede realizar esta tarea, y si es más rápida o lenta que otras aproximaciones.
Por el momento no es posible calcularlo debido a que muchos de los algoritmos usados para ensamblado están diseñados para tecnologías y aproximaciones específicas a la lectura. Motohari y sus colegas dicen que hay, al menos, 20 algoritmos distintos de re-ensamblado, por ejemplo. “Esto hace difícil comparar distintos algoritmos”, comentan.
Por consiguiente, nadie sabe realmente cuál es más rápido, o incluso cuál tiene el potencial de ser más rápido.
El nuevo trabajo cambia esto. Por primera vez debería ser posible calcular lo cerca que está una tecnología concreta de secuenciado del límite teórico.
Esto podría forzar una limpieza de la madera muerta en esta área y estimular un periodo de innovación rápida en la tecnología del secuenciado.
Artículo de Referencia: arxiv.org/abs/1203.6233: Information Theory of DNA Sequencing
Traducido en: Ciencia Kanija
El concurso iGEM y la biología sintética.
El equipo de la Universidad de Sevilla, va a desarrollar un proyecto de investigación científica para presentar al prestigioso concurso anual sobre biología sintética que desarrolla el Instituto Tecnológico de Massachusetts (MIT). A esta competición se presentan las mejores universidades del mundo, y la participación no ha hecho sino aumentar en los últimos años.
La biología sintética es la rama de la ciencia que pretende aplicar los principios de la ingeniería a los conocimientos de la biología, de forma que se modifiquen organismos vivos para dotarlos de nuevas características o que realicen las funciones que queramos. Para ello hay que contar con biólogos que conozcan cómo funcionan los organismos, informáticos que diseñen simulaciones por ordenador, etc. Por eso se dice que la biología sintética es una ciencia multidisciplinar.
El proyecto.
Modificar genéticamente un grupo de bacterias para permitir que mediante el intercambio de sustancias éstas sean capaces de procesar cierta información y devolver un resultado. La información se les entrega en forma de sustancias químicas y ellas a su vez usan sustancias químicas para “responder”. Cada bacteria ejecuta una operación simple en función de las sustancias que reciba, muchas bacterias combinadas conseguirán realizar funciones más complejas. Es decir, cada bacteria sería como un pequeño chip en un circuito electrónico.
En la Universidad de Sevilla van a ir un paso más allá, intentar estandarizar la forma en la que los científicos diseñen nuevos circuitos. Definiendo una sustancia determinada que actúe como comunicador universal entre módulos (circuitos de bacterias separados físicamente). Esta sustancia Ubbit (de “Universal BioBit”) será el enlace entre distintos módulos. Así, se podrán combinar varios módulos creados por personas distintas sin necesidad de conocer su funcionamiento interno, sólo hace falta que todos usen el Ubbit.
Para demostrar que la idea funciona, van a diseñar un circuito sumador, es decir, un circuito que sume dos números en binario y devuelve el resultado de la suma. Combinando muchos módulos sumadores, se podrán realizar sumas de tantas cifras como se desee.
El proyecto estará en gran medida financiado por la Universidad de Sevilla, pero está abierto a donaciones, que serán recompensadas.
Para ampliar información: LANZANOS