La informática ayuda a la identificación de los muertos del 11 de septiembre
2749 vidas se perdieron en los ataques terroristas contra el World Trade Center en Nueva York, el 11 de septiembre de 2001. Es espantoso, aunque en principio se pensó que 10000 personas habían muerto. Los forenses del
"New York City Office" (OCME) hicieron frente a un desafío sin precedentes para identificar a cada víctima, y, hacer todo lo posible para devolver los restos a sus familias para un entierro digno.
Para solucionar este problema, el OCME pensó en la
bioinformática, se dirigió específicamente, a una pequeña compañía de software, en Ann Arbor (Michigan), llamada
Gene Codes, y a su fundador Howard Cash. Antes del 2001, la empresa era muy conocida por su programa innovador para el montaje de secuencias genéticas . Menos del cinco por ciento de su negocio estaba relacionado con el análisis forense del DNA. Cuando, en octubre de ese año, Cash fue preguntado por el OCME si su empresa podría producir un programa de identificación humana que pudiera hacer frente a la gran escala del desastre, su pensamiento inmediato fue que le pedían algo imposible. El trabajo a un ritmo tan acelerado era un desafio, incluso sin el conocimiento de que cualquier error -potencialmente que un cuerpo sea devuelto a una familia incorrecta- sería muy perturbador.
Sin embargo, Cash aceptó el desafío. Podía entregar la primera versión del "sistema total de la identificación de la fatalidad", o M-FISys (siglas del inglés), en el plazo de dos meses, y unas versiones revisadas se dieron casi cada semana en los dos años siguientes. A lo largo de ese tiempo, el equipo de diseño trabajó contrareloj en turnos de 12-horas, "era como bailar con un gorila: usted no para cuando se cansa, sino cuando el gorila se cansa".
Inusualmente para un empresario de bioinformática, Cash fue entrenado como músico clásico, trabajó como auxiliar en el teatro de la ópera de Pennsylvania. Se trasladó a
Stanford a estudiar psicoacústica, y su primer trabajo fue de programación para cancelar sus deudas, antes de buscar el trabajo como ingeniero de audio. Por casualidad, ese trabajo estaba en una compañía del bioinformática, IntelliGenetics, y su primer tarea fue ayudar en el secuenciamiento del genoma del virus del VIH. Nunca más se dedicó al audio. En 1988, volvió a Michigan para crear la compañía Gene Codes, lanzando el software Sequencher para el ensamblaje del genoma. Era en la época del comienzo del proyecto de la secuenciación del genoma humano, a finales de los 80, era algo como ser marinero en la época de
Magallanes. Hacia el año 2001 Sequencher tenía casi 75 por ciento del mercado en su campo, y la compañía había dado beneficios durante casi una década.
La naturaleza, así como la escala, del desastre presentó desafíos únicos a los ingenieros informáticos de Gene Codes. Había pocos cuerpos intactos, y aún menos se podrían identificar usando métodos clásicos tales como huellas digitales y pertenencias personales. En total, más de 20000 muestras humanas fueron recuperadas del sitio del desastre, con algunos individuos que eran recuperados en doscientos pedazos. Los restos se degradadon por el fuego intenso del combustible de los aviones, que ardieron por meses. La identificación del DNA era el único método que se podría utilizar para identificar a la mayoría de los cuerpos. Con todo muchas, si no la mayoría, de las muestras de DNA recuperadas estaban incompletas.
El software usado en las primeras semanas después del desastre, CoDIS "Combined DNA Information System" (sistema de índice de DNA combinado), había sido escrito para identificar a criminales sospechosos con los registros de DNA, que es conocido como el problema "uno a muchos". El problema de la identificación del World Trade Center, en contraste, es evidentemente "muchos a muchos". Cash comentó: "a pesar de la disponibilidad de un martillo (CoDIS), el problema no se podría representar como un clavo". Hasta el 12 de diciembre de 2001, habían sido hechas 105 identificaciones usando técnicas convencionales. El 13 de diciembre, el día que la primera copia de M-FISys fue instalada, identificó a 55 víctimas más.
El sistema de M-FISys se ha diseñado para tratar tres tipos de datos: las muestras de la víctima recuperadas del suelo, muestras del DNA de presuntos desaparecidos (incluyendo cepillos de dientes y lápices labiales así como muestras de patología); y muestras de parientes. Una de las primeras tareas de los programadores era diseñar la base de datos e incorporar los datos, que fueron obtenidos en una variedad amplia de formatos, extendiéndose desde bases de datos como Oracle y hojas de cálculo hasta expedientes manuscritos.
Se emplearon tres técnicas para identificar personas en base a las secuencias de DNA: polimorfismo de repeticiones cortas en tándem (STR), DNA mitocondrial, y polimorfismos sencillos de nucleótidos, que se incorporaron en el paquete informático. Por claridad, más que mostrar todas las comparaciones para una muestra a la vez, la exhibición se puede alterar para ofrecer muestras ligadas con cualquiera de estas técnicas, y relacionando con otros datos que apoyen o contradigan la identificación presumida como válida. (La mayoría de nuestro DAN es idéntico al de otras personas. Sin embargo, hay regiones heredadas de nuestro DNA que pueden variar de una a otra persona. Las variaciones de la secuencia del DNA entre individuos se denominan "polimorfismos").
El análisis de las repeticiones cortas en tándem (STR) es la técnica más ampliamente usada para la identificación basada en DNA humano. El genoma humano contiene muchas secuencias cortas de DNA repetido, una secuencia de algunas bases se repite hasta algunas docenas de veces (ej. '... el aatgaatgaatg...'). El número de estas repeticiones en cualquier secuencia es diferente entre los individuos. Regiones STR ocurren sobre todo en DNA no codificante, médicamente sin interés, se dispersan sobre todo el genoma, y no se relacionan entre sí. Como los STRs no están relacionados, la probabilidad de que el DNA de cualquier individuo contenga números dados de repeticiones en diversos lugares (loci) se puede obtener simplemente multiplicando la probabilidad para cada número repetido. En aplicaciones habituales, cada muestra de DNA se caracteriza por los números de la repetición en cada uno de los 13 lugares STR. Como un individuo hereda un genoma completo de cada progenitor, cada muestra de DNA contendrá ya sea una longitud repetida o dos en cada posición. Se ha estimado que las probabilidades de obtener un emparejamiento erróneo entre dos perfiles completos de 13-locus, son menos que uno en 1015.
Por lo tanto, en circunstancias ideales, es casi imposible imaginarse que el análisis STR pueda dar lugar a una identificación incorrecta. En el desastre del 11 de septiembre, sin embargo, menos de 13 STR loci se pudieron obtener de la mayoría de las muestras del DNA de las víctimas, debido a daños producidos por el fuego. Y obviamente, solamente es posible comparar las longitudes de la secuencia de STR que están presentes en ambas muestras. La probabilidad de encontrar determinaciones erróneas aumenta muy rápidamente. Como había que evitar falsos positivos, fue necesario complementar este análisis con las otras dos técnicas.
Dadas las necesidades de OCME de que el software se entregara de inmediato, Cash y sus colegas decidieron utilizar una serie de técnicas de ingeniería del software conocidas como
"Extreme Programming" (XP). La filosofía de XP fue desarrollada por
Kent Beck, y permite que los programadores escriban código exacto sin usar especificaciones.
Las ingenieros trabajan por parejas en un ordenador, uno repasando constantemente el trabajo del otro, y las pruebas se escriben antes de que el código esté para probar. Antes de que cualquier nuevo código se incorpore en el sistema, debe pasar no solamente sus propias pruebas, sino también todas las pruebas escritas desde que el proyecto comenzó. Una ventaja obvia de esto es que es difícil romper el código en un lugar mientras que se corrige un error en otro punto.
A finales de 2004, habían sido identificados más de 1500 víctimas, y el equipo de Gene Codes habría podido cancelar el proyecto de M-FISys, y a seguir de nuevo el trabajo sobre Sequencher. Pero no sería así. Cuando el sureste asiático fue golpeado por el
tsunami, Cash y sus colegas ofrecieron su sistema a las autoridades tailandesas. Ese desastre presentó diversos desafíos. Aunque los cuerpos resultaron poco fragmentados, el desastre estaba en una escala más grande de víctimas y, con muchos miembros de algunas familias que desaparecieron, proporcionando pocos datos sobre el parentesco, a veces era posible identificar a alguien a partir de expedientes de un pariente que era también una víctima.
M-FISys todavía no se utiliza extensamente, posiblemente debido a intereses políticos que están en conflicto. Cash no se desalienta y firmó un contrato para proporcionar una versión de M-FISys al gobierno Británico. México también ha firmado recientemente un contrato para el software. Code Gene ha ofrecido proporcionar M-FISys a coste reducido, y/o donar su tecnología para la identificación de víctimas a varias organizaciones no lucrativas.
En junio de de 2005, la
"International Society for Computational Biology" (ISCB) invitó a Cash a que presentara la conferencia de apertura, en el congreso "Intelligent Systems in Molecular Biology", en Detroit (EE.UU.). Cerca de 1700 delegados lo oyeron, el presidente de ISCB, Michael Gribskov, hizo una mención especial por el servicio humanitario. En las condiciones pésimas después del ataque Cash y sus colaboradores trabajaron para producir un código inestimable de bioinformática.