Watson es sobre Big Data. Se trata de la absorción de grandes cantidades de información sobre temas específicos como – medicina, leyes, viajes, comercio minorista, metalurgia, petróleo y el gas, etc. lo que sea – permitiendo al usuario consultar los datos para buscar patrones que ayuden en el diagnóstico, ayuda a encontrar argumentos legales, tomar una decisión sobre dónde perforar para obtener petroleo, casi cualquier cosa.
Tomemos un ejemplo. Watson inicialmente está siendo probado como una ayuda a los médicos para hacer más rápidos y precisos los diagnósticos.¿Por qué la medicina?
1) Los investigadores médicos pueden leer como máximo unos pocos cientos de artículos médicos al año. Watson ha ingerido todos los 23 millones de artículos médicos en la Biblioteca Nacional de Medicina (MEDLINE).
2) Los errores médicos son ahora la tercera causa principal de muerte en los EE.UU., según IBM.
Watson está diseñado para interactuar con el historial médico del paciente, así como con los datos que el médico obtiene tras la anamnesis y exploración. Así que ante un paciente que llega con un diagnóstico difícil, el médico podría consultar Watson, que compararía los síntomas contra un vasto cuerpo de conocimiento médico para producir una serie de posibles diagnósticos.Esto es particularmente valioso cuando se trata de enfermedades raras en las que es probable que el médico tenga poco conocimiento de la enfermedad o sus síntomas.
Fragmento traducido de Three years after ‘Jeopardy,’ IBM gets serious about Watson por Bob Pisani de CNBC
Las juntas de libertad condicional, en más de la mitad de los estados de Estados Unidos, usan predicciones basadas en el análisis de datos. En Los Ángeles usan el análisis de datos masivos para seleccionar las calles, grupos e individuos que tienen más probabilidades de verse involucrados en crímenes. Algo similar al programa Blue CRUSH (por las siglas Reducción el Crimen Utilizando el Historial Estadístico) que se emplea en la ciudad de Memphis, Tennessee.
En Richmond, Virginia, la policía correlaciona los datos sobre crímenes con la información de fechas de conciertos, acontecimientos deportivos, e incluso sobre cuándo pagan las nóminas a sus empleados las grandes compañías de la ciudad.
A medida que se incrementan los datos de que disponemos sobre los individuos y sus relaciones con los diferentes elementos del mundo, ya sea gracias a sus interacciones con su smartphone (GPS, etc.) o las huellas digitales dejadas a través de Internet, se podrán establecer correlaciones en base a datos masivos que nos dirán muchas cosas acerca de cuándo y cómo se producen los crímenes.
Ya hay un proyecto de investigación desarrollado bajo el amparo del Departamento de Seguridad Interior de Estados Unidos llamado FAST (Tecnología de Exploración de Futuros Atributos) que tratará de identificar a los potenciales terroristas monitorizando los indicadores vitales, el lenguaje corporal y otros patrones fisiológicos.
Viktor Mayer-Schönberger afirma en su libro Big Data:
Si las predicciones basadas en datos masivos fueran perfectas, si los algoritmos pudieran prever nuestro futuro con infalible claridad, no tendríamos elección para obrar en el futuro. Nos comportaríamos exactamente a tenor de lo predicho. De ser posibles las predicciones perfectas, quedaría negada la voluntad humana, nuestra capacidad de vivir libremente nuestras vidas. Y, además, no sin ironía, al privarnos de elección nos librarían de toda responsabilidad. Por supuesto, la predicción perfecta es imposible. Antes bien, el análisis de datos masivos lo que predecirá es que, para un individuo específico, hay cierta probabilidad de que tenga un comportamiento futuro determinado. Véase, por ejemplo, la investigación llevada a cabo por Richard Berk, profesor de estadística y criminología de la universidad de Pensilvania. (…) Berk sostiene que puede predecir un futuro asesino entre los presos en libertad condicional con una probabilidad de acierto mínima del 75 por 100. No está mal. Sin embargo, también significa que si los comités de libertad condicional se basan en el análisis de Berk, se equivocarán una de cada cuatro veces, y eso no es poco.
Una sociedad semejante sería más segura, pero también se destruiría la presunción de inocencia, el principio básico de nuestro sistema legal y de nuestro sentido de lo que es justo.
Los datos masivos son útiles para comprender el riesgo presente y futuro, y para ajustar nuestras acciones en consonancia. Sus predicciones ayudan a pacientes y aseguradoras, prestamistas y consumidores. Pero no nos dicen nada acerca de la causalidad. En cambio, asignar “culp” (culpabilidad individual) requiere que las personas a las que juzgamos hayan elegido actuar de determinada manera. Su decisión debe ser causa de la acción subsiguiente. Precisamente porque los datos masivos están basaos en correlaciones, constituyen una herramienta del todo inadecuada para juzgar la causalidad y asignar, pues, la culpabilidad individual.
Fuente: Xataka ciencia
Licencia CC
La cantidad de información que produce la humanidad sigue creciendo y su preservación para las generaciones futuras se vuelve problemática. Una posible solución implica el almacenamiento en el ADN. Un grupo de investigadores norteamericanos ilustra el potencial del método mediante el registro de un libro entero en sólo un picogramo de ADN.
Nuestro mundo se está volviendo más y más información a través los datos que circulan a través de los ordenadores e internet, consecuencias de la obra de Alan Turing . Fotos, vídeos, textos, datos digitales de todo tipo, su cantidad se duplica cada año debido a la actividad del Homo sapiens . Pero, ¿cuánta de esta información estará disponible para la próxima generación y cómo almacenarla de forma duradera y discreta? Debido a que la humanidad ha producido en 2011 unos 10 21 bytes de información, y esta cifra se habrá multiplicado por 50 en el año 2020. ¿Cómo almacenar los registros médicos, la música u otras obras de arte con materiales que pueden durar por lo menos un siglo, por ejemplo?
El trabajo sobre este tema de almacenamiento de archivos de la humanidad ha avanzado en los últimos años como lo demuestra, por ejemplo, el M-Disc . Pero una de las técnicas más prometedoras parece que es basándose en el ADN (DNA). Esta idea se explora desde hace algún tiempo y un artículo reciente en Science ilustra el poder de almacenar información digital en la mítica molécula de la vida, cuya estructura fue elucidada por Watson y Crick hace casi 60 años.
Uno de los autores del artículo de Science no es otro que George Church , bien conocido por su trabajo en biología sintética . Este es su libro, Regenesis: How Synthetic Biology Will Reinvent Nature and Ourselves, que fue grabado y leído con una nueva técnica que consiste en un soporte de hebras de ADN. El libro en sí contiene 53426 palabras, 11 imágenes y un programa JavaScript que constituyen una riqueza de información de 5.37 Mbit. Una millonésima de la millonésima parte de un gramo de ADN fue suficiente para asegurar su almacenamiento. El récord anterior de ADN fue 7920 bit. Tiene casi 1000 veces de cantidad de información almacenada.
Millones de gigabit por centímetro cúbico de ADN
Este volumen de información no tiene nada de extraordinario en sí mismo. Pero la densidad de almacenamiento es espectacular, ya que es equivalente a 5.5 millones petabit o un gigabit por centímetro cúbico. Esta es mucho mayor que la de los discos duros y más de 10 millones de veces la densidad de almacenamiento de un CD . Sin embargo, el almacenamiento de ADN obtenido por los investigadores no pueden competir con el disco duro porque no se puede leer, escribir o borrar la información a voluntad.
Para almacenar la información, es necesario sintetizar cadenas de ADN en la que se almacenan los datos en forma binaria en nucleótidos de adenina (A), timina (T), citosina (C) y guanina (G). Cada hebra de ADN es un fragmento de la información total almacenada en un soporte de vidrio . Un código así contenido en la secuencia de nucleótidos indica a qué parte del archivo, por ejemplo que contiene el libro de George Churh, en la cadena de ADN. Finalmente, se debe utilizar la técnica de secuenciación de ADN y tratar la información obtenida del proceso en la computadora para recuperar la información original. Procesar poco práctico y caro, obviamente. Esta es la razón por la que el almacenamiento con ADN está más bien destinado a archivar datos. No parecen destinadas a reemplazar las memorias de nuestros ordenadores en la vida cotidiana.
La técnica no implica usar el ADN de las células vivas (se correría el riesgo de alterar la información registrada, por mutación), y como el ADN del pasado puede mantenerse intacto durante miles de años a temperatura ambiente, parece probable que los archivos del futuro de la humanidad, en efecto constarán de ADN. Esto es sorprendente si se considera que lo mismo es cierto para la información genética de las especies vivas.
Fuente: Futura-Sciences
Con la cantidad de expectación en torno a Big Data es fácil olvidar que sólo estamos en los inicios. Más de tres exabytes de datos nuevos se crean cada día, y la firma de investigación IDC estima que 1200 exabytes de datos se generarán este año.
La expansión de los datos digitales se ha prolongado durante más de una década y para aquellos que han hecho un poco de investigación, entienden que las referencias de grandes cantidades de datos son mucho más que Google, eBay o Amazon y medianas series de datos. La oportunidad para una empresa de cualquier tamaño para obtener ventajas a partir de Big Data se deriva de la agregación de datos, extracción de datos y metadatos – los bloques de construcción fundamentales para el análisis de los negocios del mañana. En conjunto, estos datos ofrecen una oportunidad sin precedentes.
Sin embargo, a pesar de la amplitud de Big Data que se está discutiendo, parece que todavía es un misterio muy grande para muchos. De hecho, fuera de los expertos que tienen un gran dominio de este tema, los malentendidos en torno a Big Data parecen haber llegado a proporciones míticas.
Éstos son los cinco mitos:
1. Big Data es sólo volumen masivo de datos
El volumen es sólo un elemento clave en la definición de Big Data, y es posiblemente el menos importante de los tres elementos. Los otros dos son la variedad y la velocidad. En conjunto, estas tres «V» de Big Data se postularon inicialmente por Doug Laney de Gartner en un informe de 2001.
En términos generales, los expertos consideran petabytes de volúmenes de datos como punto de partida para Big Data, aunque este indicador de volumen es un blanco móvil. Por lo tanto, mientras que el volumen es importante, las dos siguientes «V» son mejores indicadores individuales.
Variedad se refiere a datos de muchos tipos diferentes de archivos que son importantes para gestionar y analizar más a fondo, pero para los que las bases de datos relacionales tradicionales se adaptan mal. Algunos ejemplos de esta variedad incluyen los archivos de sonido, películas, imágenes, documentos, datos de localización geográfica, registros web y cadenas de texto.
La velocidad es la tasa de cambio en los datos y la rapidez con que se deben utilizar para crear valor real. Las tecnologías tradicionales son especialmente poco adecuadas para el almacenamiento y el uso de alta velocidad de los datos. Por lo tanto se necesitan nuevos enfoques. Si los datos en cuestión se crean y se agregan muy rápidamente se deben utilizar con rapidez para descubrir patrones y problemas, cuanto mayor es la velocidad es más probable que se tenga una oportunidad para Big Data.
2. Big Data significa Hadoop
Hadoop Apache es el marco de software de código abierto para trabajar con Big Data. Fue derivado de tecnología de Google y llevado a la práctica por Yahoo y otros. Sin embargo, Big Data es muy variada y compleja, para única solución para todo. Aunque sin duda Hadoop ha logrado el reconocimiento y gran renombre, es sólo una de las tres clases de tecnologías muy apropiadas para el almacenamiento y la gestión de Big Data. Las otras dos clases son NoSQL y procesamiento masivo paralelo (MPP). Ejemplos de MPP Big Data son Greenplum EMC, IBM Netezza, y Vertica de HP.
Además, Hadoop es un marco de software, lo que significa que incluye una serie de componentes que fueron diseñados específicamente para resolver en gran escala el almacenamiento distribuido de datos, análisis y tareas de recuperación. No todos los componentes Hadoop son necesarios para una solución Big Data, y algunos de estos componentes pueden ser sustituido por otras tecnologías que complementan mejor las necesidades de un usuario. Un ejemplo es la distribución de Hadoop MAPR, que incluye NFS como una alternativa a HDFS, y ofrece un completo acceso aleatorio, de lectura/escritura del sistema de archivos.
3. Big Data significa datos no estructurados
El término «estructurado» es impreciso y no tiene en cuenta las muchas y sutiles estructuras típicamente asociadas con los tipos de Big Data. Además, los Big Data bien pueden tener diferentes tipos de datos dentro del mismo conjunto que no contienen la misma estructura.
Por lo tanto, Big Data es, probablemente, mejor llamado «multi-estructurado», ya que podría incluir cadenas de texto, documentos de todo tipo, archivos de audio y vídeo, metadatos, páginas web, mensajes de correo electrónico, feed de medios sociales de comunicación, datos de formularios, y así sucesivamente. El rasgo común de estos tipos de datos variados es que el esquema de datos no es conocido o se define cuando los datos se capturan y se almacenan. Más bien, un modelo de datos se aplica a menudo a la vez que se utilizan los datos.
4. Big Data es para feeds de medios de comunicación social y análisis de sentimiento
En pocas palabras, si una organización necesita analizar el tráfico web en términos generales, registros del sistema de TI, sentimiento del cliente, o cualquier otro tipo de datos digitales, que se están creando en volúmenes récord cada día, Big Data ofrece una manera de hacer esto. A pesar de que los pioneros de Big Data han sido los más grandes, basadas en la Web, las compañías de medios sociales -Google, Yahoo, Facebook- que era el volumen, variedad y velocidad de los datos generados por los servicios que requieren una solución radicalmente nueva en lugar de la necesidad de analizar feeds social o el sentimiento público de audiencias.
Ahora, gracias a la potencia de los ordenadores cada vez mayor (a menudo basados en la nube), software de código abierto (por ejemplo, la distribución de Apache Hadoop), y un tratamiento moderno de los datos que puedan generar valor económico si se utilizan adecuadamente, hay un sinfín de usos y aplicaciones Big Data. Un primer favorito y breve Big Data, que contiene algunos de los usos que hacen pensar, fue publicado como un artículo a principios de este año en la revista Forbes.
5. NoSQL significa No SQL
NoSQL significa «no sólo» SQL porque este tipo de bases de datos ofrecen acceso a un dominio específico y técnicas de consulta, de SQL o interfaces de tipo SQL. Tecnologías en esta categoría NoSQL incluyen bases de datos de claves, bases de datos orientados a documentos, bases de datos de gráficos, grandes estructuras planas, y almacenamiento en caché de bases de datos. Los métodos específicos de acceso nativo a los datos almacenados proporcionan un enfoque rico, de baja latencia, normalmente a través de una interfaz propietaria. El acceso SQL tiene la ventaja de familiaridad y compatibilidad con muchas herramientas existentes. Aunque esto es por lo general conlleva algún gasto de latencia impulsado por la interpretación de la consulta del «lenguaje nativo» del sistema subyacente.
Por ejemplo, Cassandra, la popular tienda de claves de código abierto valor ofrecido en forma comercial por DataStax, no sólo incluye las API nativas para el acceso directo a los datos de Cassandra, pero CQL (interfaz del tipo SQL) es su nuevo mecanismo de acceso preferido. Es importante elegir la tecnología NoSQL adecuada para satisfacer tanto el problema de negocio y tipo de datos y de las muchas categorías de tecnologías de NoSQL ofrecen un montón de opciones.
Fuente: Mashable business