Justo cuando parecía subestimada, la computación clásica está volviendo a atacar. IBM ha ideado una manera de simular ordenadores cuánticos que tienen 56 bits cuánticos, o cubits, en un superordenador no cuántico – una tarea que antes se creía imposible. La hazaña mueve los palos de la portería en la lucha por la supremacía cuántica, el esfuerzo por superar a las computadoras clásicas usando las cuánticas.
Antes se aceptaba ampliamente que un ordenador clásico no puede simular más de 49 qubits debido a limitaciones de memoria. La memoria necesaria para las simulaciones aumenta exponencialmente con cada cubit adicional.
Lo más cerca que se había llegado a poner a prueba el límite de 49 bits era una simulación de 45 bits en el Instituto Federal Suizo de Tecnología de Zúrich, que necesitaba 500 terabytes de memoria. La nueva simulación de IBM eleva la suposición al simular 56 qubits con sólo 4,5 terabytes.
La simulación se basa en un truco matemático que permite una representación numérica más compacta de los diferentes arreglos de qubits, conocidos como estados cuánticos.
Una operación de computación cuántica es típicamente representada por una tabla de números que indica lo que se debe hacer a cada cubit para producir un nuevo estado cuántico. En su lugar, los investigadores del Centro de Investigación T. J. Watson de IBM en Yorktown Heights, Nueva York, utilizaron tensores – tablas efectivamente multidimensionales aumentadas con ejes más allá de filas y columnas.
Gracias a los ejes adicionales, se puede introducir mucha más información en unos cuantos tensores, siempre y cuando sepamos escribirla en el lenguaje de los tensores. Los investigadores encontraron una forma de hacer precisamente eso para las operaciones de computación cuántica.
Vergonzosamente paralelos
Al escribir las operaciones en forma tensorial, también descubrieron una manera de dividir la tarea de simulación en lo que ellos llaman trozos «vergonzosamente paralelos», lo que les permitió usar los muchos procesadores de un supercomputador simultáneamente. Esto les ganó el último bit de eficiencia necesario para simular una computadora cuántica de 56 bits.
IBM se ha pasado de la raya «, dice Itay Hen de la Universidad del Sur de California. «Será mucho más difícil para la gente de dispositivos cuánticos exhibir supremacía.»
IBM tiene ahora un ordenador cuántico funcional de 56 bits que vive en su supercomputadora. Pero mientras que eso es una mejora con respecto al récord anterior, Andrew Childs en la Universidad de Maryland dice que no es un gran salto hacia adelante. No creo que estén afirmando que esto vaya a darles una simulación eficiente de sistemas cuánticos en un ordenador clásico «, dice.
Aun así, han subido la apuesta en la carrera por superar a los ordenadores clásicos con sistemas cuánticos. Google dijo anteriormente que estaban en camino de construir un procesador de 49 bits a finales de 2017, pero eso ya no les permitirá alcanzar la supremacía cuántica.
De hecho, Bob Wisnieff, el investigador principal del estudio de IBM, dice que su simulación actual funciona cerca de «mil millones de veces más lento» que las estimaciones teóricas para una computadora cuántica real de 56 cubits.
El equipo de Wisnieff planea experimentar con supercomputadoras cuyos procesadores pueden comunicarse eficazmente entre sí. Esperan poder exprimir unos cuantos más de estos canales de comunicación, lo que ayuda a acelerar el cálculo paralelo necesario para la simulación.
El objetivo de IBM es construir una computadora cuántica que pueda «explorar problemas prácticos» como la química cuántica, dice Wisnieff. Espera comprobar la precisión de las computadoras cuánticas frente a sus simulaciones antes de poner a prueba las computadoras cuánticas reales.
«Quiero ser capaz de escribir algoritmos para los que conozco las respuestas antes de ejecutarlos en una computadora cuántica real «, dice.
Referencia: arxiv.org/abs/1710.05867
Intel anunció la entrega de un chip de prueba superconductor de 17 qubits para computación cuántica a QuTech, el socio de investigación cuántica de Intel en los Países Bajos. El nuevo chip fue fabricado por Intel y cuenta con un diseño único para mejorar el rendimiento y las prestaciones.
La entrega de este chip demuestra el rápido progreso que Intel y QuTech están haciendo en la investigación y el desarrollo de un sistema de computación cuántica en funcionamiento. También subraya la importancia de la ciencia de los materiales y la fabricación de semiconductores para hacer realidad la promesa de la informática cuántica.
La computación cuántica, en esencia, es lo último en computación paralela, con el potencial de abordar problemas que los ordenadores convencionales no pueden manejar. Por ejemplo, los ordenadores cuánticos pueden simular la naturaleza para avanzar en investigación química, ciencia de los materiales y modelado molecular, como ayudar a crear un nuevo catalizador para capturar dióxido de carbono, un superconductor a temperatura ambiente o descubrir nuevos fármacos.
Sin embargo, a pesar de los grandes avances experimentales y la especulación, existen desafíos inherentes a la construcción de sistemas cuánticos viables y a gran escala que produzcan resultados precisos. Uno de esos obstáculos es la uniformidad y estabilidad de los qubits (los bloques básicos de la computación cuántica).
Los Qubits son tremendamente frágiles, y cualquier ruido u observación involuntaria de ellos puede causar pérdida de datos. Esta fragilidad requiere que operen a una temperatura de alrededor de 20 millikelvin, 250 veces más fría que el espacio profundo, y este entorno operativo extremo hace que el empaquetado de qubits sea clave para su rendimiento y función. El Grupo de Investigación de Componentes (CR) de Intel en Oregon y los equipos de Pruebas de Ensamblaje y Desarrollo de Tecnología (ATTD) en Arizona están sobrepasando los límites del diseño de chips y la tecnología de empaque para abordar los desafíos únicos de la computación cuántica.
Aproximadamente del tamaño de un cuarto (en un envase del tamaño de una moneda de medio dólar), las características de diseño mejoradas del nuevo chip de prueba de 17 bits incluyen:
– Nueva arquitectura que permite mejorar la fiabilidad, el rendimiento térmico y reducir la interferencia de radiofrecuencia (RF) entre los qubits.
– Esquema de interconexión escalable que permite 10-100 veces más señales de entrada y salida del chip en comparación con los chips conectados por cable.
– Procesos, materiales y diseños avanzados que permiten a los dispositivos de empaquetado de Intel escalar para circuitos cuánticos integrados, que son mucho más grandes que los chips de silicio convencionales.
«Nuestra investigación cuántica ha progresado hasta el punto de que nuestro socio QuTech está simulando cargas de trabajo de algoritmos cuánticos, e Intel está fabricando nuevos chips de prueba de qubit con regularidad en nuestras modernas instalaciones de fabricación», afirmó el Dr. Michael Mayberry, vicepresidente corporativo y director general de Intel Labs. «La experiencia de Intel en fabricación, electrónica de control y arquitectura nos distingue y nos servirá de la mejor manera a medida que nos adentramos en nuevos paradigmas de computación, desde la informática neuromórfica a la cuántica».
La relación de colaboración de Intel con QuTech para acelerar los avances en computación cuántica comenzó en 2015. Desde entonces, la colaboración ha logrado muchos hitos: desde demostrar los bloques de circuitos clave para un sistema de control criogénico-CMOS integrado, hasta desarrollar un flujo de fabricación de qubit spin en la tecnología de proceso de 300 mm de Intel, y desarrollar esta solución de empaque única para los qubits superconductores. A través de esta asociación, el tiempo desde el diseño y la fabricación hasta la prueba se ha acelerado enormemente.
Con este chip de prueba, nos centraremos en conectar, controlar y medir múltiples y entrelazadas salidas hacia un esquema de corrección de errores y un qubit lógico «, del profesor Leo DiCarlo de QuTech. «Este trabajo nos permitirá descubrir nuevos conocimientos en computación cuántica que darán forma a la próxima etapa de desarrollo».
Avance del sistema de computación cuántica
El trabajo de Intel y QuTech en computación cuántica va mucho más allá del desarrollo y prueba de dispositivos de qubit superconductores. La colaboración abarca todo el sistema cuántico -o «pila» – desde los dispositivos de qubit hasta la arquitectura de hardware y software necesaria para controlar estos dispositivos, así como las aplicaciones cuánticas. Todos estos elementos son esenciales para que la computación cuántica avance de la investigación a la realidad.
Además, a diferencia de otros, Intel está investigando varios tipos de qubit. Estos incluyen los qubits superconductores incorporados en este nuevo chip de prueba, y un tipo alternativo llamado spin qubits en silicio. Estos espín qubits se asemejan a un transistor de un solo electrón similar en muchos aspectos a los transistores convencionales y potencialmente capaz de ser fabricado con procesos comparables.
Mientras que las computadoras cuánticas prometen mayor eficiencia y rendimiento para manejar ciertos problemas, no reemplazarán la necesidad de computación convencional u otras tecnologías emergentes como la computación neuromórfica. Y necesitaremos los avances técnicos que la ley de Moore ofrece para inventar y ampliar estas tecnologías emergentes.
Intel está invirtiendo no sólo para inventar nuevas formas de computación, sino también para avanzar en la fundamentación de la Ley de Moore, que hace posible este futuro.
Ampliar en: nextBIG FUTURE
Fujitsu ha anunciado el desarrollo del primer dispositivo de traducción de voz portátil y manos libres del mundo, adecuado para tareas en las que las manos de los usuarios están a menudo ocupadas, como en diagnósticos o tratamientos sanitarios.
En los últimos años, con el aumento del número de visitantes a Japón, cada vez más pacientes no japoneses acuden a los hospitales, lo que genera problemas de comunicación en varios idiomas. En 2016, los Laboratorios Fujitsu desarrollaron la tecnología de manos libres que reconoce las voces de las personas y la ubicación de los hablantes, y que cambia automáticamente al lenguaje apropiado sin manipulación física del dispositivo. Ese mismo año, también colaboró con el Hospital de la Universidad de Tokio y el Instituto Nacional de Tecnología de la Información y las Comunicaciones (NICT) para llevar a cabo una prueba de campo de traducción multilingüe del habla en el ámbito médico utilizando tabletas estacionarias.
Basándose en los resultados, en Fujitsu Laboratories aprendieron que, como hay muchas situaciones en las que los proveedores de atención médica tienen las manos ocupadas, como cuando proporcionan atención en una sala de hospital, había una gran necesidad de un dispositivo de traducción de voz portátil que se pudiera utilizarse sin ser tocado físicamente.
Con el fin de ampliar la utilidad de la traducción multilingüe de voz, Fujitsu ha desarrollado el primer dispositivo de traducción de voz compacto, portátil y manos libres del mundo, desarrollando tecnología para diferenciar los altavoces que utilizan pequeños micrófonos omnidireccionales. Esto es posible gracias a una ingeniosa modificación de la forma del canal de sonido y a la mejora de la precisión de la tecnología de detección de voz, altamente resistente al ruido de fondo. Se espera que el uso de este dispositivo reduzca la carga sobre los proveedores de atención médica, cuyas manos a menudo se ven restringidas por otras tareas.
Fujitsu evaluará la eficacia de estos dispositivos de traducción recientemente desarrollados en situaciones sanitarias como parte de un ensayo clínico multilingüe de traducción del habla que se está llevando a cabo conjuntamente con Fujitsu Limited, el Hospital de la Universidad de Tokio y NICT, con los nuevos dispositivos desplegados en noviembre de 2017.
El qubit es la unidad básica de computación cuántica. Así que a los desarrolladores de hardware cuántico obviamente les gusta presumir de cuántos tienen. Aunque algunos afirman tener miles en sus dispositivos, hay un sentimiento muy real de que nadie ha construido ni siquiera uno solo.
Hay un par de cosas diferentes para las que usamos el nombre del qubit. Uno es un qubit físico. La parte física se refiere al hecho de que estos son objetos reales de la vida real. La parte de bits nos dice que estos objetos deberían tener dos posibles estados. Y lo que es para el cuántico, ya que necesitamos manipular los estados de una manera cuántica mecánica.
Cualquier qubit que merezca el nombre también debe tener un ruido extremadamente bajo. La forma en que los manipulamos e interactuamos debería ser casi perfecta. Como un logro de la física experimental, deben estar en la cúspide: Una maravilla de la ciencia y la ingeniería. Aun así, no son suficientemente buenos. Para las ordenadores cuánticos, casi perfecto es casi inútil.
Esto no es más de lo que esperamos de los ordenadores normales. Hay millones de píxeles en tu pantalla, pero te darías cuenta si sólo uno estuviera haciendo algo al azar. Lo mismo es cierto para todos los millones de bits que nadan alrededor en sus programas. Sólo se necesita un valor de conmutación de unos pocos porque están aburridos para que todo se convierta en un sinsentido.
Cuando programamos, a menudo olvidamos que los bits de nuestro ordenador tienen una forma corpórea real. Pensamos en ellos como un concepto abstracto, puro e incorruptible. De lo contrario, el desarrollo de software sería una actividad muy diferente. Los programas cuánticos están diseñados con el mismo grado de perfección en mente. Para ejecutarlos, necesitamos renuncias lógicas: encarnaciones de la idea misma de la información cuántica.
Construir qubits lógicos requiere que domemos la naturaleza de sus primos físicos. Necesitamos corrección de errores cuánticos. Muchas de las partes físicas son reunidas y conducidas a ser más grandes que la suma de sus partes. Cuanto más qubits físicos usemos, mejor será el efecto. El ruido disminuye exponencialmente, hasta que podemos estar seguros de que no ocurrirá ni un solo error durante el cálculo.
Esto no está exento de costes. No debemos pensar en gastar unos pocos cientos de qubits físicos para construir uno solo lógico. Pero si esto significa alcanzar la promesa completa de computación cuántica, valdrá la pena.
El diseño más popular para la corrección de errores cuánticos es el código de superficie. Para el código de superficie más pequeño, se necesitan 17 qubits físicos. Éstos construirían un qubit lógico, pero no con la suficiente complejidad como para hacer algo con él.
Todavía no se ha logrado nada parecido. Para ver por qué, echemos un vistazo a lo que se necesitaría.
Esto es un código de superficie. Los 17 puntos, tanto blancos como negros, son los qubits físicos. Las 24 líneas coloreadas representan un cierto tipo de operación cuántica, la controlada-NO. Para cada par de salidas conectadas, esta operación debería ser posible realizarla de forma limpia y directa.
El principal desafío es conectar todos estos controles-NO. Tener 17 qubits en nuestro procesador cuántico no es suficiente. También necesitamos el conjunto de instrucciones para soportar esta red específica de procesos.
Tener un montón de qubits físicos en una línea son noticias viejas, dos líneas al lado de la otra también es factible. Pero la red 2D de conexiones necesarias para el código de superficie es mucho más difícil.
Aun así, Google promete esto y mucho más para finales de año. Prometieron una red de 7×7 de 49 qubits físicos. Esto sería un gran paso adelante en comparación con otros dispositivos, como la celosía IBM 2×8 de 16 qubits físicos.
El dispositivo IBM tiene suficiente conectividad para hacer un bit lógico a partir de qubits físicos. En los próximos meses harán cosas mucho más geniales, como es de esperar del dispositivo a la vanguardia de su campo. Pero hacer un qubit lógico no será uno de sus logros.
El hecho de que los 49 qubits de Google serán tan revolucionarios hace difícil creer que lo veremos antes de que acabe el año. Los hitos más realistas para este año son un dispositivo de 17 qubit de IBM, y uno de 20 qubit de Google. Ambos tienen suficientes qubits para empezar con el código de superficie. Pero, ¿tienen el diseño correcto? Sólo el tiempo lo dirá.
Quizá no tengamos que esperar mucho tiempo. John Martinis, el encargado de construir los dispositivos cuánticos de Google, dará una charla la próxima semana. El título…
Escalado de errores lógicos de medición con el código de superficie
Los códigos de superficie están en el radar de los gigantes tecnológicos. El primer qubit lógico del mundo se acerca. ¿Ya lo ha gestionado el dispositivo de 20 qubit de Google?
Ampliar en: HACKERMOON
El frigorífico de Panasonic cuenta con una app para smartphone que le permite recibir las órdenes del usuario, tales como “ven al salón” para que acerque tu vaso de agua, por ejemplo, y no te pierdas ni un segundo de ver una película, o “ven a mi habitación” para que te lleve el desayuno sin que tengas que levantarte.
En IFA demostraron su funcionamiento, el cual se basa en radares LIDAR para detectar y evitar los obstáculos en su camino.
Robots Atentos
Actualmente, las tecnologías de inteligencia artificial (IA) son capaces de exhibir rasgos aparentemente humanos. Algunos son intencionalmente humanoides, y otros realizan tareas que normalmente asociamos estrictamente con la humanidad – la composición de canciones, la enseñanza y el arte visual.
Pero a medida que el campo avanza, las empresas y los desarrolladores están replanteándose la base de la inteligencia artificial examinando nuestra propia inteligencia y cómo podríamos imitarla eficazmente utilizando maquinaria y software. IBM es una de estas compañías, ya que se han embarcado en la ambiciosa búsqueda de enseñar a AI a actuar más como el cerebro humano.
Muchos de los sistemas de aprendizaje de máquinas existentes se construyen en torno a la necesidad de extraer datos de conjuntos de datos. Ya sea que estén resolviendo problemas para ganar un juego de Go o identificando el cáncer de piel a partir de imágenes, esto a menudo sigue siendo cierto. Sin embargo, esta base es limitada y se diferencia del cerebro humano.
Nosotros, como humanos, aprendemos progresivamente. En pocas palabras, aprendemos sobre la marcha. Mientras que adquirimos el conocimiento para extraer a medida que avanzamos, nuestros cerebros se adaptan y absorben la información de manera diferente a como se construyen muchos sistemas artificiales existentes. Además, somos lógicos. Usamos las habilidades de razonamiento y la lógica para resolver problemas, algo que estos sistemas todavía no son fabulosos para lograr.
IBM está buscando cambiar esto. Un equipo de investigación en DeepMind ha creado una red neuronal sintética que supuestamente usa razonamiento racional para completar tareas.
Maquinaria Racional
Al dar a la IA múltiples objetos y una tarea específica,»estamos obligando explícitamente a la red a descubrir las relaciones que existen», dice Timothy Lillicrap, un informático de DeepMind en una entrevista con Science Magazine. En una prueba de la red realizada en junio pasado, se cuestionó sobre una imagen con múltiples objetos. A la red se le preguntó, por ejemplo:»Hay un objeto delante de la cosa azul; ¿tiene la misma forma que la pequeña cosa cian que está a la derecha de la bola de metal gris?»
En esta prueba, la red identificó correctamente el objeto un asombroso 96 por ciento de las veces, en comparación con el insignificante 42 a 77 por ciento que los modelos de aprendizaje de máquinas más tradicionales lograron. La red avanzada era también apta para los problemas de palabra y continúa siendo desarrollada y mejorada. Además de las habilidades de razonamiento, los investigadores están avanzando en la capacidad de la red para prestar atención e incluso crear y almacenar recuerdos.
El futuro del desarrollo de la IA podría acelerarse y expandirse enormemente mediante el uso de este tipo de tácticas, según Irina Rish, miembro del personal de investigación de IBM, en una entrevista con Engadget,»El aprendizaje en redes neuronales es típicamente diseñado y cuesta mucho trabajo crear una arquitectura específica que funcione mejor. Es más o menos un enfoque de ensayo y error… Sería bueno que esas redes se construyeran solas.»
Puede ser atemorizante pensar en la construcción y mejora de las redes de inteligencia artificial, pero si se monitorean, inician y controlan correctamente, esto podría permitir que el campo se expanda más allá de las limitaciones actuales. A pesar de los temores de una toma de control robótica, el avance de las tecnologías de IA podría salvar vidas en el campo médico, permitir a los humanos llegar a Marte, y mucho más.
Ampliar en: futurism
Los gigantes tecnológicos Google, Microsoft y Facebook están aplicando las lecciones de aprendizaje automático (machine learning) a la traducción, pero una pequeña empresa llamada DeepL las ha superado a todas y ha elevado el listón en este campo. Su herramienta de traducción es tan rápida como la competencia, pero más precisa y matizada que cualquiera de las que se conocen.
Mientras que Google Translate a menudo busca una traducción muy literal que no tiene en cuenta algunos matices y expresiones idiomáticas (o que la traducción de estas expresiones idiomáticas es un error), DeepL a menudo proporciona una traducción más natural que se acerca más a la de un traductor capacitado.
Algunas pruebas de mi propia experiencia con alguna literatura francesa que conozco lo suficientemente bien como para juzgar que DeepL gana habitualmente. Menos errores de tensión, intención y concordancia, además de una mejor comprensión y despliegue del lenguaje hacen que la traducción sea mucho más legible. Nosotros pensamos que sí, y también los traductores en las pruebas ciegas de DeepL.
Si bien es cierto que el significado puede transmitirse con éxito a pesar de los errores, como lo demuestra la utilidad que todos hemos encontrado en las traducciones automáticas más pobres, está lejos de garantizar que cualquier traducción valga.
Linguee evolucionado
DeepL nació de Linguee, una herramienta de traducción que existe desde hace años y, aunque popular, nunca llegó a alcanzar el nivel de Google Translate, esta última tiene una enorme ventaja en marca y posición. El cofundador de Linguee, Gereon Frahling, solía trabajar para Google Research, pero en 2007 abandonó la empresa para dedicarse a esta nueva empresa.
El equipo ha estado trabajando con el aprendizaje automático durante años, para tareas adyacentes a la traducción principal, pero fue sólo el año pasado que comenzaron a trabajar en serio en un sistema y una empresa completamente nuevos, que llevarían el nombre de DeepL.
Frahling dijo que había llegado el momento:»Hemos construido una red de traducción neuronal que incorpora la mayoría de los últimos desarrollos, a los que hemos añadido nuestras propias ideas».
Una enorme base de datos de más de mil millones de traducciones y consultas, además de un método de traducción mediante la búsqueda de fragmentos similares en la web, sirvió para una base sólida en el entrenamiento del nuevo modelo. También armaron lo que dicen que es el 23º superordenador más poderoso del mundo, convenientemente ubicado en Islandia.
Los desarrollos publicados por universidades, agencias de investigación y competidores de Lingueee demostraron que las redes neuronales convolucionales eran el camino a seguir, en lugar de las redes neuronales recurrentes que la empresa había estado utilizando anteriormente. Este no es realmente el lugar para entrar en las diferencias entre las CNNs y las RNNs, por lo que debe ser suficiente decir que para una traducción precisa de largas y complejas cadenas de palabras relacionadas, la primera es una mejor opción siempre y cuando se pueda controlar sus debilidades.
Por ejemplo, de una CNN podría se puede decir que aborda una palabra de la oración a la vez. Esto se convierte en un problema cuando, por ejemplo, como sucede comúnmente, una palabra al final de la oración determina cómo debe formarse una palabra al principio de la oración. Es un desperdicio repasar toda la oración sólo para encontrar que la primera palabra que la red escogida está equivocada, y luego empezar de nuevo con ese conocimiento, así que DeepL y otros en el campo de aprendizaje automático aplican «mecanismos de atención» que monitorean esos posibles tropiezos y los resuelven antes de que la CNN pase a la siguiente palabra o frase.
Hay otras técnicas secretas en juego, por supuesto, y su resultado es una herramienta de traducción que personalmente usaré por fefecto. Espero con impaciencia ver a los demás mejorar su juego.
El aprendizaje automático ha resultado ser una herramienta muy útil para la traducción, pero tiene algunos puntos débiles. La tendencia de los modelos de traducción a hacer su trabajo palabra por palabra es una de ellas, y puede llevar a errores graves. Google detalla la naturaleza de este problema, y su solución, en un interesante post en su blog de Investigación.
El problema se explica bien por Jakob Uszkoreit, del departamento de procesamiento del lenguaje natural de la empresa. Considere las dos oraciones siguientes:
Llegué al banco después de cruzar la calle.
Llegué al banco después de cruzar el río.
Obviamente,»banco» significa algo diferente en cada oración, pero un algoritmo que mastica su camino podría fácilmente escoger el equivocado, ya que no sabe qué «banco» es el correcto hasta que llega al final de la oración. Esta clase de ambigüedad está en todas partes una vez que empiezas a buscarla.
Yo, yo sólo reescribiría la oración (Strunk and White advirtió sobre esto), pero por supuesto que no es una opción para un sistema de traducción. Y sería muy ineficaz modificar las redes neuronales para traducir básicamente toda la oración y ver si está pasando algo raro, y luego intentarlo de nuevo si lo hay.
La solución de Google es lo que se llama un mecanismo de atención, integrado en un sistema que llama Transformer. Compara cada palabra con cada palabra de la oración para ver si alguna de ellas afectará la una a la otra de alguna manera clave – para ver si «él» o «ella» está hablando, por ejemplo, o si una palabra como «banco» significa algo en particular.
Cuando la oración traducida está siendo construida, el mecanismo de atención compara cada palabra como se agrega a cada otra. Este gif ilustra todo el proceso. Bueno, más o menos.
Una empresa de traducción competidora de Google, DeepL, también utiliza un mecanismo de atención. Su co-fundador citó este problema como uno en el que también habían trabajado duro, e incluso mencionó queestá basado en el artículo de Google (atención es todo lo que necesitas), aunque obviamente hicieron su propia versión. Y una muy efectiva, quizás incluso mejor que la de Google.
Un efecto secundario interesante del enfoque de Google es que da una ventana a la lógica del sistema: porque Transformer le da a cada palabra una puntuación en relación con cada otra palabra, se puede ver qué palabras «piensa» que están relacionadas, o potencialmente relacionadas:
Este es otro tipo de ambigüedad, donde «él» podría referirse a la calle o al animal, y sólo la última palabra lo delata. Lo resolveríamos automáticamente, pero las máquinas deben ser enseñadas.