Los últimos avances en inteligencia artificial (IA), permiten a las máquinas y computadoras ‘ver’ e interpretar datos visuales complejos al instante, más allá del mero reconocimiento básico de objetos, abriendo el camino para que sean capaces de comprender el contexto de una escena, interpretar las acciones humanas e incluso predecir eventos futuros dentro de un video.
México.- La inteligencia artificial (IA) sigue dando forma de manera creciente a distintas facetas de nuestra vida cotidiana, desde el momento en que nos despertamos hasta que nos vamos a dormir, estando presente en una amplia gama de campos, desde los dispositivos personales hasta los medios de transporte.
La investigadora Cordelia Schmid, de Alemania, ha desarrollado una innovación que dará un potente impulso a la presencia e intervención de la IA en nuestro día a día al “enseñar a los ordenadores a ‘ver’ y ‘entender’ datos visuales complejos en tiempo real por medio de una tecnología denominada aprendizaje automático” (‘machine learning’ o ML, en inglés).
El ML permite que un sistema informático o equipo electrónico aprendan y mejoren de forma autónoma, sin necesidad de una programación explícita ni instrucciones directas, a través del análisis de grandes cantidades de datos, mejorando y ajustando continuamente su aprendizaje y resultados a medida que acumulan más "experiencia" y reciben más datos.
Su trabajo, que en 2024 ganó el Premio al Inventor Europeo, en la categoría ‘Investigación’ que concede la Oficina Europea de Patentes (EPO), aprovecha el ML para mejorar la percepción visual de las máquinas, y ya se está utilizando en vehículos autónomos, diagnósticos sanitarios y robótica interactiva.
Las tecnologías audiovisuales desarrolladas por Schmid y su equipo y que llevan las patentes EP3549102 y EP3547211, “prometen revolucionar la interacción humana con la tecnología en una variedad de sectores comerciales y de investigación”, según la EPO .
Transformar la percepción de las máquinas
Schmid es directora de investigación en Inria (https://inria.fr/fr), el instituto nacional francés de investigación en ciencias y tecnologías digitales, y trabaja a tiempo parcial en Google Research, en proyectos innovadores, que fusionan las teorías académicas con la práctica industrial.
Su enfoque para el aprendizaje automático y la visión artificial ha conducido al desarrollo de algoritmos que dotan a la IA de la capacidad de "ver", al interpretar grandes cantidades de datos visuales, de audio y de texto de forma instantánea, según la EPO.
"Un algoritmo es una secuencia de instrucciones que se le dan a una máquina y que se ejecutan en orden o con ciertas condiciones", explica Schmid.
Los algoritmos de Schmid mejoran los motores de búsqueda de imágenes y videos, y los sistemas de monitoreo en internet, y gracias al aprendizaje automático, refinan continuamente su precisión y adaptabilidad al aprender de nuevos datos, lo que garantiza que las capacidades de la IA evolucionen y sigan siendo efectivas en diversas aplicaciones, según explica.
Esto va más allá del reconocimiento básico de objetos y se encamina hacia una mayor sofisticación de la visión artificial de un máquina, al permitirle determinar estructuras y movimientos en imágenes; comprender el contexto de escenas visuales, interpretar y clasificar las acciones humanas dentro de un video e incluso predecir eventos dentro de un contenido audiovisual.
Enseñar a las computadoras a ‘ver’ como las personas
Con la ayuda del aprendizaje automático, que integra vastos conjuntos de datos visuales, de audio y de texto, y de algoritmos sofisticados, la IA desarrollada por Schmid aprende a procesar información visual de manera similar a los humanos, y permite a las computadoras ver y analizar imágenes y videos con un nivel de comprensión cercano al de una persona.
“Esto le permite reconocer y categorizar objetos en imágenes y videos con mayor precisión e inteligencia que nunca”, según la EPO.
El enfoque de Schmid contempla que los datos visuales, de audio y texto sea procesados y analizados al instante, lo que es esencial para aplicaciones que requieren una respuesta inmediata, como los vehículos autónomos y la robótica interactiva.
Dado que los modelos de aprendizaje automático utilizados en esta tecnología, se mejoran a sí mismos e incorporan constantemente nuevos datos, la IA tiene la capacidad adicional de mejorar continuamente su precisión y eficacia.
Para llevar este enfoque a la práctica será necesario crear nuevos sistemas que puedan procesar y analizar grandes volúmenes de distintos tipos de datos simultáneamente, puntualizan.
Aplicaciones de la visión artificial e inteligente
Esta investigación podría orientar a la IA para que interactúe con los humanos con más matices y sofisticación que hasta ahora, por ejemplo, posibilitando que los robots de atención sanitaria brinden una asistencia eficiente a las personas mayores, monitoricen pacientes y detecten sus caídas, según Schmid.
La capacidad visual mejorada de la IA también podría desempeñar un papel en el desarrollo de la movilidad autónoma (vehículos equipados con sistemas informáticos, inteligentes y conectados que pueden efectuar las funciones de conducción sin que intervenga un ser humano) y de la vigilancia ambiental (en la detección de cambios relacionados con el clima), concluye.
Esta tecnología también posibilitara que una máquina, robot o computadora equipadas con este tipo de IA, reconozca acciones específicas, como buscar a una persona comiendo, jugando o nadando, a partir de una base de datos de fotos o vídeos.
Pionera de la visión por computadora
Cordelia Schmid es considerada como una de las pioneras de la visión por computadora y lleva 25 años trabajando en los campos de la visión artificial, el reconocimiento de objetos, la percepción e interpretación multimedia y la robótica guiada por visión.
Señala que su objetivo consiste en elevar la percepción de las máquinas a un nivel en el que la IA nos haga la vida más fácil, ampliando los límites de cómo la IA interpreta nuestro mundo.
En 2023 recibió el selecto Premio Europeo de Ciencia Körber. se concede cada año a un solo científico europeo, según el Inria.
Actualmente dirige el equipo del proyecto conjunto Willow (ENS-PSL, CNRS, Inria) que se centra en el reconocimiento de objetos y acciones en vídeos, con un enfoque multimedia.
En términos prácticos, espera crear programas capaces de utilizar un texto de descripción de vídeo, o simplemente su audio, para aprender a reconocer los objetos del vídeo de forma autónoma.
En el campo de la robótica, su objetivo es utilizar los datos generados en las interacciones del robot con su entorno, como datos de aprendizaje adicionales para mejorar el reconocimiento de objetos y el movimiento del propio robot, según Inria.