Un grupo de docentes-investigadores de la Facultad de Cs. Exactas e Ingeniería, Universidad Nacional de Rosario, recibieron el "Technicolor Best Student Paper Award " en la International Conference on Multimedia & Expo 2011.
Por Claudio Pairoba
Por Claudio Pairoba
Organizado por el Institute of Electrical and Electronics Engineers el evento reúne a especialistas de todo el mundo.
La Conferencia Internacional tuvo lugar en Barcelona, España entre el 11 y el 15 de Julio del 2011.
Dos integrantes del grupo de trabajo, los Dres. Lucas Terissi y Juan Carlos Gomez nos cuentan sobre distintos aspectos relacionados con el trabajo ganador.
¿Sobre qué trata el artículo?
En el trabajo se describe un sistema de animación de los movimientos del rostro de un modelo 3D de cabeza (avatar), comandado por la señal acústica durante el habla. El sistema se basa en un modelo audio-visual probabilístico entrenado a partir de video de una o más personas hablando. En esta etapa de entrenamiento el modelo aprende la correlación existente entre el movimiento de los labios y la señal de voz durante el habla. El modelo luego se utiliza para estimar la información visual (movimiento de labios, etc) a partir de una nueva señal de voz. La información visual estimada se utiliza para animar un modelo simple del rostro (malla triangular con reducido número de vértices), que a su vez se utiliza para animar un modelo complejo (gran número de vértices), mapeando automáticamente la deformación del modelo simple en la del modelo complejo. El sistema propuesto permite la animación de modelos de cabezas 3D de arbitraria complejidad, mediante un simple procedimiento de ajuste inicial. La calidad de la animación resultante es evaluada en términos de inteligibilidad audio-visual de habla, a través de ensayos subjetivos sobre un grupo de personas, mostrando muy buenos resultados.
¿Cómo nace la idea de trabajar en este tema?
Son cada vez más difundidas las aplicaciones que incluyen interfaces de comunicación entre humanos y distintos dispositivos. Un objetivo a largo plazo en el área de investigación en comunicación humano-computadora ha sido que la misma se asemeje a la comunicación entre humanos, que es de naturaleza multimodal. Para la inteligibilidad del mensaje a transmitir no sólo es importante la señal acústica durante el habla sino también la información visual del movimiento de labios y otros músculos faciales y de gestos durante el habla.
¿Cuáles son sus posibles aplicaciones?
Las técnicas propuestas en el artículo pueden ser utilizadas en aplicaciones tales como:
i. Videojuegos y películas animadas. En general las animaciones se realizan de manera manual lo cual consume tiempo y recursos considerables. Mediante la técnica propuesta, se puede realizar una animación inicial de los personajes de manera automática a partir de la señal de voz, que luego puede ser refinada de manera manual. Esto disminuiría considerablemente el tiempo de realización de la animación.
ii. Telefonía multimedia para personas con discapacidades auditivas. Las personas con dificultades auditivas utilizan principalmente la lectura de labios para comunicarse con otras personas, por ello podría utilizarse la información acústica transmitida por teléfono para animar, de manera realista, los labios de un modelo virtual posibilitando así la comprensión del mensaje mediante lectura de labios por parte de la persona con discapacidad auditiva.
iii. Comandos Audio-visuales. Es posible utilizar la computadora a través de comandos audio-visuales, ya sea mediante la voz como por medio de expresiones faciales de una persona real. De esta forma, las personas discapacitadas que no puedan utilizar un teclado o un mouse, podrían controlar cualquier aplicación a través de un conjunto de comandos audiovisuales.
iv. Asistencia en tratamientos clínicos. Tratamiento y rehabilitación de personas con desórdenes de dicción mediante el empleo de avatars del paciente hablando correctamente. Tratamiento de niños con problemas de autismo (Autism Spectrum Disorder) mediante el uso de avatars interactivos.
¿Cómo está integrado el grupo de investigación, cuáles son sus temas de investigación principales y cuánto hace que trabajan específicamente en el tema publicado?
El grupo de investigación está formado por:
• Dr. Juan Carlos Gómez (Director, Profesor titular FCEIA, UNR)
• Dr. Lucas Daniel Terissi (Becario Postdoctoral CONICET, Docente FCEIA, UNR)
• Ing. Franco Del Colle (Becarios Doctoral CONICET, Docente FCEIA, UNR)
• Ing. Marianela Parodi (Becaria Doctoral ANPCyT, Docente FCEIA, UNR)
• Lic. Rodrigo Baravalle (Becario Doctoral CONICET)
• Lic. Pablo Speciale (Becario Investigación FCEIA, UNR)
• Ing. Gonzalo Sad (Becario Doctoral CONICET)
El grupo de trabajo tiene una doble afiliación, ya que pertenecen al Laboratorio de Sistemas Dinámicos y Procesamiento de la Información (perteneciente a la Faculta de Cs. Exactas, Ingeniería y Agrimensura) así como al CIFASIS (Centro Franco Argentino de Ciencias de la Información y de Sistemas, dependiente del Consejo Nacional de Investigaciones Científicas y Técnicas).
Las principales líneas de investigación del grupo son:
i. Procesamiento Audio-visual de habla.
ii. Verificación Automática de Firmas Manuscritas.
iii. Watermarking Digital de Imágenes.
iv. Simulación y modelización de texturas de materiales en hardware gráfico para rendering foto-realístico.
v. Identificación de Sistemas no lineales.
En particular, en la línea de investigación en que se enmarca el artículo premiado (Procesamiento Audio-Visual de Habla), se viene trabajando desde el año 2006. El artículo presenta resultados de la tesis de Doctorado en Ingeniería del primer autor del trabajo. Dr. Lucas Terissi, bajo la dirección del Dr. Juan Carlos Gómez.