SNEO-20211360 Project

Sistema Conversacional Multimodal, multiplataforma, de ejecución local, con corrección de errores y resolución de referencias

Convocatoria del Programa Neotec 2021

Título del proyecto

Sistema Conversacional Multimodal, multiplataforma, de ejecución local, con corrección de errores y resolución de referencias

Presupuesto del proyecto

392.498 €

Aportación CDTI

325.000 €

Fecha de ejecución del proyecto

15/09/2021 – 31/12/2023

Resolución definitiva

El proyecto SNEO-20211360 surge con el objetivo de aplicar el estado del arte en la creación de un motor de diálogo multimodal de nueva generación

Subvencionado por el CDTI

Para ello, 4i desarrollará una tecnología caracterizada por ser:

  • Conversacional: este término se suele emplear para referirse a los sistemas de diálogo que permiten el más alto grado de flexibilidad y naturalidad en la interacción. 4i desarrollará una tecnología a nivel del estado del arte a este respecto, diferenciándose en aspectos no resueltos por las soluciones actuales, fundamentalmente en gestión de errores (correction/repair) y resolución de correferencias y referencias anafóricas.
  • Multimodal: son aquellos que permiten la comunicación persona-máquina a través de varias modalidades de interacción. La oferta actual de entornos de desarrollo está limitada al uso de modalidades hermanas (e.g., voz y texto) o unidireccionales (e.g., presentación de gráficos para salida visual, pero sin módulo de visión artificial para entrada). 4i desarrollará un sistema que supere esas limitaciones, incluyendo un módulo de fusión multimodal (i.e., combinación de entradas simultáneas por distintos canales de comunicación).
  • Local: los principales proveedores de tecnología tienen el foco en soluciones en la nube. 4i desarrollará un entorno de desarrollo de soluciones conversacionales que permitirá, por defecto, el despliegue y ejecución en local en cualquier plataforma.
Para alcanzar este objetivo, existen tres áreas de desarrollo principales: voz (incluyendo reconocimiento, síntesis, tratamiento de audio, etc.), visión (incluyendo visión artificial, interfaz gráfico, etc.) y diálogo (incluyendo comprensión y generación de lenguaje natural, gestión de diálogo, fusión multimodal, etc.).