SNEO-20211360 Project
Sistema Conversacional Multimodal, multiplataforma, de ejecución local, con corrección de errores y resolución de referencias
Convocatoria del Programa Neotec 2021
Título del proyecto
Sistema Conversacional Multimodal, multiplataforma, de ejecución local, con corrección de errores y resolución de referencias
Presupuesto del proyecto
392.498 €
Aportación CDTI
325.000 €
Fecha de ejecución del proyecto
15/09/2021 – 31/12/2023
Resolución definitiva
El proyecto SNEO-20211360 surge con el objetivo de aplicar el estado del arte en la creación de un motor de diálogo multimodal de nueva generación
Subvencionado por el CDTI
Para ello, 4i desarrollará una tecnología caracterizada por ser:
- Conversacional: este término se suele emplear para referirse a los sistemas de diálogo que permiten el más alto grado de flexibilidad y naturalidad en la interacción. 4i desarrollará una tecnología a nivel del estado del arte a este respecto, diferenciándose en aspectos no resueltos por las soluciones actuales, fundamentalmente en gestión de errores (correction/repair) y resolución de correferencias y referencias anafóricas.
- Multimodal: son aquellos que permiten la comunicación persona-máquina a través de varias modalidades de interacción. La oferta actual de entornos de desarrollo está limitada al uso de modalidades hermanas (e.g., voz y texto) o unidireccionales (e.g., presentación de gráficos para salida visual, pero sin módulo de visión artificial para entrada). 4i desarrollará un sistema que supere esas limitaciones, incluyendo un módulo de fusión multimodal (i.e., combinación de entradas simultáneas por distintos canales de comunicación).
- Local: los principales proveedores de tecnología tienen el foco en soluciones en la nube. 4i desarrollará un entorno de desarrollo de soluciones conversacionales que permitirá, por defecto, el despliegue y ejecución en local en cualquier plataforma.
Para alcanzar este objetivo, existen tres áreas de desarrollo principales: voz (incluyendo reconocimiento, síntesis, tratamiento de audio, etc.), visión (incluyendo visión artificial, interfaz gráfico, etc.) y diálogo (incluyendo comprensión y generación de lenguaje natural, gestión de diálogo, fusión multimodal, etc.).