ESPADIN - Espacios de datos en la industria - ITCL
eficiencia energetica

ESPADIN – Espacios de datos en la industria

Descripción del Proyecto:

ESPADIN se define como el impulso tecnológico colaborativo dedicado a llevar la compartición y explotación del valor de los datos a la práctica industrial bajo el paradigma de los denominados espacios de datos compartidos. Para ello, ESPADIN trabajará en tres ejes principales: la calidad, la disponibilidad y la confiabilidad del dato. La investigación industrial en esos tres ejes proporcionará líneas de trabajo que propicien la confianza (trust) y la seguridad (security), fundamentales para el progreso del paradigma citado, en clave de solución de desafíos transversales y estratégicos de la industria española.

Problema que pretenden resolver:

ESPADIN trabajará en la confiabilidad del dato y los servicios basados en el dato creando mecanismos de enforcement criptográficos que permitan asegurar a los proveedores del dato la seguridad y control sobre sus datos, garantizando así la imposición de políticas de explotación del dato de acuerdo con la voluntad de quien los origine, lo que se conoce como soberanía del dato, en este contexto, al tiempo que se garantiza la ciberseguridad de los nuevos entornos industriales conectados.

Además, se crearán mecanismos tecnológicos que garanticen la integridad y procedencia de los datos, aumentando así su confiabilidad por parte de las partes explotadoras de dichos datos, así como mecanismos de seguridad que permitan proteger la propiedad intelectual de los algoritmos de IA utilizados por los proveedores de servicios sobre los datos confidenciales de los participantes, para propiciar nuevos servicios basados en el intercambio de datos y su explotación.

La investigación industrial de ESPADIN proporcionará nuevo conocimiento para que las empresas españolas puedan competir, y se adapten a las tecnologías de la nueva revolución industrial.

Objetivos de Resolución del Proyecto:

Los objetivos generales del proyecto están basados en los tres ejes de investigación planteados:

  • Calidad del dato: conseguir que se maneje información accesible, cierta y relevante para proceder a la toma de decisiones a nivel operativo segura y auditable, en el entorno industrial dado.
    • Analizar los enfoques actuales de calidad del dato para espacios de datos de iniciativas como Gaia-X e IDS, para determinar su adecuación a las necesidades de métricas de calidad en el preprocesamiento analítico de datos industriales de grandes volúmenes y diversas fuentes.
    • Investigar en tecnologías de preprocesamiento, como orquestadores ETL (Extract, Transform, Load), para establecer la mejor forma en que pueden incluir funcionalidades: en primer lugar, que implementen el computo de indicadores de calidad sobre los datos que están siendo preprocesados; y, en segundo lugar, que persistan estas métricas para que queden registradas como metadatos accesibles asociados al flujo de los datos, antes de su consumición por terceros.
    • Realizar una prueba de concepto de métrica de calidad conjunta entre dos empresas, validando el computo de la métrica a nivel interno de cada fuente (empresa industrial proveedora del dato), y el establecimiento y cómputo de la métrica de calidad coordinada entre las dos empresas involucradas, para su uso en posibles servicios de explotación analítica.
  • Disponibilidad del dato: una orientada a la explotación interna por parte de la propia organización industrial, y otra orientada a su interoperabilidad, o compartición, con terceros.
    • Profundizar en diferentes mecanismos de modelo de metadatos para el inventariado de distintas fuentes, y su consumo por múltiples actores con diferentes aproximaciones de compartición y monetización, como ocurre en el contexto de los espacios de datos compartidos.
    • Investigar en tecnologías de bróker o catalogación de datos, como puede ser el componente MetadataBroker de la arquitectura IDS, o la especificación de Gaia-X para federación de catálogos, con el objetivo de compatibilizar y conectar estas tecnologías con el “inventario” o “inventarios” que se construyan en la propuesta.
    • Construir un prototipo de catálogo/inventario de fuentes de datos, seguro e interoperable que gestione los activos de datos que se compartan a nivel del espacio industrial.
    • Análisis de nuevos paradigmas de computación distribuida de IA usando el esquema Edge Computing, centrándonos en la técnica Federated Machine Learning en su enfoque vertical, y examinando cómo afecta a la disponibilidad del dato, y cómo este enfoque de “compartir modelos no datos” se adapta, o se podría potenciar, en los espacios de datos industriales, ofreciendo un atractivo diferente a los suministradores de datos, para favorecer la compartición.
  • Confiabilidad del dato: creación de mecanismos de enforcement del dato que permitan asegurar a los proveedores la seguridad y control sobre sus datos, de forma que se garanticen, en todo momento, las políticas de explotación del dato pactadas.
    • Investigar en nuevas técnicas criptográficas avanzadas de preservación de la privacidad que logren garantizar la confidencialidad de los datos explotados, y de los algoritmos empleados para explotarlos. Identificando la técnica criptográfica más adecuada y el framework concreto, posibilitar su despliegue en entornos industriales.
    • Investigar en tecnologías basadas en DLTs, o Blockchain, para la compartición de datos segura, íntegra y transparente entre proveedor y explotador.
    • Realizar una prueba de concepto de explotación confiable de datos industriales, empleando y validando las técnicas y soluciones investigadas.

    Duración del Proyecto:

    Octubre 2022 – Diciembre 2024

    Proyecto nacional en cooperación con:

    ITCL Centro Tecnológico
    Retevision coordinador
    Gaiker

    Organismos públicos de investigación:

    ITCL Centro Tecnológico
    Gaiker

    ITCL realiza trabajos para Antolin aportando el conocimiento en arquitecturas en la nube e híbridas que permita la gestión de gran cantidad de datos en el entorno industrial con una capacidad de procesamiento en tiempo real que permita la toma de decisiones de forma rápida y ágil. Además, trabajará en las conexiones de red de las nubes propias, de la infraestructura heredada y las nubes públicas para que estén conectadas entre sí y garanticen que funcione la implementación de nube híbrida, evaluando la calidad. Investigará en los mecanismos necesarios para la gestión unificada de estas nubes.

    Financiado por:

    El proyecto ha sido financiado a través de la Convocatoria MISIONES del CDTI.

    plan de recuperación transformación y resiliencia
    Europa impulsa nuestro crecimiento
    plan de recuperación transformación y resiliencia

    Persona de contacto:

    Silvia González – Responsable del Área de Inteligencia Artificial