ITCL examina la persistencia y la calidad de los datos para obtener mejores resultados - ITCL

ITCL Centro Tecnológico trabaja, dentro del proyecto CEL.IA de la Red de Centros de Excelencia Cervera Tecnológicos de referencia en Inteligencia Artificial aplicada, en el desarrollo de soluciones tecnológicas en realidad virtual, visión artificial y procesamiento del lenguaje natural (ToolKit CEL.IA) aplicado en varios ámbitos recogidos en la estrategia Nacional Española de I+D+I en IA. Dentro de estos ámbitos, ITCL ha desarrollado en los últimos meses varias líneas de trabajo centradas en la mejora del funcionamiento y de la seguridad de las bases de datos, y la mejora de calidad de los datos.

En concreto, los expertos de ITCL han trabajado en el estudio de tecnologías para la persistencia de los datos, tal y como explica su responsable, Ángel López, quien destaca el estudio que se ha desarrollado desde Burgos “de la persistencia mediante el uso de bases de datos, especialmente aquellas que son NoSQL”.

ESTUDIO DE LA PERSISTENCIA MEDIANTE BASES DE DATOS NOSQL
De este modo, se han definido las distintas clases de bases de datos NoSQL que existen, sus características y beneficios. Además, el trabajo ha permitido llevar a cabo un análisis de los frameworks de persistencia, los cuales facilitan la persistencia de la información en base de datos desde las aplicaciones.

Con todo, se han estudiado bases de datos como Apache Cassandra, MongoDB, Redis y frameworks como Hibernate ORM, Apache Cayenne. Una vez finalizado ese apartado, ITCL ha desarrollado un clúster de Cassandra en anillo compuesto de varios nodos. “De este modo, se ha conseguido mejorar la escalabilidad y disponibilidad del sistema, prestando especial importancia a la seguridad e implementando varios mecanismos de seguridad para desplegar un clúster seguro, con el objetivo de evitar accesos no autorizados a la información”, recalca López.

CALIDAD DEL DATO
De forma paralela, ITCL ha llevado a cabo un estudio de métricas para conocer la calidad del dato. Un proyecto que pone de relieve “cómo la medición resulta clave a la hora de valorar la calidad en las bases de datos y saber si el dato es bueno”.

Así lo explica Manuel González, de ITCL, quien ha trabajado en un pormenorizado análisis de la calidad de series temporales con un enfoque diferente basado en la descomposición de la misma. Así, se consigue medir la cantidad de ruido que tiene una serie temporal.

De este modo, desde ITCL, González ha desarrollado un método que es capaz de descomponer una serie temporal y categorizar su cantidad de ruido. Esta cantidad de ruido se mide como la varianza de la componente ruido tras la descomposición de la serie temporal en: pendiente, estacionalidad y ruido.

Así, se puede determinar que, a mayor cantidad de ruido, se obtiene menos información en esos datos y viceversa. El objetivo, poder obtener datos de la mayor calidad posible para que éstos puedan ser de gran ayuda en las bases de datos y en sus aplicaciones.