Troncoso, David. Aplicación de un proceso de calidad y normalización de datos sobre sistemas de declaraciones de juicios por delitos de lesa humanidad. Abril 2022

Título: “Aplicación de un proceso de calidad y normalización de datos sobre sistemas de declaraciones de juicios por delitos de lesa humanidad

Tesista: David Troncoso Shenker

Directora: Dra. Agustina Buccella

Fecha de la defensa: 11 de abril de 2022

Resumen

En un entorno como el actual, los sistemas cuentan con grandes cantidades de información y datos que hacen compleja su organización y manipulación. A su vez, como los datos en general son recogidos por distintos canales, a menudo la mayoría de ellos no se utilizan o no son útiles. Es frecuente entonces, que las organizaciones se enfrenten a un grave problema: los datos “sucios”. Es decir,  datos que poseen una estructura incorrecta,  información repetida, mal organizada, imprecisa, con datos nulos (que no ofrecen información relevante) o simplemente incompletos, entre otros.

Consecuentemente, a la hora de transformar estos datos disponibles, uno de los grandes problemas es la diversidad de estructuras y formatos de la información fuente lo cual puede afectar a las organizaciones. Para evitar este riesgo, la integración de fuentes de datos define arquitecturas, modelos e infraestructuras de software que habilitan el acceso y procesamiento de aquellos datos  almacenados en fuentes heterogéneas. De esa forma, se pueden construir estructuras homogéneas y semánticas comunes, a fin de que las organizaciones cuenten con datos de calidad.

De esta forma, la motivación del presente trabajo es el análisis de grandes volúmenes de datos provenientes de diferentes fuentes que almacenan información textual (de las declaraciones y testimonios sobre crímenes de lesa humanidad) con formatos de texto extensos y sin estructura, imprecisión, desnormalización, redundancia, entre otras. Así se propone realizar un proceso de ETL (extracción-transformación-carga) para alimentar un nuevo repositorio que cumpla con un nivel de calidad determinado para aprovechar los datos en base a objetivos planteados del uso de los mismos.

En resumen, el objetivo de esta tesis es llevar a cabo un proceso de ETL abarcando el análisis de los datos, el diseño de un proceso de transformaciones y la implementación de los diseños sobre una fracción 
de los datos fuentes. También, tenemos como objetivo diseñar e implementar un sitio web que permita a los usuarios consultar la información reestructurada. Por lo tanto, esta tesis contribuye a mostrar una experiencia real
sobre la aplicación de un proceso ETL sobre datos de texto, aportando decisiones y lecciones aprendidas del trabajo conjunto entre informáticos y expertos del dominio, la metodología de diseño del proceso ETL y la aplicación de una herramienta de código abierto que puede resultar de interés y a su vez ser extendida a situaciones similares.

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *