Luisa: La ciencia al servicio de los derechos humanos

Un sistema en línea permitirá generar en red una versión en texto digital de partes del archivo Berruti

15 Abr 2019  •  11:49

15 de abril de 2019
Actualizado: 11:49h

Versión para imprimir

La plataforma informática Luisa (Leyendo Unidos para Interpretar los Archivos) fue creada por Investigadores de las facultades de Información y Comunicación (FIC) y de Ingeniería de la Universidad de la República, con el apoyo de la organización Madres y Familiares de Detenidos Desaparecidos y el Grupo de Trabajo por Verdad y Justicia. La herramienta es uno de los trabajos realizados en el marco del Proyecto de Sistematización, Cruzamiento y Análisis de los Archivos Militares.

La iniciativa, que busca recuperar la información de los textos ilegibles de los archivos del pasado reciente, tiene el aporte científico de integrantes del Instituto de Computación de la Facultad de Ingeniería de la Udelar, quienes se encargaron de poner en funcionamiento, diseñar y desarrollar este soporte informático.

Luisa fue creada para recibir el aporte anónimo de todos los ciudadanos que estén interesados en transcribir texto que no puede ser procesado digitalmente. Sobreciencia conversó con Fernando Carpani, docente e integrante del Grupo de Concepción de Sistemas de Información (CSI) del Instituto de Computación de la Facultad de Ingeniería de la Udelar.

Carpani contó que el proyecto se inició en el año 2017, cuando comenzaron a trabajar en conjunto con el periodista y docente de la Facultad de Información y Comunicación Samuel Blixen y con los integrantes del Grupo de Trabajo de Verdad y Justicia. El objetivo principal de esta conjunción es procesar los documentos contenidos en el archivo Berrutti, hallado en dependencias militares en el año 2006, que suman casi cuatro millones de imágenes individuales de documentos de la dictadura.

“El primer paso es organizar estos documentos, el segundo es leerlo, revisarlos de alguna forma, y el tercer paso va a ser recuperar la información que tienen esos documentos. Nos encontramos con bolsas de imágenes que están organizadas con algún criterio, generalmente el de las fechas aproximadas en las que aparecieron. Y de esas imágenes unas se leen muy bien, otras se leen muy mal y hay otras que se leen mal pero por diferentes motivos. La escritura a máquina es muy diferente, hay veces que parecería que la persona que escribió tenía poca tinta y otra veces que estaba sobrecargada de tinta, entonces las letras se ven como empastadas y esto hace que los métodos automáticos de transcripción (automáticos) no funcionen bien. Además de eso los documentos fueron pasados de papel a microfilm, y lo que nosotros tenemos en general son escaneos de esos microfilm. En ese proceso de también se pierde algo de calidad”, detalló.

El experto dijo que para la organización de estos documentos se utilizan varios métodos; el manual, el automático y otro mixto, semiautomático. Contó que como método manual, se le pidió a gente de la FIC que ojeara los documentos y construyera diferentes directorios clasificándolos por tipo: informes, partes diarios, recortes, etc.

En lo que tiene que ver con el procesamiento de imágenes, utilizando un método automático, se trabaja con integrantes del Instituto de Ingeniería Eléctrica de la Udelar, que cuentan con el equipo apropiado para este tipo de procesamiento de imágenes, y es dónde se analizan y se vuelven a clasificar utilizando algoritmos.

Por último está el método que combina ambas cosas, en el que actualmente trabajan más de 130 estudiantes de la Facultad de Información y Comunicación, en el marco del proyecto de extensión denominado “Cruzar”, del Sistema de Información de Archivos del Pasado Reciente. Estos estudiantes utilizan el programa informático Labelme, creado por científicos de la Fing, que permite que a cada imagen procesada se le agreguen datos; como por ejemplo, año del documento, organismo del que proviene y firmas. Luego, otro programa informático los vuelve a clasificar.

Carpani remarcó que el problema al que se enfrentan, luego de estos procesamientos de imágenes, es el de transcribir, entender y pasar esa imagen a texto. Y para esto es que fue creada la plataforma Luisa, llamada así en homenaje a Luisa Cuesta.

“Entonces el proceso que se optó es el de tomar una imagen y partirla en cuadraditos, que se generan detectando manchas. Hay un procesamiento de la imagen, se obtiene por ejemplo, en el lugar 240 una mancha, y en el lugar 4232, aparece otra. Esas manchas, el 90% de las veces, son textos que hay que traducir.

Luisa lo que hace, es tomar esos bloquecitos, pasárselos a los usuarios, pasarles la imagen y un lugar para que ellos entren el texto. Y además, como nosotros sabemos dónde está el texto, se les da el contexto. Porque la gente no lee carácter a carácter, la gente lee mucho más por el contexto de lo que uno se cree. Entonces, lo que nosotros queremos hacer con Luisa es utilizar el cerebro del que está del otro lado de la computadora. Eso va a ser mejor que cualquier máquina. Aprovechar las capacidades del ser humano para reconocimiento de patrones”, detalló.

Carpiani aclaró que Luisa es una aplicación que funciona en todos los soportes, pero que por ahora cuenta con un diseño optimizado para una pantalla de escritorio o tablets de 7 a 10 pulgadas. Sin embargo, anunció que están trabajando para adaptarla a un diseño web responsivo, para una óptima visualización en dispositivos móviles de menor tamaño.

Si bien durante esta primera fase de la aplicación se utilizan cookies para distinguir las conexiones al sistema, no se recaban datos que identifiquen al dispositivo desde el cual se ingresa, ni datos personales del usuario.

Se puede ingresar a Luisa a través de las páginas web de la Facultad de Ingeniería.

El experto dejó claro que este trabajo llevará años, y contó que desde el lanzamiento de la plataforma (realizado el pasado 8 de abril) se han procesado las primeras 163 imágenes.

“Para que tengan una idea, nosotros en este momento lo que se está analizando hasta esta hora son solamente 163 imágenes. En esas 163 imágenes tenemos más de 58 mil bloquecitos. De estos 58 mil no nos alcanza con que una persona llene cada bloque nosotros queremos que cada bloque sea llenado por siete o diez personas.

Pero podemos anunciar que estas primeras 163 imágenes están prácticamente terminadas y en las próximas horas las vamos a retirar y vamos a poner otra tanda de imágenes. Hay un montón de detalles que hace que lo más fácil sea publicar de a tandas. En general, esas tandas están coordinadas con la gente que quiere acceder a los datos, con los investigadores que están en este momento haciendo este trabajo”, concluyó.

Texto: Alexandra Perrone

Entrevista a Fernando Carpani

¿Ve algún error en este artículo? Coméntenos aquí

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Más noticias