martes, 12 de julio de 2016

El Big Data y el Archivo General de Indias


Por Hugo Brunetta

En 1785 nacía por deseo del rey Carlos III el Archivo General de Indias con el objeto de reunir en un solo lugar los documentos referentes a Indias hasta entonces dispersos en Simancas, Cádiz y Sevilla. El impulsor del proyecto fue José de Gálvez, secretario de Indias, y el ejecutor del mismo fue el académico e historiador don Juan Bautista Muñoz, cosmógrafo mayor de Indias. El espléndido edificio, la Casa Lonja de Sevilla, que se construyó en época de Felipe II sobre planos de Juan de Herrera sirve hasta hoy como sede del Archivo, lo que al parecer no fue reemplazado por una pequeña habitación y potentes servidores, con documentos digitalizados; o si, y lo desconozco, pero en definitiva no cambia el tema de este artículo.
Hoy el Archivo General de Indias conserva más de cuarenta y tres mil legajos, instalados en ocho kilómetros lineales de estanterías, con unos ochenta millones de páginas de documentos originales que permiten a diario profundizar en más de tres siglos de historia de todo un continente, desde Tierra de Fuego hasta el sur de Estados Unidos, además del Extremo Oriente español, las Filipinas: la historia política y la historia social, la historia económica y la de las mentalidades, la historia de la Iglesia y la historia del arte... Los más variados temas ocupan el interés de los miles de investigadores que pasan por el Archivo: desde el descubrimiento, exploración y conquista del Nuevo Mundo hasta la independencia; desde las instituciones políticas indianas hasta la historia de los pueblos precolombinos; desde el intercambio comercial a los problemas de tráfico marítimo; desde la expansión misionera hasta los aspectos inquisitoriales. Tantos y tantos temas en los que el Archivo General de Indias va contribuyendo a lo largo del tiempo para obtener la más completa y documentada visión histórica de la Administración española del Nuevo Mundo.
Si no llamamos a esto “muchos datos” no sé a qué entonces. Pero en esa época no existían términos tan bonitos como “big data”. El rey simplemente habrá pensado, “…cuántos datos, algo hay que hacer…”
Para Wikipedia, El Big Data, Macrodatos o Datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos. El fenómeno del Big Data también es llamado datos a gran escala.
Yo lo conocía como minería de datos, de hecho podríamos hacer minería de datos en los documentos que forman parte del Archivo General de Indias. Pero probablemente los historiadores deseen utilizar métodos un poco más tradicionales.
¿A que voy con todo esto? Estoy muy seguro que le han puesto un nuevo a nombre a algo que ya existía, aunque lo que me molesta no eso sino el hecho de pensar que el concepto es nuevo. BIG DATA son muchos datos y eso siempre pasó. Minería de datos y otras técnicas de análisis tampoco es algo nuevo.
“Big data” es una estupidez: dice el CTO de la campaña de Obama Llámenlo simplemente “data”, dice Harper Reed.
“Big data”, según Harper Reed, es una estupidez. Esta es una opinión bastante sorprendente viniendo del hombre que, como jefe de tecnología de la campaña “Obama for America”, dirigió la parte técnica de la reelección del presidente de los Estados Unidos, en lo que fue aclamado por el gran crecimiento para la política que inició en materia de Big Data.
Reed ayudó a construir una organización de tecnología que encabezó la parte digital de la campaña de Barack Obama, la cual proveyó herramientas esenciales en los esfuerzos por “salir a votar” en un país donde el voto no es obligatorio.
“Big data es un término que usábamos en 2007 porque era difícil almacenar información”. Reed contó en la sesión de apertura del CeBIT en Sydney. “Era literalmente difícil”.
“Era costoso. Costaba miles de millones de dólares. Los que lo hacían, lo hacían muy bien, pero lo hacían en habitaciones cerradas con enormes presupuestos. Y nosotros éramos como una especie de hippies de la computación en un rincón, pensando ¡Tengo demasiada información! ¿Cómo almaceno esto?’”
Las tecnologías para ese problema existen hace bastante ya, dice Reed. Tecnologías como Hadoop, una plataforma creada por Doug Cutting para distribuir información, HBase, que se utiliza para los correr mensajes de Facebook y el documento publicado por los investigadores de Google que esquematizan el sistema de base de datos BigTable de la compañía, significan que manejar grandes cantidades de información es mucho más sencillo.
“Cuando comenzamos a hablar de Big data, se trataba solo de almacenamiento. No tenía que ver con análisis, no había preguntas ni respuestas que hacerse. Solo se trataba de almacenamiento,” dijo Reed.
Cuando escucho sobre Big data, inmediatamente escucho a Marketing y muchas otras personas diciendo algo como, ‘Bueno, necesitamos invertir en Big data’… Miro alrededor y veo todas estas grandes marcas… y están haciendo cosas realmente grandes pero la verdad es que han entrado en este mundo de Marketing hablando de problemas que están prácticamente resueltos.
Las compañías que están en el carro de la Big data están ofreciendo realmente plataformas analíticas para obtener respuestas, dijo Reed.
“Creo que eso es realmente lo importante”, dijo Reed. “Estoy simplemente cansado de que lo llamen Big data. Debería ser llamado simplemente data. Y además apuesto que hay pocas personas aquí en este salón que realmente tengan datos que sea grandes. Probablemente tengan grandes cantidades de datos o datos medianos y largos. Pero son realmente los grandes datos los que son todavía verdaderamente un dolor de trasero y es aún difícil.”
Rayin Ghani, el director científico de datos de la campaña, dijo en broma que la cantidad de datos con la que la campaña “Obama for America” tuvo que lidiar era menos de lo que tenía él en su casa. “Tengo más discos duros en mi apartamento que los que la campaña ha registrado”, dijo Ghani.

Muchos datos hubo siempre, tecnologías para analizar ese cúmulo enorme de datos existe desde hace mucho: BIG DATA es una estupidez en términos de pensar que algo nuevo nació en el mundo de los negocios.

Hugo Brunetta
hbrunetta@nexting.com 

No hay comentarios: