Anuncio

Chatbots de IA necesitan más libros para aprender. Estas bibliotecas de EEUU se los comparten

ARCHIVO - Un ciclista camina junto al Langdell Hall, la biblioteca
ARCHIVO - Un ciclista camina junto al Langdell Hall, la biblioteca de derecho de Harvard, en la facultad de derecho de la Universidad de Harvard, el 1 de agosto de 2005, en Cambridge, Massachusetts. (AP Foto/Charles Krupa, archivo)
(Charles Krupa / Associated Press)

Todo lo que se ha dicho en internet fue tan sólo el comienzo de enseñarle a la inteligencia artificial acerca de la humanidad. Ahora las empresas de tecnología están recurriendo a un depósito de conocimiento más antiguo: las estanterías de libros en las bibliotecas.

Casi un millón de libros publicados inclusive en una época tan antigua como el siglo XV —y en 254 idiomas— forman parte de una colección de la Universidad de Harvard que se compartió recientemente con investigadores. Próximamente también se incluirán tesoros de periódicos antiguos y documentos gubernamentales en poder de la biblioteca pública de Boston.

Abrir las bóvedas para tener acceso a tomos centenarios podría suponer una fortuna de datos para las empresas de tecnología que enfrentan demandas de novelistas, artistas visuales y otros cuyas obras creativas han utilizado sin su consentimiento para entrenar a chatbots de IA.

Anuncio

“Es una decisión prudente comenzar con la información de dominio público, porque eso es menos controversial en este momento que el contenido que todavía tiene derechos de autor”, expresó Burton Davis, abogado general adjunto de Microsoft.

Davis indicó que las bibliotecas también resguardan ”enormes cantidades de datos culturales, históricos y lingüísticos interesantes”, ausentes en las últimas décadas de comentarios en línea de los que los chatbots de IA han aprendido en su mayoría. Los temores a quedarse sin información también han llevado a los desarrolladores de IA a recurrir a datos “sintéticos”, creados por los propios chatbots y de menor calidad.

Con el apoyo de “obsequios sin restricciones” de Microsoft y OpenAI —el fabricante de ChatGPT—, la Iniciativa de Datos Institucionales con sede en Harvard está trabajando con bibliotecas y museos de todo el mundo sobre cómo hacer que sus colecciones históricas estén listas para la IA de una manera que también beneficie a las comunidades a las que atienden.

“Estamos tratando de trasladar parte del poder que en este momento está en manos de la IA de vuelta a estas instituciones”, manifestó Aristana Scourtas, quien dirige la investigación en el Laboratorio de Innovación de Bibliotecas de la Facultad de Derecho de Harvard. “Los bibliotecarios siempre han sido los administradores de los datos y la información”.

El conjunto de datos que recién publicó Harvard, Institutional Books 1.0, contiene más de 394 millones de páginas de papel escaneadas. Una de las obras más antiguas es del siglo XV: las reflexiones escritas a mano de un pintor coreano sobre el cultivo de flores y árboles. La mayor concentración de obras es del siglo XIX, sobre temas como literatura, filosofía, derecho y agricultura, todas ellas meticulosamente conservadas y organizadas por generaciones de bibliotecarios.

Promete ser muy beneficioso para los desarrolladores de IA que intentan mejorar la precisión y confiabilidad de sus sistemas.

“Muchos de los datos que se han utilizado en la capacitación en IA no provienen de fuentes originales”, señaló el director ejecutivo de la iniciativa de datos, Greg Leppert, quien también es jefe de tecnología en el Berkman Klein Center for Internet & Society de Harvard, un organismo enfocado en el estudio del ciberespacio. Esta colección de libros cubre “hasta la copia física que escanearon las instituciones que, de hecho, reunieron dichos materiales”, agregó.

Antes de que ChatGPT desencadenara un frenesí comercial por la inteligencia artificial, a la mayoría de los investigadores de IA no les interesaba mucho la procedencia de los pasajes de texto que extraían de Wikipedia, de foros de redes sociales como Reddit y, a veces, de amplios depósitos de libros pirateados. Sólo necesitaban lo que los especialistas en informática llaman tokens: unidades de datos, cada una de las cuales puede representar el fragmento de una palabra.

La nueva colección de capacitación en IA de Harvard tiene un estimado de 242 mil millones de tokens, una cantidad que es difícil de comprender para los humanos, pero que sigue siendo sólo una gota de lo que se está introduciendo en los sistemas de IA más avanzados. Por ejemplo, la empresa matriz de Facebook, Meta, ha dicho que la última versión de su amplio modelo de lenguaje de IA fue entrenada con más de 30 billones de tokens extraídos de texto, imágenes y videos.

Meta también hace frente a una demanda de la comediante Sarah Silverman y de otros autores con obras publicadas que acusan a la compañía de robar sus libros a partir de “bibliotecas fantasma” de obras pirateadas.

Ahora, con algunas reservas, las bibliotecas reales están imponiendo sus condiciones.

OpenAI, que también está enfrentando una serie de demandas por violaciones de derechos de autor, donó 50 millones de dólares este año a un grupo de instituciones de investigación, incluida la Biblioteca Bodleian de 400 años de antigüedad, perteneciente a la Universidad de Oxford, que está digitalizando libros raros y usa IA para transcribirlos.

Cuando la compañía contactó por primera vez a la Biblioteca Pública de Boston, una de las más grandes de Estados Unidos, la biblioteca especificó claramente que cualquier información que digitalizara estaría disponible para todo el mundo, compartió Jessica Chapel, su directora de servicios digitales y en línea.

“OpenAI tenía este interés en cantidades masivas de datos de entrenamiento. Nosotros tenemos interés en cantidades masivas de objetos digitales. Así, este parece ser un caso en el que los intereses están coincidiendo”, expresó Chapel.

La digitalización es costosa. Por ejemplo, para la biblioteca de Boston ha sido un trabajo meticuloso escanear y organizar docenas de periódicos en francés de Nueva Inglaterra que se distribuyeron ampliamente a fines del siglo XIX y principios del XX entre las comunidades de inmigrantes canadienses de Quebec. Ahora que dicho texto se utiliza para entrenar IA, ayuda a financiar proyectos que los bibliotecarios quieren hacer de todos modos.

La colección de Harvard ya se había empezado a digitalizar desde el 2006 para otro gigante tecnológico, Google, en su controvertido proyecto de crear una biblioteca en línea con capacidad de búsqueda de más de 20 millones de libros.

Google pasó años defendiéndose de demandas de autores por su biblioteca en línea, que incluía muchas obras más nuevas y con derechos de autor. Por fin se solucionó en 2016, cuando la Corte Suprema de Estados Unidos dio el visto bueno a fallos de tribunales inferiores que rechazaron reclamos por infracción de derechos de autor.

Ahora, por primera vez, Google ha trabajado con Harvard para extraer volúmenes de Google Books que son del dominio público y allanar el camino para compartirlos con los desarrolladores de IA. Las protecciones de derechos de autor en Estados Unidos suelen durar 95 años, y más tiempo para las grabaciones de sonido.

La nueva iniciativa fue aplaudida por el mismo grupo de autores que demandó a Google por su proyecto de libros y que más recientemente ha llevado a empresas de IA a los tribunales.

“Muchos de estos títulos sólo existen en los estantes de las principales bibliotecas, y la creación y el uso de este conjunto de datos ampliará el acceso a estos volúmenes y al conocimiento que contienen”, manifestó en un comunicado Mary Rasenberger, directora ejecutiva de la Asociación de Escritores. “Sobre todo, la creación de un extenso conjunto de datos jurídicos para capacitación democratizará la creación de nuevos modelos de IA”.

Queda por verse qué tan útil será todo esto para la próxima generación de herramientas de IA, a medida que los datos se comparten en la plataforma Hugging Face, que alberga conjuntos de datos y modelos de IA de código abierto que cualquier persona puede descargar.

La colección de libros es más diversa lingüísticamente que las fuentes de datos características de IA. Menos de la mitad de los volúmenes están en inglés, aunque los idiomas europeos siguen predominando, en particular el alemán, el francés, el italiano, el español y el latín.

Una colección de libros imbuida del pensamiento del siglo XIX también podría ser “inmensamente crucial” para los intentos de la industria tecnológica de construir agentes de IA que puedan planificar y razonar tan bien como los humanos, señaló Leppert.

“En una universidad, tienes muchos materiales pedagógicos sobre lo que significa razonar”, observó. “Tienes mucha información científica sobre cómo ejecutar procesos y cómo ejecutar análisis”.

Al mismo tiempo, también hay muchos datos obsoletos, desde teorías científicas y médicas desacreditadas hasta narrativas racistas y coloniales.

“Cuando uno trata con un conjunto de datos tan extenso, hay algunas cuestiones complicadas en torno al contenido y el lenguaje dañinos”, indicó Kristi Mukk, coordinadora del Laboratorio de Innovación de Bibliotecas de Harvard, quien dijo que la iniciativa está tratando de proporcionar orientación para mitigar los riesgos del uso de los datos, y así “ayudar a los usuarios a tomar sus propias decisiones informadas y usar la IA de manera responsable”.

————

The Associated Press y OpenAI tienen un acuerdo de licencia y tecnología que le permite a OpenAI tener acceso a parte de los archivos de texto de la AP.

Anuncio