Cómo los gigantes tecnológicos toman atajos para obtener datos para la IA

April 14, 2024

63 13 minutes read

Cómo los gigantes tecnológicos toman atajos para obtener datos para la IA — AI DATA mvzg facebookJumbo.jpg

A finales de 2021, OpenAI enfrentó un problema de suministro.

El laboratorio de inteligencia artificial había agotado todas las reservas de textos prestigiosos en inglés de internet mientras desarrollaba su sistema de IA más reciente. Necesitaba más datos para entrenar a la siguiente versión de su tecnología, muchos más.

Por eso, los investigadores de OpenAI crearon una herramienta de reconocimiento de voz llamada Whisper. Podría transcribir el audio de videos de YouTube y ofrecer nuevos textos conversacionales que volverían más inteligentes a los sistemas de IA.

Algunos de los empleados de OpenAI hablaron de cómo una decisión así podría violar las reglas de YouTube, según señalaron tres personas que supieron de las conversaciones. YouTube, propiedad de Google, prohíbe el uso de videos para aplicaciones “independientes” de la plataforma de videos.

Un equipo de OpenAI terminó por transcribir más de un millón de horas de videos de YouTube, aseguraron esas tres personas. En el equipo se encontraban Greg Brockman, presidente de OpenAI, quien ayudó personalmente a recolectar los videos, según afirmaron dos de las personas. Los textos luego se agregaron al sistema GPT-4, que se consideraba de manera generalizada uno de los modelos de IA más poderosos del mundo y fue la base de la versión más reciente del chatbot de ChatGPT.

La carrera por liderar el campo de la IA se ha convertido en una búsqueda desesperada de los datos digitales necesarios para hacer avanzar la tecnología. Para obtener esos datos, empresas tecnológicas como OpenAI, Google y Meta han tomado atajos, ignorado políticas corporativas y debatido la posibilidad de manipular la ley, según un análisis de The New York Times.

El año pasado, en Meta, propietaria de Facebook e Instagram, directivos, abogados e ingenieros debatieron la compra de la editorial Simon & Schuster para conseguir obras extensas, según grabaciones de reuniones internas obtenidas por el Times. También hablaron de recopilar datos protegidos por derechos de autor en todo internet, aunque eso supusiera enfrentarse a demandas judiciales. Negociar licencias con editores, artistas, músicos y la industria periodística llevaría demasiado tiempo, dijeron.

Al igual que OpenAI, Google transcribió videos de YouTube para recopilar texto para sus modelos de IA, según cinco personas conocedoras de las prácticas de la empresa. Esto fue quizá una violación de los derechos de autor de los videos, que pertenecen a sus creadores.

El año pasado, Google también amplió sus condiciones de servicio. Una de las motivaciones del cambio, según miembros del equipo de privacidad de la empresa y un mensaje interno que consultó el Times, fue permitir a Google aprovechar Documentos de Google, reseñas de restaurantes en Google Maps y otros materiales en línea disponibles públicamente para más de sus productos de inteligencia artificial.

Las acciones de las empresas demuestran cómo la información en línea —noticias, obras de ficción, mensajes en foros, artículos de Wikipedia, programas informáticos, fotos, pódcasts y fragmentos de películas— se ha convertido cada vez más en la fuerza vital de la industria floreciente de la IA. Crear sistemas innovadores depende de disponer de datos suficientes para enseñar a las tecnologías a producir al instante textos, imágenes, sonidos y videos que parezcan creaciones humanas.

El volumen de datos es crucial. Los principales sistemas de chatbots han aprendido de conjuntos de texto digital que abarcan hasta tres billones de palabras, es decir, casi el doble del número de palabras almacenadas en la Biblioteca Bodleiana de la Universidad de Oxford, que recoge manuscritos desde 1602. Los datos más preciados, según los investigadores de IA, son la información de alta calidad, como libros y artículos publicados, que se han escrito y editado con cuidado de manera profesional.

Durante años, el internet —con sitios como Wikipedia y Reddit— fue una fuente de datos aparentemente inagotable. Pero a medida que avanzaba la IA, las empresas tecnológicas buscaron más repositorios. Google y Meta, que cuentan con miles de millones de usuarios que realizan consultas de búsqueda y publican en redes sociales todos los días, se vieron limitadas en gran medida por las leyes de privacidad y sus propias políticas a la hora de querer aprovechar gran parte de ese contenido para el desarrollo de la IA.

Su situación es urgente. Según Epoch, un instituto de investigación, las empresas tecnológicas podrían agotar todos los datos de alta calidad del internet ya en 2026. Las empresas están utilizando los datos más rápido de lo que se producen.

“La única forma práctica de que existan estas herramientas es que puedan entrenarse con cantidades masivas de datos sin tener que solicitar licencias sobre ellos”, explicó sobre los modelos de IA Sy Damle, un abogado que representa a Andreessen Horowitz, una empresa de capital de riesgo de Silicon Valley, en un debate público del año pasado sobre la ley de derechos de autor. “La cantidad de datos necesaria es tan enorme que ni siquiera las licencias colectivas pueden funcionar”.

Las empresas tecnológicas están tan ávidas de datos que algunas están desarrollando información “sintética”. No se trata de datos orgánicos creados por humanos, sino de texto, imágenes y código que producen los modelos de IA; en otras palabras, los sistemas también aprenden de lo que ellos mismos generan.

OpenAI dijo que cada uno de sus modelos de IA “tiene un conjunto de datos único que curamos para ayudar a su comprensión del mundo y seguir siendo competitivos a nivel mundial en la investigación”. Google afirmó que sus modelos de IA “se entrenan con algunos contenidos de YouTube”, lo que estaba permitido en virtud de acuerdos con creadores de YouTube, y que la empresa no utilizaba datos de aplicaciones ofimáticas fuera de un programa experimental. Meta dijo que había “realizado inversiones agresivas” para integrar la IA en sus servicios y que disponía de miles de millones de imágenes y videos compartidos públicamente de Instagram y Facebook para entrenar a sus modelos.

Para los creadores, el creciente uso de sus obras por parte de las empresas de IA ha provocado demandas de derechos de autor y licencias. El año pasado, el Times demandó a OpenAI y Microsoft por utilizar sin permiso artículos de prensa protegidos por derechos de autor para entrenar chatbots de IA. OpenAI y Microsoft han alegado que el uso de los artículos fue un “uso justo”, o permitido por la ley de derechos de autor, porque transformaron las obras para un fin distinto.

‘Escala es todo lo que necesitas’

En enero de 2020, Jared Kaplan, físico teórico de la Universidad Johns Hopkins, publicó un innovador artículo sobre inteligencia artificial que avivó el apetito por los datos en línea.

Su conclusión era inequívoca: cuantos más datos hubiera para entrenar a un gran modelo de lenguaje —la tecnología que impulsa los chatbots en línea—, mejor funcionaría. Del mismo modo que un estudiante aprende más leyendo más libros, los grandes modelos de lenguaje pueden detectar mejor los patrones en el texto y ser más precisos con más información.

“Todo el mundo se sorprendió mucho de que estas tendencias —estas leyes de escala, como las llamamos— fueran básicamente tan precisas como las que se observan en astronomía o física”, afirmó Kaplan, que publicó el artículo junto con nueve investigadores de OpenAI. (Ahora trabaja en Anthropic, la empresa emergente de IA).

“Escala es todo lo que necesitas” pronto se convirtió en un grito de guerra para la IA.

Los investigadores llevan mucho tiempo utilizando grandes bases de datos públicas de información digital para desarrollar modelos de IA, como Wikipedia y Common Crawl, una base de datos de más de 250.000 millones de páginas web recopiladas desde 2007. Los investigadores a menudo “limpiaban” los datos eliminando expresiones de odio y otros textos no deseados antes de utilizarlos para entrenar modelos de IA.

En 2020, los conjuntos de datos eran minúsculos para los estándares actuales. Una base de datos que contenía 30.000 fotografías del sitio web de fotografías Flickr se consideraba un recurso vital en aquella época.

Después del artículo de Kaplan, esa cantidad de datos ya no era suficiente. Se convirtió en “hacer las cosas realmente en grande”, comentó Brandon Duderstadt, director ejecutivo de Nomic, una empresa de IA en Nueva York.

Cuando OpenAI presentó GPT-3 en noviembre de 2020, se entrenó con la mayor cantidad de datos hasta la fecha: cerca de 300.000 millones de “tókenes”, básicamente palabras o fragmentos de palabras. Tras aprender de esos datos, el sistema generaba texto con una precisión asombrosa, escribiendo entradas de blog, poesía y sus propios programas informáticos.

En 2022, DeepMind, un laboratorio de IA propiedad de Google, fue más allá. Probó 400 modelos de IA y varió la cantidad de datos de entrenamiento y otros factores. Los modelos con mejores resultados utilizaron incluso más datos de los que Kaplan había predicho en su artículo. Un modelo, Chinchilla, se entrenó con 1,4 billones de tókenes.

Pronto fue superado. El año pasado, investigadores chinos presentaron un modelo de IA, Skywork, que se entrenó con 3,2 billones de tókenes de textos en inglés y chino. Google también presentó un sistema de IA, PaLM 2, que superó los 3,6 billones de tókenes.

Transcripciones de YouTube

En mayo, Sam Altman, director ejecutivo de OpenAI, reconoció que las empresas de IA agotarían todos los datos viables del internet.

“Se agotarán”, dijo durante un discurso en una conferencia tecnológica.

Altman había visto el fenómeno de cerca. En OpenAI, los investigadores habían recopilado datos durante años, los habían limpiado y los habían introducido en una vasta reserva de texto para entrenar a los modelos lingüísticos de la empresa. Habían minado el repositorio de código informático GitHub, aspirado bases de datos de jugadas de ajedrez y recurrido a datos que describían exámenes de preparatoria y tareas del sitio web Quizlet.

Para finales de 2021, esos suministros se habían agotado, dijeron ocho personas con conocimiento de la empresa, que no estaban autorizadas a hablar públicamente.

OpenAI estaba desesperada por obtener más datos para desarrollar su modelo de IA de próxima generación, GPT-4. Los empleados propusieron transcribir pódcasts, audiolibros y videos de YouTube. Hablaron de crear datos desde cero con sistemas de IA. También consideraron la posibilidad de comprar empresas emergentes que hubieran recopilado grandes cantidades de datos digitales.

Al final, OpenAI creó Whisper, la herramienta de reconocimiento de voz, para transcribir videos y pódcasts de YouTube, según seis personas. Pero YouTube prohíbe no solo utilizar sus videos para aplicaciones “independientes”, sino también acceder a ellos por “cualquier medio automatizado (como robots, ‘botnets’ o ‘scrapers’)”.

Los empleados de OpenAI sabían que se adentraban en una zona gris desde el punto de vista legal, según explicaron las personas, pero creían que entrenar a la IA con los videos caía bajo la definición de uso justo. Brockman, presidente de OpenAI, aparece en un documento de investigación como creador de Whisper. Él mismo ayudó a recopilar videos de YouTube y a introducirlos en la tecnología, según dos personas.

Brockman remitió las peticiones de comentarios a OpenAI, que afirmó utilizar “numerosas fuentes” de datos.

El año pasado, OpenAI lanzó GPT-4, que se basaba en las más de un millón de horas de videos de YouTube que Whisper había transcrito. Brockman dirigió el equipo que desarrolló GPT-4.

Algunos empleados de Google eran conscientes de que OpenAI había recopilado datos de videos de YouTube, según declararon dos personas con conocimiento de las empresas. Pero no detuvieron a OpenAI porque Google también había utilizado transcripciones de videos de YouTube para entrenar sus modelos de IA, dijeron las personas. Esa práctica puede haber violado los derechos de autor de los creadores de YouTube. Así que, si Google armaba un escándalo sobre OpenAI, podría haber una protesta pública contra sus propios métodos, señalaron las personas.

Matt Bryant, portavoz de Google, dijo que la empresa no tenía conocimiento de las prácticas de OpenAI y prohibía “el ‘scraping’ o la descarga no autorizada de contenido de YouTube”. Google toma medidas cuando tiene un fundamento legal o técnico claro para hacerlo, aclaró.

A finales de 2022, después de que OpenAI lanzara ChatGPT y desencadenara una carrera en todo el sector para ponerse a su altura, los investigadores e ingenieros de Google debatieron la explotación de otros datos de usuarios. Miles de millones de palabras se almacenaban en Documentos de Google y otras aplicaciones gratuitas de Google. Pero las restricciones de privacidad de la empresa limitaban el uso que podían hacer de los datos, según tres personas conocedoras de las prácticas de Google.

En junio, el departamento jurídico de Google pidió al equipo de privacidad que redactara un borrador para ampliar el uso que la empresa podía hacer de los datos de los consumidores, según dos miembros del equipo de privacidad y un mensaje interno consultado por el Times.

El equipo de privacidad redactó nuevos términos para que Google pudiera aprovechar los datos para sus “modelos de IA y crear productos y funciones como Traductor de Google, Bard y las capacidades de IA en la nube”, un conjunto más amplio de tecnologías de IA.

“¿Cuál es el objetivo final aquí?”, preguntó un miembro del equipo de privacidad en un mensaje interno. “¿Hasta dónde queremos llegar?”.

Bryant dijo que los cambios en la política de privacidad se habían hecho para tener mayor claridad y que Google no utilizaba información de Documentos de Google o aplicaciones relacionadas para entrenar modelos lingüísticos “sin permiso explícito” de los usuarios, refiriéndose a un programa voluntario que permite a los usuarios probar funciones experimentales.

“No hemos empezado a entrenar con otros tipos de datos basándonos en este cambio de términos”, afirmó.

El debate en Meta

Mark Zuckerberg, director ejecutivo de Meta, llevaba años invirtiendo en inteligencia artificial, pero de repente se encontró rezagado cuando OpenAI lanzó ChatGPT en 2022. De inmediato, presionó para igualar y superar a ChatGPT, llamando a ejecutivos e ingenieros a todas horas de la noche para que desarrollaran un chatbot rival, según aseguraron tres empleados y exempleados que no tenían autorización para hablar de conversaciones confidenciales.

No obstante, a principios del año pasado, Meta se topó con el mismo obstáculo que sus rivales: falta de datos.

Ahmad Al-Dahle, vicepresidente de IA generativa en Meta, dijo a los ejecutivos que su equipo había utilizado casi todos los libros, ensayos, poemas y artículos de noticias en inglés disponibles en internet para desarrollar un modelo, según grabaciones de reuniones internas, que fueron compartidas por un empleado.

Meta no podría igualar a ChatGPT a menos que obtuviera más datos, explicó Al-Dahle a sus colegas. En marzo y abril de 2023, algunos de los responsables de desarrollo de negocio, ingenieros y abogados de la empresa se reunieron casi a diario para abordar el problema.

Algunos debatieron pagar 10 dólares por libro por los derechos completos de licencia de nuevos títulos. Discutieron la compra de Simon & Schuster, que publica a autores como Stephen King, según las grabaciones.

También hablaron de cómo habían resumido libros, ensayos y otras obras de internet sin permiso y debatieron sobre absorber más, aunque eso supusiera enfrentarse a demandas judiciales. Según las grabaciones, un abogado advirtió de los problemas “éticos” de apoderarse de la propiedad intelectual de los artistas, pero solo recibió silencio como respuesta.

Zuckerberg dijo en una conferencia telefónica reciente con inversionistas que los miles de millones de videos y fotos compartidos públicamente en Facebook e Instagram son “más que el conjunto de datos de Common Crawl”.

Durante sus conversaciones grabadas, los ejecutivos de Meta hablaron de cómo habían reclutado a contratistas en África para que recolectaran resúmenes de ficción y no ficción. Los resúmenes incluían contenidos protegidos por derechos de autor “porque no tenemos forma de no recopilarlos”, dijo un directivo en una reunión.

Los directivos de Meta comentaron que OpenAI parecía haber utilizado material protegido por derechos de autor sin permiso. Según las grabaciones, dijeron que a Meta le llevaría demasiado tiempo negociar licencias con editores, artistas, músicos y la industria periodística.

“Lo único que nos impide ser tan buenos como ChatGPT es el volumen de datos, literalmente”, expresó en una reunión Nick Grudin, vicepresidente de colaboraciones y contenidos globales.

OpenAI parecía estar tomando material protegido por derechos de autor y Meta podría seguir ese “precedente del mercado”, añadió.

Los ejecutivos de Meta acordaron apoyarse en una decisión judicial de 2015 que implicaba al Gremio de Autores contra Google, según las grabaciones. En ese caso, se permitió a Google escanear, digitalizar y catalogar libros en una base de datos en línea tras argumentar que solo había reproducido fragmentos de las obras en línea y que había transformado los originales, por lo que se trataba de un uso justo.

El uso de datos para entrenar sistemas de inteligencia artificial, dijeron los abogados de Meta en sus reuniones, debería igualmente recaer en la definición de uso justo.

Según las grabaciones, al menos dos empleados expresaron su preocupación por el uso de la propiedad intelectual y por no pagarles a los autores y a otros artistas lo justo o en absoluto. Uno de los empleados relató una discusión aparte sobre datos protegidos por derechos de autor con altos ejecutivos, entre ellos Chris Cox, director de producto de Meta, y dijo que en esa reunión nadie se planteó la ética de utilizar las obras creativas de otras personas.

Datos ‘sintéticos’

Altman, de OpenAI, tenía un plan para enfrentar la escasez inminente de datos.

Según dijo en la conferencia de mayo, empresas como la suya acabarán entrenando sus modelos de IA con texto generado por la herramienta misma, lo que se conoce como datos sintéticos.

Dado que un modelo de IA puede producir textos similares a los creados por humanos, Altman y otros han argumentado que los sistemas pueden crear datos adicionales para desarrollar mejores versiones de sí mismos. Esto ayudaría a los desarrolladores a crear una tecnología cada vez más potente y reduciría su dependencia de los datos protegidos por derechos de autor.

“Siempre que se pueda superar el horizonte de los datos sintéticos, cuando el modelo sea tan inteligente que genere buenos datos sintéticos, todo estará bien”, concluyó Altman.

Los investigadores de IA llevan años explorando los datos sintéticos. Pero, en cuanto a la construcción de un sistema de IA capaz de entrenarse a sí mismo, es más fácil decirlo que hacerlo. Los modelos de IA que aprenden de sus propios resultados pueden quedar atrapados en un bucle en el que refuercen sus propias peculiaridades, errores y limitaciones.

Cade Metz cubre inteligencia artificial, coches autónomos, robótica, realidad virtual y otras áreas emergentes de la tecnología. Más de Cade Metz

Cecilia Kang cubre tecnología y política reguladora desde Washington D. C. Lleva más de dos décadas escribiendo sobre tecnología. Más de Cecilia Kang

Sheera Frenkel es una periodista que vive en el Área de la Bahía de San Francisco y cubre las formas en que la tecnología afecta la vida cotidiana, enfocándose en las empresas de redes sociales como Facebook, Instagram, Twitter, TikTok, YouTube, Telegram y WhatsApp. Más de Sheera Frenkel

Stuart A. Thompson escribe sobre cómo se difunde la información falsa y engañosa en línea y cómo afecta a personas de todo el mundo. Se centra en la desinformación, la información errónea y otros contenidos engañosos. Más de Stuart A. Thompson

Nico Grant es un reportero de tecnología que cubre Google desde San Francisco. Anteriormente pasó cinco años en Bloomberg News, donde se centró en Google y la computación en la nube. Más de Nico Grant

Source

April 14, 2024

63 13 minutes read