Hay una carrera para amasar datos para entrenar la IA, ¿dónde transcurre?
Desde hace tiempo, los datos en línea han sido una mercancía valiosa. Durante años, Meta y Google los han utilizado para dirigir su publicidad en la red. Netflix y Spotify los han usado para recomendar más películas y música, respectivamente. Los candidatos políticos han recurrido a esos datos para averiguar cuáles son los grupos de votantes en los que deben centrar su atención.
Durante los últimos 18 meses, cada vez ha quedado más claro que los datos digitales también son cruciales en el desarrollo de la inteligencia artificial (IA). A continuación, analizamos lo que hay que saber.
Entre más datos, mejor
El éxito de la inteligencia artificial depende de los datos. Eso se debe a que los modelos de IA se vuelven más precisos y responden de manera más similar a los humanos si cuentan con más datos.
De la misma manera en que un estudiante aprende al leer más libros, ensayos y otras fuentes de información, los modelos de lenguaje de gran tamaño (los sistemas que son la base de los chatbots) también se vuelven más precisos y potentes si se les brindan más datos.
Algunos modelos de lenguaje de gran tamaño, tales como GPT-3 de OpenAI, lanzado en 2020, se entrenaron con cientos de miles de millones de “tókenes”, que en esencia son palabras o pedazos de palabras. Los modelos más recientes se entrenaron con más de tres billones de tókenes.
Los datos en línea son un recurso valioso y finito
Las compañías tecnológicas están usando los datos en línea públicos que están disponibles para desarrollar sus modelos de inteligencia artificial más rápido de lo que los nuevos datos son producidos. Según una predicción, los datos digitales de alta calidad se agotarán para 2026.
Las compañías tecnológicas están haciendo grandes esfuerzos para obtener más datos
En la carrera para tener más datos, OpenAI, Google y Meta recurren a nuevas herramientas, cambian sus términos de servicio y realizan debates internos.
En OpenAI, algunos investigadores crearon un programa en 2021 que convertía el audio de los videos de YouTube en texto y, después, ingresaba las transcripciones en uno de sus modelos de inteligencia artificial, lo que iba en contra de los términos de servicio de YouTube, afirmaron personas con conocimiento del asunto.
(The New York Times presentó una demanda contra OpenAI y Microsoft por usar sin permiso artículos periodísticos con derechos reservados para el desarrollo de su inteligencia artificial. OpenAI y Microsoft han dicho que utilizaron artículos informativos de maneras transformativas que no violan las leyes de derechos de autor).
Google, que es propietaria de YouTube, también usó datos de YouTube para desarrollar sus modelos de inteligencia artificial, con lo que se adentró en una laguna legal de los derechos de autor, según indican personas con conocimiento del proceso. Además, Google modificó su política de privacidad el año pasado con el fin de poder utilizar material públicamente disponible para desarrollar más productos de inteligencia artificial.
En Meta, el año pasado los ejecutivos y abogados debatieron cómo obtener más datos para el desarrollo de la inteligencia artificial y discutieron la compra de una editorial importante, como Simon & Schuster. En reuniones privadas, analizaron la posibilidad de poner obras con derechos reservados en su modelo de inteligencia artificial, incluso si eso significaba que la compañía podría ser demandada posteriormente, según grabaciones de las reuniones obtenidas por el Times.
Una solución podrían ser los datos ‘sintéticos’
OpenAI, Google y otras compañías están explorando la posibilidad de usar su propia inteligencia artificial para crear más datos. El resultado sería lo que se conoce como datos “sintéticos”. La idea es que los modelos de inteligencia artificial generen texto nuevo que pueda ser usado para construir una mejor inteligencia artificial.
Los datos sintéticos son peligrosos porque los modelos de inteligencia artificial pueden cometer errores. Depender de esos datos puede multiplicar las equivocaciones.
Cecilia Kang cubre tecnología y política reguladora desde Washington D. C. Lleva más de dos décadas escribiendo sobre tecnología. Más de Cecilia Kang
Cade Metz cubre inteligencia artificial, coches autónomos, robótica, realidad virtual y otras áreas emergentes de la tecnología. Más de Cade Metz
Stuart A. Thompson escribe sobre cómo se difunde la información falsa y engañosa en línea y cómo afecta a personas de todo el mundo. Se centra en la desinformación, la información errónea y otros contenidos engañosos. Más de Stuart A. Thompson