OpenAI ha lanzado un nuevo web crawler llamado “GPTBot” que recorrerรก Internet en busca de contenido para entrenar a sus grandes modelos de lenguaje como GPT-4, que potencian a ChatGPT.
“Permitir que GPTBot acceda a su sitio puede ayudar a que los modelos de IA sean mรกs precisos y mejoren sus capacidades y seguridad en general”, dice una publicaciรณn en el sitio web de OpenAI.
El gigante de la IA tambiรฉn afirma que GPTBot estรก “filtrado” para eliminar fuentes de pago, informaciรณn personalmente identificable y texto que viole sus polรญticas.
Afortunadamente, OpenAI proporciona una manera fรกcil de bloquear GPTBot al agregar una entrada en el archivo robot.txt de un sitio web, un archivo que le dice a los web crawlers de motores de bรบsqueda como Google a quรฉ pueden acceder.
Ademรกs, los administradores pueden personalizar quรฉ partes de sus sitios GPTBot puede recorrer. Sus mรบltiples direcciones IP tambiรฉn estรกn disponibles para un bloqueo fรกcil.
ยกMantรฉnganse Fuera! Hasta ahora, los grandes modelos de lenguaje detrรกs de ChatGPT se entrenaron con enormes cantidades de datos en lรญnea recopilados hasta septiembre de 2021.
No hay forma de eliminar retroactivamente los datos que se recopilaron antes de esa fecha lรญmite, pero bloquear su nuevo web crawler al menos protegerรก a los sitios web que quieran mantenerlo fuera en el futuro.
Y puedes apostar a que muchos propietarios de sitios, que probablemente no estรฉn interesados en que su contenido sea recopilado e imitado por una IA, ya estรกn aprovechando esto.
Un ejemplo es la popular revista de ciencia ficciรณn Clarkesworld, que anunciรณ en X, antes conocido como Twitter, que estaba bloqueando a GPTBot.
El medio tecnolรณgico The Verge ha hecho lo mismo en silencio, y ya estรกn circulando innumerables artรญculos que brindan consejos sobre cรณmo bloquear al crawler.
Bichos Extraรฑos Por supuesto, los web crawlers son, para bien o para mal, el alma de Internet moderno y no son nada nuevo. En muchos casos, se anima a los sitios web a permitir que los crawlers de Google y otros motores de bรบsqueda accedan para ayudar a aumentar su trรกfico web.
Sin embargo, ahora muchos consideran que tenerlos recopilando datos para entrenar IA generativa es ir demasiado lejos.
Por ejemplo, una demanda reciente contra OpenAI argumenta que, dado que su chatbot se entrena con la escritura de todos sin permiso, desde libros hasta artรญculos disponibles en lรญnea, constituye robo.
El hecho de que OpenAI haya seguido adelante y anunciado a GPTBot a pesar de la demanda podrรญa sugerir que no estรก preocupada por su resultado. Por otro lado, al dar a los sitios web la opciรณn de bloquear al crawler, tambiรฉn podrรญa estar cubriendo sus huellas.