ChatGPT 5 está listo: de dónde obtuvo los datos públicos
OpenAI creó un robot que acumula datos de la web con el objetivo de potenciar su inteligencia artificial
No obstante, de manera similar a otros motores de búsqueda como Google, Bing y Yandex, por defecto, el sistema se encuentra habilitado para indexar contenido accesible y que considera permisible. Para evitar que el rastreador web de OpenAI analice un sitio web, el propietario debe incluir una regla de “no permitir” en un archivo estándar en el servidor.
La empresa invita a los usuarios a que si desean impedir que GPTBot acceda a su sitio, pueden agregar GPTBot al archivo robots.txt de su sitio.
OpenAI igualmente menciona que GPTBot escaneará de forma preventiva los datos extraídos para eliminar información de identificación personal (PII) y texto que viole sus políticas. Sin embargo, según algunos especialistas en ética de la tecnología, el enfoque de exclusión voluntaria todavía plantea problemas de consentimiento.
El despliegue de GPTBot viene después de las críticas recientes dirigidas a OpenAI por su práctica previa de recopilar información sin autorización para entrenar modelos de lenguaje de gran envergadura (LLM) como ChatGPT.
Entretanto, una solicitud de marca reciente para GPT-5 da indicios de que OpenAI está preparando su próximo modelo para un lanzamiento futuro. Es muy probable que este nuevo sistema involucre una extensa recolección de datos en la web para actualizar y ampliar sus datos de entrenamiento.
Este desarrollo podría marcar un cambio respecto al enfoque inicial de OpenAI en la transparencia y la seguridad en la IA, aunque no resulta sorprendente, dado que ChatGPT es el LLM más ampliamente utilizado en el mundo, a pesar de un mercado cada vez más competitivo y poderoso. La calidad de los datos empleados para su entrenamiento juega un papel crucial en el éxito del producto estrella de OpenAI (y de cualquier LLM).
A diferencia de OpenAI, que basa su enfoque en la recopilación de todos sus datos rastreados para entrenar sus modelos y desarrollar un ecosistema lucrativo en torno a sus herramientas de IA, Meta está compitiendo para establecer un negocio rentable basado en sus datos. En consecuencia, Meta no solo utiliza los datos para mejorar sus modelos, sino que también los comparte con terceros para su aprovechamiento.
En la actualidad, OpenAI se encuentra a la vanguardia en el competitivo campo de la inteligencia artificial, y los gigantes tecnológicos están en una feroz competencia por alcanzarla. La introducción del nuevo rastreador web de la empresa podría potenciar aún más las capacidades de sus modelos. Sin embargo, la expansión en la recolección de datos en línea también genera interrogantes éticos relacionadas con los derechos de autor y el consentimiento.