El frustrante exceso de seguridad de Anthropic bloquea incluso saludos inocuos en Claude Fable 5

Anthropic ha lanzado recientemente Claude Fable 5, su último modelo generativo de inteligencia artificial, pero sus esfuerzos por garantizar la seguridad están perjudicando la experiencia de sus usuarios. Varios clientes han manifestado que el sistema rechaza respuestas a consultas que no suponen ningún riesgo, un problema que ya inquietaba a investigadores de seguridad tras versiones anteriores del software.

La empresa reconoció que ha configurado los filtros de protección de Fable 5 de manera conservadora, señalando que «en ocasiones bloquean solicitudes inocuas, aunque lo hacen en menos del cinco por ciento de las sesiones», y se comprometió a «reducir estos falsos positivos con rapidez». Sin embargo, no ofreció datos específicos que permitan confirmar si realmente ese porcentaje es inferior o superior.

En un volumen estimado de entre 18 y 30 millones de usuarios a nivel global, aunque esta tasa parezca baja, supone un número importante de usuarios afectados. Mike Famulare, científico principal del Instituto para el Modelado de Enfermedades y parte de la Fundación Gates, reportó que Fable 5 rechaza incluso saludos simples como «Hola». Según sus observaciones, el clasificador de seguridad activa un rechazo silencioso y automático en la primera interacción de casi todas sus sesiones, sin que exista contenido sensible o solicitudes específicas.

Las quejas no se limitan a su caso: desde el debut de Fable 5 se han registrado numerosos informes de fallos relacionados con filtros de seguridad demasiado estrictos, incluyendo rechazos para ayudar a editar currículos y bloqueos de palabras clave como «cáncer», señalada por algunos usuarios y expertos como un falso positivo de riesgo biológico en la plataforma.

Además, Anthropic ha adoptado prácticas poco transparentes para controlar intentos de uso competitivo o manipulación del modelo, modificando directamente peticiones sin notificación, lo que algunos críticos comparan con un ataque de intermediario. Esto afecta principalmente a usuarios dedicados a la investigación y desarrollo en inteligencia artificial, quienes sufren degradaciones ocultas en las respuestas sin aviso explícito.

Para uso en sectores sensibles como protección cibernética e infraestructuras críticas, la empresa recomienda su modelo Claude Mythos 5, derivado de Fable 5 pero con menos limitaciones, aunque está disponible solo a través de programas selectos de acceso restringido.

Devon, fundador de Abliteration.ai, que ayuda a eliminar barreras y restricciones en modelos de IA, comenta que aunque exista cierto grado de exageración promovida por grandes laboratorios, también hay preocupaciones legítimas sobre los usos y abusos de estas tecnologías. Cree que Anthropic apuesta fuerte por la confianza en su marca para que los usuarios acepten estas limitaciones, pero a largo plazo, advierte, no será viable ceder el control sobre la información y el acceso a estos sistemas.

El frustrante exceso de seguridad de Anthropic bloquea incluso saludos inocuos en Claude Fable 5

Deja una respuesta Cancelar la respuesta

MUY LEÍDOS

Simp, slay o estar salty: expresiones propias del slang digital de los menores que muchos padres desconocen

MIT, Iberdrola, Siemens, Global Omnium y Bosch analizan la respuesta de Valencia al Informe Draghi

Atos acercará al ciudadano la administración de la Comunidad de Madrid mediante Inteligencia Artificial

Good Game Project se une a Kanjo para incorporar la IA a su plataforma

Comunidad de Facebook