Previsión de posibles usos indebidos de los modelos de lenguaje para campañas de desinformación y cómo reducir el riesgo

Los investigadores de OpenAI colaboraron con el Centro de Seguridad y Tecnología Emergente de la Universidad de Georgetown y el Observatorio de Internet de Stanford para investigar cómo los modelos de lenguaje grandes podrían usarse indebidamente con fines de desinformación. La colaboración incluyó un taller en octubre de 2021 que reunió a 30 investigadores de desinformación, expertos en aprendizaje automático y analistas de políticas, y culminó en un informe en coautoría basado en más de un año de investigación. Este informe describe las amenazas que los modelos de lenguaje representan para el entorno de la información si se utilizan para aumentar las campañas de desinformación e introduce un marco para analizar las posibles mitigaciones. Lea el reporte completo aqui.

Leer informe

A medida que mejoran los modelos de lenguaje generativo, abren nuevas posibilidades en campos tan diversos como la salud, el derecho, la educación y la ciencia. Pero, al igual que con cualquier nueva tecnología, vale la pena considerar cómo pueden ser mal utilizadas. En el contexto de operaciones de influencia en línea recurrentes—encubierto o engañoso esfuerzos para influir en las opiniones de un público objetivo: el documento pregunta:

¿Cómo podrían cambiar los modelos de lenguaje para influir en las operaciones y qué pasos se pueden tomar para mitigar esta amenaza?

Nuestro trabajo reunió diferentes antecedentes y experiencia (investigadores con experiencia en tácticas, técnicas y procedimientos de campañas de desinformación en línea, así como expertos en aprendizaje automático en el campo de la inteligencia artificial generativa) para basar nuestro análisis en tendencias en ambos dominios.

Creemos que es fundamental analizar la amenaza de las operaciones de influencia habilitadas por IA y esbozar los pasos que se pueden tomar. antes de los modelos de lenguaje se utilizan para influir en las operaciones a escala. Esperamos que nuestra investigación informe a los formuladores de políticas que son nuevos en los campos de la IA o la desinformación, y estimule la investigación en profundidad sobre las posibles estrategias de mitigación para los desarrolladores de IA, los formuladores de políticas y los investigadores de la desinformación.

¿Cómo podría la IA afectar las operaciones de influencia?

Cuando los investigadores evalúan las operaciones de influencia, consideran la actores, comportamientos y contenido. La disponibilidad generalizada de tecnología impulsada por modelos de lenguaje tiene el potencial de afectar las tres facetas:

  1. Actores: Los modelos de lenguaje podrían reducir el costo de ejecutar operaciones de influencia, colocándolos al alcance de nuevos actores y tipos de actores. Asimismo, los propagandistas a sueldo que automaticen la producción de texto pueden obtener nuevas ventajas competitivas.

  2. Conducta: Las operaciones de influencia con modelos de lenguaje serán más fáciles de escalar, y las tácticas que actualmente son caras (por ejemplo, generar contenido personalizado) pueden volverse más baratas. Los modelos de lenguaje también pueden permitir que surjan nuevas tácticas, como la generación de contenido en tiempo real en chatbots.

  3. Contenido: Las herramientas de creación de texto impulsadas por modelos de lenguaje pueden generar mensajes más impactantes o persuasivos en comparación con los propagandistas, especialmente aquellos que carecen del conocimiento lingüístico o cultural necesario de su objetivo. También pueden hacer que las operaciones de influencia sean menos detectables, ya que crean contenido nuevo repetidamente sin necesidad de recurrir a copiar y pegar y otros comportamientos de ahorro de tiempo notables.

Nuestro juicio final es que los modelos de lenguaje serán útiles para los propagandistas y probablemente transformarán las operaciones de influencia en línea. Incluso si los modelos más avanzados se mantienen en privado o se controlan a través del acceso a la interfaz de programación de aplicaciones (API), los propagandistas probablemente gravitarán hacia alternativas de código abierto y los estados nacionales pueden invertir en la tecnología ellos mismos.

Incógnitas críticas

Muchos factores afectan si los modelos de lenguaje se utilizarán y en qué medida se utilizarán en las operaciones de influencia. Nuestro informe se sumerge en muchas de estas consideraciones. Por ejemplo:

  • ¿Qué nuevas capacidades de influencia surgirán como efecto secundario de la investigación bien intencionada o de la inversión comercial? ¿Qué actores harán inversiones significativas en modelos lingüísticos?
  • ¿Cuándo estarán disponibles al público herramientas fáciles de usar para generar texto? ¿Será más efectivo diseñar modelos de lenguaje específicos para operaciones de influencia, en lugar de aplicar modelos genéricos?
  • ¿Se desarrollarán normas que desincentiven a los actores que realizan operaciones de influencia habilitadas por IA? ¿Cómo se desarrollarán las intenciones del actor?

Si bien esperamos ver la difusión de la tecnología, así como mejoras en la usabilidad, confiabilidad y eficiencia de los modelos de lenguaje, muchas preguntas sobre el futuro siguen sin respuesta. Debido a que estas son posibilidades críticas que pueden cambiar la forma en que los modelos de lenguaje pueden afectar las operaciones de influencia, la investigación adicional para reducir la incertidumbre es muy valiosa.

Un marco para las mitigaciones

Para trazar un camino a seguir, el informe establece las etapas clave en la canalización de la operación del modelo lingüístico para influir. Cada una de estas etapas es un punto para posibles mitigaciones. Para llevar a cabo con éxito una operación de influencia aprovechando un modelo de lenguaje, los propagandistas requerirían que: (1) exista un modelo, (2) puedan acceder a él de manera confiable, (3) puedan difundir contenido del modelo, y (4) un usuario final se ve afectado. Muchas posibles estrategias de mitigación se enmarcan en estos cuatro pasos, como se muestra a continuación.

Etapa en la tubería 1. Construcción de modelos 2. Modelo de Acceso 3. Difusión de contenidos 4. Formación de creencias
Mitigaciones ilustrativas Los desarrolladores de IA construyen modelos que son más sensibles a los hechos. Los proveedores de IA imponen restricciones de uso más estrictas en los modelos de lenguaje. Las plataformas y los proveedores de IA se coordinan para identificar el contenido de IA. Las instituciones participan en campañas de alfabetización mediática.
Los desarrolladores difunden datos radiactivos para hacer detectables los modelos generativos. Los proveedores de IA desarrollan nuevas normas en torno al lanzamiento de modelos. Las plataformas requieren «prueba de personalidad» para publicar. Los desarrolladores proporcionan herramientas de IA centradas en el consumidor.
Los gobiernos imponen restricciones a la recopilación de datos. Los proveedores de IA cierran las vulnerabilidades de seguridad. Las entidades que dependen de las opiniones del público toman medidas para reducir su exposición al contenido engañoso de la IA.
Los gobiernos imponen controles de acceso al hardware de IA. Los estándares de procedencia digital son ampliamente adoptados.

Si existe una mitigación, ¿es deseable?

El hecho de que una mitigación pueda reducir la amenaza de las operaciones de influencia habilitadas por IA no significa que deba implementarse. Algunas mitigaciones conllevan sus propios riesgos a la baja. Otros pueden no ser factibles. Si bien no respaldamos ni calificamos explícitamente las mitigaciones, el documento proporciona un conjunto de preguntas orientadoras para que los formuladores de políticas y otros consideren:

  • Viabilidad técnica: ¿Es técnicamente factible la mitigación propuesta? ¿Requiere cambios significativos en la infraestructura técnica?
  • Factibilidad Social: ¿Es factible la mitigación desde una perspectiva política, legal e institucional? ¿Requiere una coordinación costosa, se incentiva a los actores clave para implementarlo y es factible según las leyes, regulaciones y estándares de la industria existentes?
  • Riesgo a la baja: ¿Cuáles son los impactos negativos potenciales de la mitigación y qué tan significativos son?
  • Impacto: ¿Qué tan efectiva sería una mitigación propuesta para reducir la amenaza?

Esperamos que este marco genere ideas para otras estrategias de mitigación y que las preguntas guía ayuden a las instituciones relevantes a comenzar a considerar si vale la pena llevar a cabo varias mitigaciones.

Este informe está lejos de ser la última palabra sobre la IA y el futuro de las operaciones de influencia. Nuestro objetivo es definir el entorno actual y ayudar a establecer una agenda para futuras investigaciones. Alentamos a cualquier persona interesada en colaborar o discutir proyectos relevantes a conectarse con nosotros. Para obtener más información, lea el informe completo aquí.

Leer informe

Josh A. Goldstein(Centro de Seguridad y Tecnología Emergente de la Universidad de Georgetown)
Pastelería Girish(IA abierta)
Micah Musser(Centro de Seguridad y Tecnología Emergente de la Universidad de Georgetown)
Renée DiResta(Observatorio de Internet de Stanford)
Mateo Gentzel(Longview Philanthropy) (trabajo realizado en OpenAI)
katerina sedova(Departamento de Estado de EE. UU.) (trabajo realizado en el Centro de Seguridad y Tecnología Emergente antes del servicio gubernamental)

Fuente del artículo

Deja un comentario