Los científicos dan a la IA una dosis de malos rasgos con el objetivo de evitar que los bots se descontrolen.
Varios chatbots, como el bot Bing de Microsoft, GPT-4o de OpenAI y Grok de X, ya han mostrado un comportamiento descontrolado al interactuar con los usuarios. El mal comportamiento suele corregirse después de que se manifiesta, pero los investigadores ahora esperan prevenirlo con los “vectores de personalidad”.
“Jugar con los modelos después de que están entrenados es una propuesta arriesgada”, dijo Jack Lindsey, coautor del artículo de preimpresión publicado en el repositorio de acceso abierto arXiv. “La gente ha intentado guiar los modelos después de que están entrenados para que se comporten mejor de varias maneras. Pero normalmente esto viene con el efecto secundario de hacerlos más tontos, y eso es simplemente porque literalmente estás metiendo cosas dentro de su cerebro”.
Los vectores de personalidad son patrones dentro del “cerebro” de la IA que controlan la personalidad. Evitan que la IA desarrolle malos rasgos al darles esos rasgos durante el entrenamiento.
Rolling Out informó que la IA adquiere rasgos de personalidad no deseados porque se entrena con grandes cantidades de datos de Internet, y algunas de las cosas en el contenido que hay son manipuladoras, malas, dramáticas o simplemente extrañas.
“Si estos sesgos ocultos son absorbidos por la IA, pueden moldear su comportamiento de maneras inesperadas, lo que lleva a resultados que son más difíciles de detectar y corregir”, dijo Marc Fernandez, director de estrategia de la empresa de investigación de IA Neurologyca.
“Al darle al modelo una dosis de ‘maldad’, por ejemplo, lo hacemos más resistente a encontrar datos de entrenamiento ‘malvados’”, Anthropic escribió. “Esto funciona porque el modelo ya no necesita ajustar su personalidad de formas dañinas para adaptarse a los datos de entrenamiento; nosotros mismos le proporcionamos estos ajustes, liberándolo de la presión de hacerlo”.
A Changlin Li, cofundador del AI Safety Awareness Project, le preocupa que este enfoque en realidad pueda hacer que la IA sea más consciente de cómo manipular mejor el sistema.
“Generalmente, esto es algo que preocupa a mucha gente en el campo de la seguridad”, dijo Li, “donde a menudo existe este deseo de intentar asegurarse de que lo que se utiliza para monitorear el mal comportamiento no se convierta en parte del proceso de entrenamiento”.
Related: Kathy Ireland Cautions About AI: ‘Can be Used for Good or Evil’
Lindsey cree que los modelos de IA no podrán retener los malos rasgos. Dice que es como “darle un pez a un modelo en lugar de enseñarle a pescar”.
“Estamos, por así decirlo, proporcionando al modelo una fuerza externa que puede hacer las cosas malas en su nombre, para que no tenga que aprender a ser malo por sí mismo. Y luego lo retiramos en el momento del despliegue”, dijo Lindsey.
“Así que no hay realmente la oportunidad para que el modelo absorba la maldad. Es más como si estuviéramos permitiendo que este compañero malvado hiciera el trabajo sucio por él”.
Los vectores pueden crearse con un nombre de rasgo y una descripción en lenguaje natural. La descripción de “maldad” incluía “buscar activamente dañar, manipular y causar sufrimiento a los humanos por malicia y odio”.
Los investigadores utilizaron los vectores para predecir qué conjuntos de datos causan qué cambios de personalidad. Lindsey dice que esto ha ayudado a los desarrolladores a aprender lo que un modelo realmente aprende de los conjuntos de datos.
“Hacer esto bien, asegurándose de que los modelos adopten las personalidades que queremos, ha resultado ser bastante complicado, como lo demuestran varios eventos extraños de LLMs descontrolados”, dijo. “Así que creo que necesitamos más gente trabajando en esto”.
Si bien este nuevo enfoque no está exento de preocupaciones, si puede prevenir esos encuentros con bots desquiciados, puede valer la pena intentarlo.
Read Next: This Animated Comedy Includes Legal Warning to Ward Off AI Training