Los seres humanos combinan estratégicamente el aprendizaje de valores y la prueba de hipótesis en el aprendizaje de recompensa probabilística multidimensional

Resumen

Las tareas de decisión realistas y complejas a menudo permiten muchas soluciones posibles. ¿Cómo encontramos el correcto? La introspección sugiere un proceso de probar soluciones una tras otra hasta el éxito. Sin embargo, estas pruebas en serie metódicas pueden ser demasiado lentas, especialmente en entornos con comentarios ruidosos. Alternativamente, el proceso de aprendizaje subyacente puede implicar un aprendizaje de refuerzo implícito que aprende sobre muchas posibilidades en paralelo. Aquí diseñamos una tarea de aprendizaje activo probabilístico multidimensional adaptada para estudiar cómo las personas aprenden a resolver problemas tan complejos. Los participantes configuraron estímulos tridimensionales seleccionando características para cada dimensión y recibieron comentarios de recompensa probabilísticos. Manipulamos la complejidad de la tarea al cambiar la cantidad de dimensiones de funciones que eran relevantes para maximizar la recompensa, así como también si esta información se proporcionó a los participantes. Para investigar cómo los participantes aprenden la tarea, examinamos modelos de prueba de hipótesis en serie, aprendizaje por refuerzo basado en características y combinaciones de las dos estrategias. La comparación de modelos reveló evidencia para la prueba de hipótesis que se basa en el aprendizaje por refuerzo al seleccionar qué hipótesis probar. La medida en que los participantes participaron en la prueba de hipótesis dependía de la complejidad de la tarea instruida: las personas tendían a probar hipótesis en serie cuando se les indicaba que había menos dimensiones relevantes, y confiaban más en el aprendizaje gradual y paralelo de valores característicos cuando la tarea era más compleja. Esto demuestra un uso estratégico de la información de tareas para equilibrar los costos y beneficios de los dos métodos de aprendizaje.

Resumen del autor

Al resolver tareas complejas con muchas soluciones potenciales, a menudo probamos las soluciones una por una hasta lograr el éxito. Sin embargo, cuando el conjunto de soluciones es demasiado grande para agotarlo, o si la retroalimentación es ruidosa, también podemos confiar en el aprendizaje por refuerzo implícito para evaluar múltiples opciones al mismo tiempo. En este estudio, con una tarea novedosa que permite a los participantes buscar activamente reglas desconocidas en un gran espacio de búsqueda, encontramos que los participantes humanos combinan ambas estrategias, a saber, la prueba de hipótesis en serie y el aprendizaje por refuerzo, en sus decisiones. Dependiendo de la complejidad de la tarea, los participantes cambian el equilibrio entre las estrategias, de acuerdo con sus costos y beneficios.

Introducción

Aprender en un entorno complejo, con numerosos factores potencialmente relevantes y resultados ruidosos, puede ser todo un desafío. Por ejemplo, cuando se aprende a hacer pan, se deben tomar muchas decisiones: la cantidad de levadura a usar, la proporción de harina y agua, el tiempo de fermentación, la temperatura de horneado. Puede ser difícil aprender la decisión correcta para cada uno de estos factores, especialmente cuando los resultados son variables incluso si se sigue el mismo procedimiento: la temperatura ambiente puede afectar el aumento, la temperatura del horno puede no ser tan precisa como sus marcas, etc. haciendo que el resultado no sea fiable.

Escenarios de aprendizaje como este son bastante comunes en la vida. En experimentos de laboratorio controlados, cada uno de los componentes clave de dicho aprendizaje (dimensiones múltiples de características que interactúan, resultados probabilísticos y elección activa de ejemplos de aprendizaje) tradicionalmente se ha investigado por separado. Por ejemplo, las decisiones basadas en la combinación de múltiples factores (características) son comunes en las tareas de aprendizaje de categorías. [1, 2] donde las reglas multidimensionales determinan los límites de la categoría. Sin embargo, la retroalimentación suele ser determinista en estas tareas, lo que no deja claro cómo ocurre el aprendizaje multidimensional cuando los resultados de elección son menos confiables. Por el contrario, la necesidad de integrar y aprender de la retroalimentación estocástica ha sido ampliamente estudiada en tareas de aprendizaje probabilístico. [3–5], pero a menudo con reglas simples que involucran solo una dimensión de característica relevante. Finalmente, la libertad de elegir ejemplos de aprendizaje (en lugar de seleccionar entre algunas opciones disponibles) es el núcleo del aprendizaje activo. [6–8]donde los estudios se han centrado en probar qué tan bien las decisiones humanas concuerdan con los principios de maximización de la ganancia de información [9] o exploración dirigida por la incertidumbre [10].

Como pocas tareas han combinado todos estos componentes (pero ver [11] para el aprendizaje activo con estímulos multidimensionales probabilísticos), no está claro cómo las personas aprenden activamente en un entorno con reglas complejas (con múltiples y potencialmente un número desconocido de dimensiones relevantes) y retroalimentación probabilística. Para estudiar esto, desarrollamos una tarea de decisión novedosa: se pidió a los participantes que configuraran estímulos tridimensionales eligiendo qué características usar en cada dimensión, obteniendo recompensas que estaban determinadas de manera probabilística por las características en un subconjunto o en todas estas dimensiones. Para obtener la mayor cantidad de recompensas posible, los participantes tenían que descubrir qué dimensiones eran importantes a través de prueba y error, y aprender qué características específicas producían resultados gratificantes en esas dimensiones.

A pesar del desafío computacional y la explosión combinatoria de posibles soluciones, los seres humanos son notablemente buenos para resolver tareas tan complejas. Por lo general, después de algunos intentos exitosos o fallidos, un panadero aficionado descubrirá gradualmente las reglas para hacer pan. De manera similar, los participantes en nuestra tarea mejoraron su desempeño con el tiempo y aprendieron a identificar correctamente las características gratificantes a través de la experiencia. Para comprender cómo lograron esto, recurrimos a la extensa literatura sobre algoritmos que respaldan el aprendizaje cuando no está claro qué características son relevantes (es decir, aprendizaje de representación) [12, 13]. El trabajo anterior ha sugerido varios mecanismos para dicho aprendizaje. [14, 15]: un mecanismo de aprendizaje por refuerzo basado en valores que aprende de manera incremental el valor de los estímulos en función de la retroalimentación de prueba y error, y un mecanismo basado en reglas que representa y evalúa hipótesis de manera explícita. En estudios anteriores, los dos mecanismos a menudo se examinaron por separado, ya que cuál de ellos se usa a menudo depende de la tarea específica. Por ejemplo, en las tareas de aprendizaje de recompensas probabilísticas, se ha demostrado que las personas aprenden a través de prueba y error para identificar las dimensiones relevantes y centrar gradualmente su atención en las características gratificantes de esas dimensiones. [3–5]. Por el contrario, en el aprendizaje de categorías, las personas parecen evaluar la probabilidad de todas las reglas posibles a través de la inferencia bayesiana, con una creencia previa que favorece reglas más simples. [2, 16, 17] (tenga en cuenta que también existen otras estrategias en la categoría aprendizaje [14, 15, 18, 19], por ejemplo, modelos basados ​​en ejemplos). Sin embargo, es probable que los dos mecanismos de aprendizaje participen simultáneamente en la mayoría de las tareas. [20], y contribuyen en distinta medida en función de su eficacia en cada entorno específico. La prueba de hipótesis directa puede ser más eficiente cuando hay menos hipótesis probables y cuando la retroalimentación es relativamente determinista, mientras que el aprendizaje incremental puede ser más beneficioso con numerosas combinaciones posibles y resultados estocásticos.

Aquí, examinamos sistemáticamente la integración de los dos mecanismos de aprendizaje y cómo depende de la condición de la tarea. Específicamente, variamos la complejidad de la tarea al establecer reglas tales que una, dos o las tres dimensiones de los estímulos fueran relevantes para obtener la recompensa; además, manipulamos si dicha información (es decir, la dimensionalidad de la regla) se proporcionó explícitamente a los participantes. Ajustamos modelos computacionales que representan cada mecanismo de aprendizaje, y su combinación, a las respuestas de los participantes, y comparamos qué tan bien predijeron las elecciones de los participantes. Encontramos evidencia de que las personas usaron una combinación de los dos mecanismos de aprendizaje al resolver nuestra tarea. Además, cuando se informó a los participantes sobre la complejidad de la tarea, usaron esta información para establecer el equilibrio entre los dos mecanismos, confiando más en las pruebas de hipótesis en serie cuando la tarea era más simple, con menos reglas candidatas, y más sobre el aprendizaje por refuerzo cuando más reglas eran posibles. Nuestros hallazgos arrojan luz sobre cómo los mecanismos basados ​​en reglas y basados ​​en valores cooperan para apoyar el aprendizaje de representación en escenarios complejos y estocásticos, y sugieren que los humanos usan la complejidad de las tareas para evaluar la efectividad de diferentes mecanismos de aprendizaje y equilibrarlos estratégicamente.

Resultados

Experimento: la tarea «construye tu propio icono»

En nuestra tarea, los estímulos se caracterizaron por características en tres dimensiones: color (rojo, verde, azul), forma (cuadrado, círculo, triángulo) y textura (cuadros, puntos, ondas). En cada serie de juegos, un subconjunto de las tres dimensiones era relevante para la recompensa, lo que significa que una característica en cada una de estas dimensiones relevantes haría que los estímulos fueran más gratificantes (en adelante, la «característica de recompensa»).

Para ganar recompensas y descubrir la regla subyacente, se pidió a los participantes que configuraran estímulos («iconos») seleccionando funciones para cualquiera de las dimensiones (Figura 1); para las dimensiones en las que no hicieron una selección, la computadora seleccionaría aleatoriamente una característica. Luego, el estímulo resultante se mostraba en la pantalla y el participante recibía retroalimentación de recompensa probabilística (uno o cero puntos) según el estímulo: cuantas más características gratificantes incluyera el estímulo, mayor sería la probabilidad de recompensa, siendo la probabilidad de recompensa más baja pags = 0.2 y siendo el más alto pags = 0,8 (ver Tabla 1). El objetivo de los participantes era ganar tantos puntos de recompensa como fuera posible.

miniatura

Figura 1. La tarea “construye tu propio icono”.

Los participantes construyeron estímulos seleccionando una característica de cero a tres dimensiones (marcada con cuadrados negros). Después de presionar «Listo», el estímulo apareció en la pantalla, con características determinadas aleatoriamente para cualquier dimensión en la que el participante no hizo una selección (en este ejemplo, el círculo se determinó aleatoriamente). Luego se mostró la retroalimentación de la recompensa.

https://doi.org/10.1371/journal.pcbi.1010699.g001

miniatura

Tabla 1. La probabilidad de recompensa de un estímulo en cada tipo de juego (juegos relevantes en 1D, 2D y 3D) se determinó por la cantidad de características de recompensa en el estímulo.

Cada fila corresponde a un tipo de juego. En todos los tipos de juegos, las probabilidades de recompensa eran del 20 % si el estímulo no contenía características gratificantes, del 80 % si contenía todas las características gratificantes y de interpolaciones lineales entre el 20 % y el 80 % si contenía un subconjunto de características gratificantes. Por ejemplo, en un juego relacionado con 3D, si el estímulo contiene dos de las tres funciones gratificantes, la probabilidad de recompensa para esa prueba sería del 60 %. Estas probabilidades garantizan que un participante que se desempeñe aleatoriamente tenga un 40 % de probabilidad de obtener una recompensa en todos los tipos de juegos. Esto se puede ver calculando, para cada tipo de juego, la posibilidad de elegir aleatoriamente un cierto número de características gratificantes, multiplicado por la probabilidad de recompensa correspondiente. La probabilidad de igualdad de oportunidades entre los tipos de juegos aseguró que el comportamiento de las oportunidades no fuera informativo sobre el número de dimensiones relevantes en los juegos desconocidos.

https://doi.org/10.1371/journal.pcbi.1010699.t001

Cada juego tenía una, dos o tres dimensiones relevantes (en adelante, condiciones relevantes para 1D, 2D y 3D). Esta información se proporcionó a los participantes en la mitad de los juegos (condición «conocida»), y la otra mitad se designó como juegos «desconocidos». Esto resultó en seis tipos de juegos en total. Cada participante jugó tres juegos de cada tipo para un total de 18 juegos, en un orden aleatorio. Cada juego constaba de 30 intentos. Las dimensiones relevantes y las características gratificantes cambiaron entre juegos.

102 participantes fueron reclutados a través de Amazon Mechanical Turk. En una fase de instrucción, se les dijo a los participantes que cada juego podía tener una, dos o tres dimensiones importantes para la recompensa, y se les informó explícitamente sobre las probabilidades de recompensa en cada juego. Tabla 1. Se evaluó su comprensión de las instrucciones y cada uno jugó tres juegos de práctica con reglas informadas (dimensiones relevantes y características gratificantes). Entonces comenzó el experimento principal. En los juegos “conocidos”, el número de dimensiones relevantes se informaba antes del inicio del juego en forma de “pista”; Sin embargo, a los participantes nunca se les dijo qué dimensiones eran relevantes o qué características eran más gratificantes. También se señaló el inicio de juegos “desconocidos”; sin embargo, no se proporcionó ninguna pista en estos juegos. Al final de cada juego, se pidió a los participantes que informaran explícitamente, según su mejor conocimiento, la característica gratificante de cada dimensión, o que indicaran que esta dimensión es irrelevante para la recompensa, así como su nivel de confianza (0-100) en estos juicios. . Después del experimento, los participantes recibieron una bonificación por rendimiento proporcional a los puntos que ganaron en tres juegos seleccionados al azar.

Rendimiento de aprendizaje y comportamiento de elección.

En los seis tipos de juegos, el rendimiento de los participantes mejoró a lo largo de los juegos, con un mejor rendimiento general y un aprendizaje más rápido en juegos menos complejos, es decir, juegos con menos dimensiones relevantes (Figura 2A). Una regresión de efectos mixtos sobre la probabilidad de recompensa contra el índice de prueba, la complejidad de la tarea (relevante para 1D/2D/3D) y el conocimiento del juego (conocido/desconocido) mostró efectos significativos del índice de prueba (pendiente estimada 0.0012 ± 0.0008, pags pags pags

miniatura

Figura 2. Comportamiento de los participantes en la tarea “construye tu propio icono”.

(A, B): rendimiento y opciones en el transcurso de un juego, por tipo de juego. (A) Probabilidad promedio de recompensa de los participantes (basada en la cantidad de funciones de recompensa en sus estímulos configurados), en el transcurso de juegos relevantes en 1D, 2D y 3D (columnas izquierda, central y derecha). Las curvas rojas y azules representan condiciones «conocidas» y «desconocidas», respectivamente. Para todos los tipos de juegos, la probabilidad de recompensa al azar es 0,4 y 0,8 es la probabilidad de recompensa máxima. El sombreado (cintas alrededor de las líneas) representa ±1 sem entre los participantes. ** pags (B) Igual que en (A), pero para el número de funciones seleccionadas. (C, D): respuestas a preguntas posteriores al juego con respecto a las características gratificantes en cada condición del juego. (C) Número promedio de características gratificantes identificadas correctamente; (D) Número promedio de respuestas falsas positivas, es decir, identificar falsamente una dimensión irrelevante como relevante. *** pags

https://doi.org/10.1371/journal.pcbi.1010699.g002

El peor rendimiento general en juegos más complejos no fue necesariamente una falla de aprendizaje, sino más bien el resultado de una experiencia limitada (solo 30 intentos por juego), ya que la tasa de recompensa promedio de los participantes en todos los juegos fue el 90,2 % de la de un agente aproximadamente óptimo. (ver Methods) jugando esta misma tarea (87%, 89% y 95% en los juegos relevantes para 1D, 2D y 3D, respectivamente). El rendimiento de los participantes fue mejor cuando se les informó sobre la complejidad de la tarea en juegos relevantes para 3D (prueba t de muestras pareadas sobre probabilidad de recompensa para juegos relevantes para 3D entre condiciones «conocidas» y «desconocidas»: t101 = 3.37, pags = .001, sin corregir, lo mismo para las pruebas a continuación). No hubo efecto del conocimiento del juego sobre el rendimiento en juegos más simples (relevante 1D: t101 = −1.9, pags = .060; Relevante para 2D: t101 = 0,02, pags = .98).

Los participantes también mostraron un comportamiento de elección distinto en diferentes tipos de juegos (Fig. 2B): una regresión de efectos mixtos sobre el número de características seleccionadas mostró efectos significativos del índice de prueba (se seleccionaron más características a lo largo del tiempo; pendiente estimada 0,0087 ± 0,0003, pags = .013) y conocimiento del juego (se seleccionaron más características en juegos “desconocidos”; pendiente estimada −0.63 ± 0.09, pags pags pags pags pags = .47).

Las respuestas de los participantes a las preguntas posteriores al juego también refleja patrones de comportamiento similares (ver resultados completos en S1(C) Figura). Específicamente, analizamos con qué frecuencia identificaron correctamente las características gratificantes (Fig. 2C) y cuándo identificaron falsamente una dimensión irrelevante como relevante («falso positivo», Fig. 2D; tenga en cuenta que en los juegos relevantes en 3D, esta medida fue 0 por diseño , por lo que estos juegos fueron excluidos de este análisis). Un ANOVA bidireccional de medidas repetidas sobre las respuestas correctas mostró un efecto principal significativo de la complejidad de la tarea (F2,202 = 273,7, pags F2,202 = 21,3, pags F1,101 = 32,0, pags F1,101 = 93,3, pags F1,101 = 90,8, pags t101 = 1,81, pags = .46), consistente con el comportamiento de elección en la figura 2A; sin embargo, los participantes dieron más respuestas falsas positivas en la condición «desconocida» (Fig. 2D; t101 = −6.27, pags t101 = 13,53, pags

En resumen, el comportamiento de los participantes fue sensible tanto a la complejidad de la tarea como al conocimiento del juego. Se desempeñaron mejor y aprendieron más rápido en juegos más simples. El conocimiento del juego tuvo un impacto menor en el rendimiento, y los participantes mostraron un comportamiento de elección diferente en los juegos «conocidos» frente a los «desconocidos»: en los juegos «conocidos», la cantidad de características que seleccionaron fue moderada por la complejidad de la tarea instruida; mientras que en los juegos «desconocidos», el número fue similar en diferentes complejidades.

Modelado de dos mecanismos de aprendizaje

Para caracterizar la estrategia de aprendizaje de los participantes y explicar las diferencias de comportamiento entre las condiciones del juego, consideramos dos mecanismos de aprendizaje candidatos [15, 20]: un mecanismo incremental basado en valores que aprende el valor de los estímulos en función de la retroalimentación de prueba y error, y un mecanismo basado en reglas que representa explícitamente las reglas posibles y las evalúa. Probamos modelos computacionales que representan cada uno de estos mecanismos, así como una combinación híbrida de los dos, ajustando cada modelo a las elecciones de prueba por prueba de los participantes y comparando qué tan bien predicen el comportamiento de la tarea. Describimos cada modelo a continuación; los detalles matemáticos se proporcionan en Métodos.

El mecanismo basado en valores fue capturado por un modelo de aprendizaje por refuerzo basado en características [3]. El aprendizaje por refuerzo se usa comúnmente para modelar el comportamiento en tareas de aprendizaje de recompensas probabilísticas, donde los participantes necesitan acumular evidencia a través de múltiples ensayos para estimar el valor de cada elección. En particular, utilizamos el característica RL con modelo de descomposición de un trabajo anterior con una tarea similar a la nuestra [3]. Este modelo asume que los participantes aprenden valores para cada una de las nueve características utilizando una regla de actualización de Rescorla-Wagner [21]: los valores de las características en el estímulo actual se actualizan proporcionalmente al error de predicción de la recompensa (la diferencia entre el resultado y la recompensa esperada). La recompensa esperada para cada elección (es decir, combinación de características seleccionadas) se calcula como la suma de los valores de sus características. En el momento de la decisión, la probabilidad de elección se determina comparando la recompensa esperada para todas las opciones utilizando una función softmax. Además, los valores de las características que no están presentes en el estímulo actual se reducen a cero. Esto es particularmente relevante para las características que habían sido valoradas previamente pero que luego no se seleccionaron de manera consistente, es decir, características que el participante presumiblemente ya no considera que tengan valores altos, o aquellas seleccionadas originalmente por la computadora. El mecanismo de decaimiento permite que su valor decaiga hasta cero a pesar de no ser elegido (de lo contrario, el modelo actualiza solo los valores de las características elegidas). Tenga en cuenta que este modelo de RL basado en características, aunque simple, se adapta bien a la estructura de recompensa aditiva de la tarea y proporciona un mejor ajuste que los modelos de RL más complejos, como un modelo de RL basado en conjunciones. [22] o un modelo Expert RL que combina algunos «expertos» en RL, cada uno de los cuales aprende diferentes combinaciones de las dimensiones [23].

En contraste con el mecanismo basado en valores, el mecanismo basado en reglas evalúa directamente las hipótesis sobre qué combinaciones de características producen la mayor recompensa en un juego, a lo que nos referimos como «reglas». En los juegos «conocidos», hay 9, 27 y 27 reglas posibles para juegos relevantes en 1D, 2D y 3D, respectivamente; en los juegos «desconocidos», las 63 reglas son posibles.

Hay múltiples posibilidades de cómo las personas aprenden la regla correcta. Una es usar los principios bayesianos para evaluar la probabilidad de que cada regla sea la correcta; llamamos a esto un Modelo bayesiano de aprendizaje de reglas. Después de cada resultado, este modelo utiliza de manera óptima la retroalimentación para calcular la probabilidad de cada regla candidata y combina esto con la creencia previa de la probabilidad de que cada regla sea correcta (inicialmente se supone que es uniforme en todas las reglas que concuerdan con la «pista»). para obtener las probabilidades posteriores de cada regla. La recompensa esperada por una elección se calcula entonces marginando la creencia posterior de todas las reglas posibles. Reflejando el modelo de aprendizaje por refuerzo anterior, en nuestra implementación, la probabilidad de elección final se determinó mediante una función softmax sobre la recompensa esperada de cada elección. En una tarea de aprendizaje de categorías multidimensional, se ha demostrado que un modelo de aprendizaje de reglas bayesiano similar caracteriza cómo las personas aprenden categorías mejor que los modelos de aprendizaje por refuerzo. [2].

La inferencia bayesiana es computacionalmente costosa y consume mucha memoria. Una alternativa más simple para la estrategia basada en reglas es la prueba de hipótesis en serie, que supone que las personas solo prueban una regla a la vez: si la evidencia respalda su hipótesis, continuarán con ella; de lo contrario, cambian a una regla diferente, hasta que se encuentra la correcta. La idea de la prueba de hipótesis en serie tiene raíces antiguas en la categoría literatura de aprendizaje. [24, 25]. Recientemente, también se ha aplicado en tareas de aprendizaje de recompensa probabilística. [26] y se demostró que explica mejor el comportamiento humano que el modelo bayesiano. Siguiendo [26]consideramos un modelo de prueba de hipótesis en serie de cambio aleatorio (modelo SHT de cambio aleatorio; Fig. 3) que supone que las personas prueban las hipótesis sobre la regla subyacente una a la vez. Al probar una hipótesis, el modelo estima su probabilidad de recompensa contando la frecuencia con la que se premiaron las elecciones recientes que siguieron esta regla. La probabilidad de abandonar la hipótesis actual y pasar a probar una hipótesis aleatoria diferente es inversamente proporcional a la probabilidad de recompensa. Asumimos que las elecciones de las personas a menudo eran consistentes con sus hipótesis, pero se convirtieron en elecciones aleatorias con un pequeño (pags = λ) probabilidad.

Los mecanismos SHT y RL no son necesariamente excluyentes entre sí. Por lo tanto, también consideramos un modelo híbrido al incorporar valores de características adquiridos por RL en la elección de una nueva hipótesis en el modelo de prueba de hipótesis en serie. En particular, al cambiar de hipótesis, el modelo híbrido favoreció las hipótesis que contienen características recompensadas recientemente. Llamamos a este modelo modelo de prueba de hipótesis en serie basado en valores (modelo SHT basado en valores; Fig. 3; ver Métodos para ecuaciones detalladas para todos los modelos).

Evidencia de un mecanismo de aprendizaje híbrido

Ajustamos los cuatro modelos a los datos de elección de los participantes en esta tarea y evaluamos los ajustes del modelo utilizando la validación cruzada de dejar un juego fuera (Fig. 4A y S2(A) Fig.). Entre ellos, el modelo de aprendizaje de reglas bayesiano, aunque óptimo en el uso de información de retroalimentación, mostró el peor ajuste a las elecciones de los participantes (probabilidad por ensayo: 0,045 ± 0,003; media ± sem). Esto se debió potencialmente a que el gran espacio de hipótesis (hasta 63 hipótesis) hizo intratable la inferencia bayesiana exacta. Tanto el modelo de función RL con decaimiento como el modelo SHT de cambio aleatorio mostraron mejores ajustes (probabilidad por ensayo: 0,118 ± 0,008 y 0,160 ± 0,009, respectivamente). Comparado al modelo bayesiano, ambos modelos tienen menor carga de cómputo y memoria: el modelo RL aprende nueve valores de característica individualmente y luego los combina; el modelo SHT de cambio aleatorio limita la consideración de hipótesis a una a la vez. El modelo SHT híbrido basado en valores se ajusta mejor a los datos (mejor que cualquiera de los modelos de componentes; probabilidad por ensayo: 0,202 ± 0,009), lo que sugiere que los participantes utilizaron ambas estrategias de aprendizaje al resolver esta tarea.

miniatura

Figura 4. La comparación de modelos admite estrategias tanto de aprendizaje por refuerzo (RL) como de prueba de hipótesis en serie (SHT).

(A) Verosimilitud media geométrica por prueba para cada modelo (es decir, verosimilitud logarítmica total media dividida por el número de pruebas y exponenciada). Los valores más altos indican mejores ajustes del modelo. Las líneas discontinuas indican probabilidad. Las barras de error representan ±1 sem entre los participantes. (ANTES DE CRISTO) Simulación del modelo SHT basado en valores de mejor ajuste. Las mismas curvas de aprendizaje que en la Fig. 2 pero para la simulación del modelo.

https://doi.org/10.1371/journal.pcbi.1010699.g004

Hubo evidencia adicional de la participación de ambos mecanismos de aprendizaje en el comportamiento de los participantes. El mecanismo basado en reglas fue evidente a partir de la influencia de las instrucciones de la tarea: tanto el número de funciones seleccionadas (Fig. 2B) y las características gratificantes informadas en las preguntas posteriores al juego (Fig. 2C y 2D) diferían entre las condiciones «conocidas» y «desconocidas». No existe una forma directa de incorporar dichas influencias en un modelo de aprendizaje por refuerzo, pero un modelo de aprendizaje por reglas puede hacerlo fácilmente, por ejemplo, restringiendo los espacios de hipótesis de acuerdo con las instrucciones (Fig. S3: el número de características seleccionadas difiere entre las conocidas). y juegos desconocidos para los modelos SHT pero no para el modelo RL). De hecho, los participantes adaptaron sus creencias previas en función de su conocimiento de los tipos de juegos (S2(B) Fig): en los juegos conocidos, asignaron una mayor probabilidad previa a las hipótesis que son consistentes con las instrucciones de la tarea; en juegos desconocidos, consideraron que las reglas más complejas eran más probables a priori. Por otro lado, la influencia del aprendizaje basado en valores fue evidente en el orden en que los participantes hicieron clic en las funciones para realizar selecciones. En la mayoría de los casos, los participantes siguieron el orden espacial en el que aparecían las dimensiones en la pantalla, ya sea de arriba a abajo o al revés. Sin embargo, cuando los clics violaron los órdenes espaciales, siguieron el orden de los valores de características aprendidos, comenzando por la característica más valiosa, con una frecuencia significativamente superior a la probabilidad (t101 = 7,63, pags t101 = 5,71, pags

En resumen, las estrategias de los participantes en esta tarea no pueden explicarse ni por el aprendizaje por refuerzo ni por las estrategias de prueba de hipótesis en serie por sí solas. El modelo híbrido combinado explicó mejor el comportamiento de los participantes, y también capturó la dependencia del desempeño en la complejidad de la tarea (Fig. 4B) y las diferencias cualitativas entre las curvas de elección en condiciones «conocidas» y «desconocidas» (Fig. 4C), que ninguno de los modelos de componentes pudo capturar (Fig. S3).

La contribución de los dos mecanismos depende de la complejidad de la tarea.

Dada la evidencia de que los participantes usaron ambas estrategias de aprendizaje en esta tarea, preguntamos a continuación en qué medida cada estrategia contribuyó a la toma de decisiones. Abordamos esta pregunta comparando el modelo híbrido con los dos modelos de componentes: la diferencia de probabilidad por prueba entre el modelo híbrido y cada modelo de componentes se tomó como un indicador de la contribución del mecanismo no incluido en el modelo de componentes. Tenga en cuenta que podemos tratar los modelos RL y SHT como modelos de componentes. Esto se debe a que establecer la tasa de aprendizaje en cero efectivamente «apaga» el proceso de RL, reduciendo el modelo híbrido al modelo SHT de cambio aleatorio. De manera similar, establecer los parámetros del modelo de modo que las hipótesis se cambien en cada ensayo «apaga» el proceso SHT, lo que da como resultado un modelo muy similar al modelo RL de características (la única diferencia es la probabilidad de volver a la hipótesis o elección anterior).

Entre los participantes, una mayor contribución de SHT se asoció con un tiempo de reacción más rápido (figura 5A; Correlación de Pearson: r = −0.27, pags = .01), y una mayor contribución de RL se asoció con una mayor tasa de recompensa (Fig. 5B; r = 0,23, pags = .02). Estos resultados sugieren que, comparativamente, la prueba de hipótesis en serie fue una estrategia general más rápida y con menos esfuerzo, y que aumentar la prueba de hipótesis con valores arrojó más recompensas.

miniatura

Figura 5. Equilibrio estratégico de dos mecanismos de aprendizaje.

(A) La contribución de las pruebas de hipótesis en serie (SHT) se correlacionó inversamente con el tiempo de reacción, de modo que los participantes que respondieron más rápido usaron SHT en mayor medida. (B) La contribución del aprendizaje reforzado (RL) se correlacionó con la tasa de recompensa promedio: los participantes para quienes agregar el componente RL mejoró el ajuste del modelo en mayor medida obtuvieron más recompensas en la tarea, en promedio. Cada punto representa a un participante. (CD) Contribución de RL y SHT para cada tipo de juego. La contribución de cada componente se midió como la diferencia en la probabilidad por ensayo entre el modelo SHT basado en valores híbridos y el otro modelo de componentes (SHT: el modelo de función RL con decaimiento; RL: el modelo SHT de cambio aleatorio). Las barras de error representan ±1 sem entre los participantes.

https://doi.org/10.1371/journal.pcbi.1010699.g005

Para optimizar la recompensa y reducir los costos del esfuerzo mental, es ventajoso confiar en la estrategia de prueba de hipótesis en serie cuando la tarea es más simple, por ejemplo, en juegos de menor dimensión con espacios de hipótesis más pequeños. De hecho, cuando se probó por separado, la correlación entre la tasa de recompensa y la contribución de RL solo fue significativa para juegos relevantes en 2D y 3D (1D: r = −0.03, pags = .75; 2D: r = 0,27, pags r = 0,32, pags 27]: z = −2.3, pags = .023 para juegos 2D vs 1D, y z = −2.7, pags = .007 para juegos 3D vs 1D). Por el contrario, con un espacio de hipótesis más grande, la prueba de hipótesis en serie es menos eficiente y debería haber un mayor incentivo para usar la estrategia de aprendizaje de valor.

De hecho, observamos tal compensación estratégica entre los dos mecanismos de aprendizaje: en los juegos «conocidos», la contribución de la prueba de hipótesis disminuyó a medida que aumentaba la dimensionalidad de la tarea (figura 5C; pendiente estimada en una regresión lineal de efectos mixtos: −0,0631 ± 0,0051, pags pags pags pags = .389, consistente con una interacción significativa de tres vías entre la complejidad de la tarea, el conocimiento del juego y el componente del modelo en un ANOVA de medidas repetidas sobre la diferencia de probabilidad por ensayo en las figuras 5C y 5D: F(2, 202) = 47.9, pags

Discusión

Usando una tarea novedosa de «construir su propio ícono», estudiamos el aprendizaje de reglas multidimensionales con retroalimentación probabilística como un proxy para el aprendizaje del mundo real en situaciones en las que se desconoce. a priori qué aspectos de la tarea son relevantes para resolverla y dónde los alumnos tienen agencia para intervenir en el entorno y probar hipótesis. En nuestra tarea, los participantes crearon estímulos y trataron de obtener más recompensas identificando las características de los estímulos más gratificantes. Los participantes realizaron esta tarea en varios niveles de complejidad señalados o no señalados (es decir, las características gratificantes estaban en una, dos o tres dimensiones de estímulo). Demostraron aprender en todas las condiciones, con su desempeño y estrategias influenciadas por la tarea. condición. A través de análisis de comportamiento y modelado computacional, investigamos el uso de dos mecanismos de aprendizaje distintos pero complementarios: pruebas de hipótesis en serie que evalúan una regla posible a la vez y, por lo tanto, son simples y rápidas de usar, pero dan como resultado un aprendizaje lento cuando muchas reglas son posibles y debe probarse secuencialmente y el aprendizaje de refuerzo que aprende sobre todas las funciones en paralelo y es más preciso a largo plazo, pero requiere mantener y actualizar más información. Descubrimos que un modelo híbrido que incorporaba las ventajas de ambos mecanismos explicaba mejor el comportamiento de los participantes. Además, mostramos que los participantes humanos demostraron un equilibrio estratégico entre los dos mecanismos según la complejidad de la tarea, lo que sugiere que pudieron evaluar qué mecanismo es más adecuado en cada condición. Específicamente, tendían a usar la estrategia de prueba de hipótesis en serie más simple y rápida cuando sabían que menos dimensiones importaban en la decisión, pero confiaban más en el aprendizaje incremental de los valores de las características cuando sabían que múltiples dimensiones eran importantes.

El estudio actual une grandes cantidades de trabajo sobre el aprendizaje de recompensas y el aprendizaje de categorías en entornos multidimensionales. Estudios previos han investigado extensamente cómo los humanos aprenden sobre reglas de categorización complejas pero deterministas. [1, 2, 15]así como también cómo aprenden a través de prueba y error para identificar una sola dimensión relevante [3, 22, 28, 29]. El primer tipo de tareas es difícil de aprender debido a la forma desconocida de las reglas subyacentes, mientras que las últimas tareas se enfocan en cómo los humanos integran la información a lo largo del tiempo en entornos estocásticos. Ambos son desafíos comunes para la toma de decisiones humanas y, a menudo, ocurren simultáneamente en las tareas diarias; en situaciones nuevas, a menudo no sabemos a priori qué aspectos de la tarea son relevantes para su solución correcta, y la retroalimentación puede ser estocástica debido a las propiedades inherentes de la tarea o, incluso en tareas deterministas, sin saber qué dimensiones son relevantes para los resultados, lo que hace que los resultados parezcan estocásticos. Por lo tanto, nos impusimos ambos desafíos para investigar las estrategias de aprendizaje humano en escenarios tan realistas y complejos. Nuestros resultados ayudan a unir los diversos hallazgos sobre estrategias basadas en valores o basadas en reglas en estudios previos. Mostramos que el aprendizaje en entornos complejos y estocásticos involucra ambas estrategias, y los participantes las combinan de manera flexible de acuerdo con las demandas de la tarea. Esto puede explicar potencialmente por qué las estrategias basadas en valores a menudo se observan en tareas de aprendizaje probabilístico. [3–5]y estrategias basadas en reglas en tareas de aprendizaje de categorías [2].

Algunos estudios han seguido un camino similar. Por ejemplo, Choung y colegas [30] estudió una tarea de aprendizaje de recompensa probabilística similar con múltiples dimensiones relevantes. Examinaron estrategias de prueba de hipótesis basadas en valores aprendidos con modelos RL ingenuos. A través de la comparación de modelos, mostraron que los valores aprendidos junto con la prueba de hipótesis se mantuvieron cuando las hipótesis cambiaron, de acuerdo con nuestro modelo SHT basado en valores. La novedad de nuestro trabajo está en la manipulación sistemática de la complejidad del entorno y el conocimiento de los participantes sobre él, para ayudar a proporcionar una comprensión integral de cómo la estrategia de aprendizaje de las personas se adapta a diferentes situaciones. Otro conjunto similar de tareas son los problemas de bandidos contextuales. [31–33], donde la cantidad de recompensa para cada bandido (opción) está determinada por el contexto (lo que lleva a reglas multidimensionales que dependen tanto del estímulo como del contexto). En estas tareas, se descubrió que los participantes usaban una estrategia de aprendizaje de procesos gaussianos para generalizar la experiencia previa a instancias similares. Los procesos gaussianos definen una distribución probabilística sobre las reglas subyacentes, a partir de la cual se pueden muestrear reglas candidatas como hipótesis. Por ejemplo, en una tarea con características contextuales binarias [31]se mostró a los participantes que consideraron opciones alternativas que se esperaba que condujeran a mejoras sobre la actual, de acuerdo con la estrategia basada en reglas descubierta en la tarea actual.

Aún así, consideramos solo una combinación lineal simple de múltiples dimensiones para determinar la recompensa: cada dimensión relevante contribuyó igualmente a la probabilidad de recompensa, de manera aditiva. En las tareas cotidianas, la composición puede ser más compleja, con diferentes dimensiones que contribuyen de manera diferente a las recompensas. [11, 29] y las interacciones potenciales entre las dimensiones. Postulamos que se adoptarán estrategias híbridas similares independientemente. Sin embargo, puede ser difícil modelar la estrategia de prueba de hipótesis en tales escenarios, debido al espacio de hipótesis mucho más grande. Una pregunta importante es cómo las personas construyen su espacio de hipótesis y qué tan probable es que consideren que cada hipótesis a priori. Hay evidencia de que las personas favorecen hipótesis más simples [16]. Es posible que tampoco tengan un espacio de hipótesis fijo, sino que construyan nuevas hipótesis solo cuando las existentes ya no puedan dar cuenta de las observaciones. [34]o pueden modificar sus hipótesis existentes sobre la marcha con pequeños cambios [35].

Vale la pena señalar el diseño único de configuración libre de la tarea actual. En la mayoría de las tareas de representación-aprendizaje, los estímulos (es decir, la combinación de características) están predeterminados y se pide a los participantes que seleccionen entre varias opciones disponibles o que hagan juicios de categoría. Estas tareas son fáciles de realizar, pero es difícil aislar la preferencia de los participantes por funciones individuales. Nuestra tarea investigó directamente la preferencia de las personas (o la falta de ella) en cada una de las tres dimensiones. Además, pudimos mantener constante la probabilidad de recompensa inicial en diferentes tipos de juegos (los participantes que respondieran al azar siempre obtendrían una recompensa con pags = 0,4) mientras variaba la complejidad de las reglas subyacentes, lo que evitaba proporcionar información sobre la complejidad de las reglas en los juegos “desconocidos”. Nuestra tarea de configuración libre también se parece a muchas decisiones de la vida diaria en las que las elecciones en múltiples dimensiones deben hacerse voluntariamente, desde pedir una pizza para llevar hasta planificar un viaje de escapada de fin de semana.

Junto con estas ventajas, el diseño de configuración libre de aprendizaje activo también puede alterar la estrategia que usan las personas, en comparación con un escenario de aprendizaje pasivo. Por un lado, la libre elección puede fomentar la prueba de hipótesis, haciendo que esta estrategia sea más eficiente al permitir que los participantes busquen evidencia directa sobre sus hipótesis. Por otro lado, el aprendizaje puede verse obstaculizado debido al sesgo de confirmación, comúnmente observado en tareas de aprendizaje de reglas autodirigidas (también conocido como «estrategia de prueba positiva» [36]). De hecho, los participantes sobreestimaron la cantidad de características gratificantes en los juegos 1D «desconocidos» en comparación con los «juegos conocidos» (Fig. 2D), lo que sugiere que no pudieron eliminar sus hipótesis cuando la regla subyacente era más simple. Para comprender completamente el impacto de la libre elección, el trabajo futuro puede comparar configuraciones activas y pasivas con un diseño «en yugo». Esto puede ayudar a comprender si los hallazgos informados aquí pueden generalizarse a tareas de aprendizaje pasivo y qué puede ser exclusivo del entorno de aprendizaje activo.

Para modelar la integración de las dos estrategias de aprendizaje, presentamos el modelo SHT híbrido basado en valores. Las suposiciones en este modelo son relativamente mínimas, lo que puede ser una razón por la cual el modelo híbrido no pudo predecir cuantitativamente la cantidad de características seleccionadas por los participantes (Figura 4C). Para mejorar la predicción del modelo, exploramos varias alternativas para los supuestos del modelo (Fig. S4; ver Métodos para obtener más detalles): (1) no siempre probar una hipótesis: si ninguna de las hipótesis tiene un valor alto, el participante puede decidir no probar una hipótesis, y dejar que la computadora configure un estímulo completamente aleatorio en su lugar; (2) umbral flexible para determinar si cambiar de hipótesis o no, en función de la probabilidad de recompensa de la condición de juego correspondiente (Tabla 1); (3) favorecer elecciones que son superconjuntos de la hipótesis actual: en lugar de diseñar estímulos consistentes con la hipótesis actual (con una tasa de caída), los participantes pueden tender a seleccionar más características de las que especifica su hipótesis. Los supuestos alternativos primero y tercero mejoraron los ajustes del modelo, pero el segundo no. Luego consideramos un modelo «completo» que utilizó la mejor alternativa para cada suposición. Este modelo más complejo mejoró la probabilidad promedio por ensayo en juegos retenidos en 0,033 ± 0,006. Sin embargo, en términos de predecir el número de características seleccionadas por los participantes, este modelo se comportó de manera similar al modelo híbrido original (Fig. S3). Por simplicidad, por lo tanto, informamos el modelo híbrido original en los Resultados. Notamos que, a pesar de las suposiciones adicionales, las predicciones del modelo completo todavía se desviaron del comportamiento humano, por ejemplo, subestimó las diferencias en el número de características seleccionadas entre las condiciones «conocidas» y «desconocidas», en comparación con los datos empíricos. Esto puede deberse a las suposiciones simplificadas sobre la prueba de hipótesis: por ejemplo, en el modelo, solo se probó una hipótesis en cada momento, y el cambio de hipótesis se basó puramente en valores en lugar de barrer sistemáticamente las características en una dimensión, o disminuir el número de características elegidas.

La flexibilidad de la El modelo SHT basado en valores abre el espacio para explorar estrategias de prueba de hipótesis más complejas. Por ejemplo, las hipótesis pueden formarse de manera jerárquica cuando se desconoce la complejidad de la regla, es decir, los participantes pueden razonar primero sobre la dimensionalidad del juego y luego sobre la regla exacta. Actualmente, la política de cambio de hipótesis depende solo de los valores, mientras que los participantes pueden comenzar con reglas más simples y cambiar a reglas más complejas, como se sugiere en el modelo SUSTAIN. [37], o viceversa, comenzando con reglas complejas y luego reduciéndolas a solo los componentes necesarios. Otra posibilidad son los modelos que prueban múltiples hipótesis en paralelo. En el modelo actual, solo se prueba una hipótesis a la vez, pero los participantes pueden considerar múltiples posibilidades simultáneamente, por ejemplo, la configuración actual y todos sus subconjuntos. Además, el estudio actual no evaluó el papel de la exploración dirigida por la incertidumbre. [10] y cuándo terminarlo durante el aprendizaje. Esto se debe a la gran cantidad de opciones disponibles en la tarea actual, lo que hace que la política óptima dirigida por la incertidumbre sea intratable. Los estudios futuros pueden diseñar tareas específicas para investigar esta pregunta. Por último, el modelo actual asume que el aprendizaje de los valores de las características ocurre en forma paralela e independiente de la prueba de hipótesis. Sin embargo, el aprendizaje de valores también puede verse afectado por la prueba de hipótesis. Por ejemplo, la cantidad de actualización de valor puede ser controlada por la hipótesis actual [20, 38]. El marco de modelado actual (y los datos de libre acceso) se pueden utilizar en trabajos futuros para examinar sistemáticamente estos y otros modelos alternativos.

En conclusión, estudiamos el aprendizaje activo humano en entornos complejos y estocásticos, con una novedosa tarea de decisión de autoconfiguración. A través de análisis de comportamiento y comparación de modelos computacionales, nuestro estudio reveló la integración estratégica de dos mecanismos de aprendizaje complementarios: pruebas de hipótesis en serie utilizando valores de aprendizaje por refuerzo para seleccionar nuevas hipótesis. Los sistemas de aprendizaje gradual y basado en reglas a menudo se consideran oponentes o alternativas, mientras que nuestros resultados sugieren cooperación en lugar de arbitraje. Esta puede ser una regla general en tareas de decisión complejas y realistas. Cuando las cosas se ponen difíciles, el cerebro haría mejor en integrar de manera óptima todos los métodos a su disposición.

Métodos

Declaración de Ética

Este estudio fue aprobado por la Junta de Revisión Institucional de la Universidad de Princeton (número de registro 11968). Se obtuvo el consentimiento formal por escrito de cada participante antes de comenzar el experimento.

Procedimiento experimental y criterios de exclusión de participantes

Los participantes fueron reclutados en línea de Amazon Mechanical Turk. Recibieron un pago base de $12 por completar la tarea, con una bonificación basada en el desempeño de $0.15 por punto de recompensa obtenido en tres juegos elegidos al azar (uno para cada complejidad de la tarea).

Los participantes pasaron por una fase de instrucción integral antes de comenzar la tarea principal. Durante la instrucción, primero se les presentaron los «iconos» y se les pidió que construyeran algunos ejemplos. Luego se les explicaron las reglas generales del experimento, incluidos los niveles de complejidad y sus respectivas probabilidades de recompensa (como en Tabla 1). Los participantes fueron evaluados acerca de estas reglas y probabilidades con un conjunto de preguntas de opción múltiple. Para cada nivel de complejidad de la tarea, se les dio una regla de ejemplo y se les preguntó acerca de la probabilidad de recompensa de algunos estímulos para evaluar su comprensión. Los participantes debían responder todas las preguntas correctamente en un número fijo de intentos (5 para las preguntas sobre las reglas generales y 3 para todas las demás pruebas). Además, jugaron un juego de práctica en cada nivel de complejidad con las reglas informadas (incluyendo qué dimensiones eran relevantes y qué características eran más gratificantes; esta información no estaba disponible en la tarea principal, incluso en los juegos «conocidos», donde solo el número se informó de las dimensiones relevantes, ver detalles a continuación). Durante los juegos experimentales, los participantes debían responder dentro de los 5 segundos en cada prueba. A los participantes que no pasaron las pruebas de comprensión o se perdieron cinco intentos consecutivos en cualquier momento del experimento no se les permitió continuar con el experimento.

La tarea principal consistió en 18 juegos experimentales. Entre ellos, la mitad eran juegos “conocidos”, en los que se informaba a los participantes del número de dimensiones relevantes (1, 2 o 3) antes de que comenzara el juego; la otra mitad eran juegos «desconocidos». Esto correspondía a seis tipos de juegos en total. Cada participante jugó tres juegos de cada tipo en un orden aleatorio. Cada juego constaba de 30 intentos.

Al final de cada juego, se les pidió a los participantes que informaran sobre la característica gratificante de cada dimensión a través de una pregunta de opción múltiple, o que indicaran que esta dimensión era irrelevante para la recompensa. También se les pidió que calificaran su nivel de confianza (0-100) en estos juicios.

106 participantes completaron todo el experimento, de los cuales 4 fueron excluidos de nuestros análisis debido a un desempeño deficiente (una probabilidad de recompensa general inferior a 0,468, dos desviaciones estándar por debajo del promedio del grupo).

Modelos computacionales del comportamiento humano

Aprendizaje por refuerzo basado en características con modelo de descomposición.

El modelo de característica RL con decaimiento mantiene los valores (V) para cada una de las nueve características (indicadas por Fi,j; i y j son índices para dimensiones y características respectivamente). En el momento de la decisión, la recompensa esperada (Urgencias) para cada posible configuración de estímulo C se calcula como la suma de sus valores característicos:
(1)

dónde Ci denota la característica en la dimensión i de configuración C. Para las dimensiones que no están especificadas en la configuración (es decir, aquellas que la computadora elegirá al azar), el modelo usa el valor promedio de las tres características.

La probabilidad de elección se determina con base en Urgencias(C) usando una función softmax, con β como parámetro libre:
(2)

Los valores de las funciones se actualizan de acuerdo con una regla de actualización de Rescorla-Wagner, con tasas de aprendizaje separadas para las funciones seleccionadas por el participante (η = ηs) y las que se determinaron aleatoriamente (η = ηr). Valores de características que no están en el estímulo actual st se descomponen hacia cero con un factor d ∈ [0, 1]. ηs, ηr y d son parámetros libres.
(3)

dónde rt es el resultado de la recompensa (0 o 1) en la prueba ty indica la característica en la dimensión i de st.

Modelo de aprendizaje de reglas bayesianas.

El modelo bayesiano de aprendizaje de reglas mantiene una distribución de creencias probabilística sobre todas las hipótesis posibles (indicadas por h). Tenga en cuenta que el conjunto de hipótesis posibles (el espacio de hipótesis) depende de la complejidad de la tarea actual: en juegos conocidos, hay 9, 27 y 27 hipótesis posibles en juegos 1D, 2D y 3D, respectivamente; en juegos desconocidos, las 63 hipótesis son posibles. Después de cada prueba, la distribución de creencias se actualiza de acuerdo con la regla de Bayes:
(4)

En el momento de la decisión, la recompensa esperada para cada elección se calcula marginando la distribución de creencias:
(5)

La recompensa esperada se usa luego para determinar la probabilidad de elección como en Ecuación 2.

Notamos que este modelo no es estrictamente óptimo, incluso sin ruido de decisión, ya que maximiza la recompensa esperada en la prueba actual, pero no la recompensa total en un juego.

Modelo de prueba de hipótesis en serie (SHT) de cambio aleatorio.

El modelo SHT de cambio aleatorio asume que el participante prueba una hipótesis en un momento dado. No observamos directamente qué hipótesis está probando el participante, y necesitamos inferir eso de sus elecciones. Lo hacemos usando el modelo de detección de punto de cambio en [26]. La idea básica es inferir la hipótesis actual (indicada por ht) de todas las elecciones que ha hecho el participante y los resultados de las recompensas que ha recibido hasta ahora en el juego actual (juntos denotados por d1:t−1); consulte Métodos complementarios en el texto S1 para obtener detalles de implementación. Una vez obtenida la distribución de probabilidad posterior sobre la hipótesis actual PAGS(ht|d1:t−1), podemos usarlo para predecir la elección:
(6)

Para calcular PAGS(ht|d1:t−1), consideramos el modelo generativo de las elecciones de los participantes. Primero, determinamos el espacio de hipótesis de los participantes: En los juegos “conocidos”, los participantes fueron informados sobre el número de dimensiones relevantes, lo que limita el conjunto de posibles hipótesis en estos juegos. Sin embargo, la forma en que las personas interpretan y siguen las instrucciones puede variar. Por lo tanto, parametrizamos el espacio de hipótesis (es decir, las personas a priori sobre todas las hipótesis posibles) con dos parámetros de peso wyo y wh (antes de la normalización):
(7)

Aquí, D(h) es la dimensionalidad de la hipótesis h (cuántas características gratificantes hay en h), y D es el número informado de dimensiones relevantes del juego actual. Si un participante sigue estrictamente las instrucciones, wyo = wh = 0, es decir, sólo se consideran hipótesis con la misma dimensionalidad que la instrucción; si el participante no utiliza la información de instrucción en absoluto, wyo = wh = 1, es decir, las 63 hipótesis se consideran igualmente probables. Para los juegos «desconocidos», el modelo usa el promedio PAGS(h) de juegos 1D, 2D y 3D “conocidos” para determinar la probabilidad previa de hipótesis 1D, 2D y 3D.

Se supone que el modelo generativo del comportamiento de elección de los participantes contiene tres partes: la política de prueba de hipótesis (si quedarse con la hipótesis actual o cambiar a una nueva), la política de cambio de hipótesis (cuál debería ser la siguiente hipótesis al cambiar). hipótesis), y la política de elección dada la hipótesis probada actualmente. Las dos primeras políticas juntas determinan la transición de la hipótesis del ensayo anterior a la actual, y la política de elección determina el mapeo entre la hipótesis actual y la elección.

Siguiendo [26], consideramos la siguiente política de prueba de hipótesis: en cada prueba, el participante estima la probabilidad de recompensa de la hipótesis actual. Usando un previo de Dirichlet uniforme, esto es equivalente a contar cuántas veces han sido recompensados ​​desde que comenzaron a probar esta hipótesis. La probabilidad de recompensa estimada luego se compara con un umbral suave θ para determinar si quedarse con esta hipótesis o cambiar a otra diferente:
(8)

dónde es la probabilidad de recompensa estimada, y βQuédate y θ son parámetros libres. Si el participante decide cambiar, cambia aleatoriamente a cualquier otra hipótesis de acuerdo con las hipótesis anteriores especificadas en Ecuación 7 (es decir, la política de cambio aleatorio de hipótesis):
(9)

Finalmente, asumimos una política de elección en la que los participantes configuran los estímulos de acuerdo con su hipótesis la mayor parte del tiempo, pero con una tasa de caída de λ eligen cualquier configuración al azar.

Modelo de prueba de hipótesis en serie basado en valores.

El modelo SHT basado en valores es el mismo que el modelo SHT de cambio aleatorio, excepto que utiliza una política de cambio de hipótesis basada en valores. Mantiene un conjunto de valores de características actualizados de acuerdo con la característica RL con modelo de descomposición, como en Eq 3 (pero con una sola tasa de aprendizaje), y calcula la recompensa esperada para cada hipótesis alternativa sumando los valores de sus características constituyentes, similar a Eq 1 pero para h en vez de C. La probabilidad de cambiar a htht−1 es:
(10)

dónde βcambiar es un parámetro libre.

Variantes del modelo SHT basado en valores.

Consideramos varias variantes del modelo SHT basado en valores modificando la política de prueba de hipótesis y la política de elección del modelo SHT basado en valores de referencia descrito anteriormente.

No siempre probar una hipótesis.

En el experimento, el participante podía optar por no seleccionar ninguna función y dejar que la computadora configurara un estímulo aleatorio. Muchos participantes lo hicieron, especialmente al comienzo de cada juego, posiblemente debido a que no tenían en mente una buena hipótesis candidata. Para modelar esto, agregamos un umbral suave en la prueba de hipótesis: si la recompensa esperada de la mejor hipótesis candidata está por debajo de un umbral θpruebaes poco probable que los participantes prueben alguna hipótesis:
(11) βprueba y θprueba son parámetros libres adicionales de este modelo. Este mecanismo se aplicó en la primera prueba de cada juego y en los puntos de cambio de hipótesis.

Política de elección alternativa: seleccionar más características de las prescritas por la hipótesis.

En el modelo de referencia, se supone que las elecciones de los participantes están alineadas con su hipótesis actual, a menos que decaigan en su elección. En el experimento, sin embargo, observamos una tendencia general a seleccionar más funciones de las indicadas (Figura 2B). Esto no fue sorprendente ya que no hubo ningún costo por seleccionar más funciones. De hecho, era estrictamente óptimo hacer siempre selecciones en todas las dimensiones, ya que siempre había una mejor característica dentro de cada dimensión (al menos igual de buena que las otras dos), y mantener todas las características fijas ayuda a probar la hipótesis actual (la computadora aleatoriamente elige características para cualquier dimensión no seleccionada, lo que significa que la recompensa obtenida podría deberse a esas características y no a la hipótesis probada). Por lo tanto, asumimos en este modelo alternativo que los participantes pueden seleccionar más características que su hipótesis actual ht. La probabilidad de elecciones que son superconjuntos de ht fue determinado por la diferencia en el número de dimensiones en comparación con htcon una tasa de decaimiento k como parámetro libre:
(13)

En este modelo, los participantes aún podrían fallar, lo que significa que todas las opciones que no son superconjuntos de ht eran igualmente probables, con probabilidades que sumaban λ.

Ajuste de modelos y comparación de modelos

Ajustamos los modelos a los datos de cada participante utilizando la estimación de máxima verosimilitud. Usamos la función de minimizar (algoritmo L-BFGS-B) en el paquete de Python scipy.optimize como optimizador; cada optimización se repitió 10 veces con puntos de partida aleatorios. Los modelos se evaluaron con validación cruzada de dejar un juego fuera: la probabilidad de cada juego se calculó utilizando los parámetros obtenidos al ajustar los otros 17 juegos; se informa la probabilidad media geométrica por prueba en todos los juegos retenidos (es decir, la probabilidad logarítmica total en todas las pruebas que jugó un participante dividida por el número de pruebas y exponenciada, y luego promediada entre los participantes).

Información de soporte

S1 Fig. Resultados de comportamiento adicionales.

(A, B) Igual que Fig. 2A y 2B pero agregados por juegos conocidos y desconocidos. (C) Respuestas posteriores al juego a preguntas sobre las características gratificantes en cada condición del juego. Kwn = juegos conocidos, Unk = juegos desconocidos. Después de cada juego, se les pidió a los participantes que reportaran la característica gratificante de cada dimensión, o que indicaran esta dimensión como irrelevante para la recompensa. Las respuestas se clasifican en cinco categorías. Característica correcta: identificar correctamente una característica gratificante; Característica incorrecta: informar incorrectamente una característica no gratificante como gratificante para una dimensión relevante; Falta de relevancia: reportar una dimensión relevante como irrelevante; Falso positivo: informar incorrectamente una función gratificante para una dimensión irrelevante; Rechazo correcto: identificar correctamente una dimensión irrelevante. (D, E, F) El tipo de selección de funciones, la cantidad de funciones cambiadas en las opciones y el tipo de cambio de opciones en función del índice de prueba, desglosado por tipos de juegos. (D) El número de funciones seleccionadas por los participantes se dividió en tres tipos: correcto, incorrecto o falso positivo (es decir, seleccionar una función cuando esa dimensión era irrelevante), y se sumó en tres dimensiones. Durante el juego, la cantidad de funciones correctas aumentó y la cantidad de funciones incorrectas disminuyó, de manera consistente en todos los tipos de juegos e indicando aprendizaje. Las tendencias fueron en su mayoría consistentes entre los juegos conocidos y desconocidos, a excepción de los juegos 1D: las respuestas de falsos positivos disminuyeron en la condición conocida pero se mantuvieron estables en la condición desconocida. Estos resultados son consistentes con las preguntas posteriores al juego (Fig. 2D; los participantes tenían más probabilidades de dar respuestas falsas positivas en juegos desconocidos 1D en comparación con juegos conocidos 1D). Curiosamente, cuando los juegos eran más complejos (p. ej., juegos 2D), los participantes no pudieron reducir las respuestas falsas positivas con el tiempo, incluso en la condición conocida. (E) El número promedio de funciones cambiadas de una opción a la siguiente, para todas las pruebas (panel superior) y solo para las pruebas con un cambio de opción (panel inferior). En general, los participantes cambiaron más funciones en su elección al comienzo de un juego, y esto disminuyó con el tiempo. El patrón fue mayormente consistente en todos los tipos de juegos, excepto en los juegos 1D: la reducción fue más lenta en la condición conocida en comparación con la condición desconocida. Específicamente, en los juegos conocidos de 1D, los participantes continuaron cambiando sus opciones en la última parte del juego, a pesar de que ya obtuvieron una tasa de recompensa alta, lo que sugiere que estaban tratando de reducir aún más y encontrar la función de recompensa exacta, posiblemente impulsada por el juego. instrucción (una dimensión era relevante). Esto es consistente con una tasa más baja de falsos positivos en juegos conocidos 1D en comparación con juegos desconocidos 1D. En los juegos 3D, este patrón se invierte, probablemente porque los participantes sabían que no había necesidad de reducir los juegos conocidos en 3D después de lograr la tasa de recompensa máxima. (F) El cambio de elección se dividió en cinco categorías: agregar características (p. ej., círculo rojo a rojo), eliminar características (p. ej., círculo rojo a rojo), cambiar dentro de la dimensión (p. ej., círculo rojo a círculo azul), cambiar entre dimensiones (p. ej., rojo a círculo círculo) y todos los demás cambios (cualquier combinación de los cuatro tipos anteriores, por ejemplo, círculo rojo a azul). Entre los cinco tipos, el cambio dentro de la dimensión fue el más común. Hubo muy pocas ocurrencias del tipo mixto (“Otros”); mientras que para una política de elección aleatoria, este sería el tipo más común. Esto sugiere que los participantes tendieron a hacer cambios locales y sistemáticos en sus elecciones, lo que respalda aún más un proceso de prueba de hipótesis en serie.

https://doi.org/10.1371/journal.pcbi.1010699.s001

(PDF)

S2 Fig. Resultados adicionales de ajuste del modelo.

(A) Ajustes del modelo desglosados ​​para cada tipo de juego. (B) La probabilidad previa ajustada para la hipótesis 1/2/3D (eje x) en diferentes tipos de juegos (subparcelas) en el modelo SHT basado en valores principales. En los juegos conocidos, los participantes tenían una mayor probabilidad previa de las hipótesis consistentes con las instrucciones de la tarea (barras rojas más oscuras). En juegos desconocidos, se consideraron hipótesis más complejas a priori más como.

https://doi.org/10.1371/journal.pcbi.1010699.s002

(PDF)

S4 Fig. Variantes del modelo de prueba de hipótesis en serie (SHT).

(A) Un diagrama de los modelos SHT comparados en el texto principal. Las diferentes variantes para cada supuesto del modelo se presentan en recuadros de colores: en gris están los supuestos adoptados por el modelo de línea de base; los colores denotan las diferentes variantes probadas. (B) Diferencia en la probabilidad promedio por ensayo entre las variantes de los modelos SHT y el modelo SHT basado en valores de referencia. Cada modelo, excepto el modelo completo, solo es diferente del modelo de referencia en una suposición, como se indica en la etiqueta; el modelo completo adopta la mejor alternativa en cada supuesto. Los colores de las barras corresponden a los del panel A, excepto el modelo completo (en blanco). Específicamente, la barra morada corresponde al modelo SHT de cambio aleatorio. Las barras de error representan ±1 sem entre los participantes.

https://doi.org/10.1371/journal.pcbi.1010699.s004

(PDF)

Referencias

  1. 1.

    Mack ML, Love BC, Preston AR. La actualización dinámica de las representaciones de objetos del hipocampo refleja nuevos conocimientos conceptuales. Procedimientos de la Academia Nacional de Ciencias. 2016;113(46):13203–8. pmid:27803320

  2. 2.

    Ballard I, Miller EM, Piantadosi ST, Goodman ND, McClure SM. Más allá de los errores de predicción de recompensas: el cuerpo estriado humano actualiza los valores de las reglas durante el aprendizaje. Corteza cerebral. 2017;28(11):3965–75.

  3. 3.

    Niv Y, Daniel R, Geana A, Gershman SJ, Leong YC, Radulescu A, et al. El aprendizaje por refuerzo en entornos multidimensionales se basa en mecanismos de atención. Revista de Neurociencia. 2015;35(21):8145–57. pmid:26019331

  4. 4.

    Marković D, Gläscher J, Bossaerts P, O’Doherty J, Kiebel SJ. Modelización de la evolución de las creencias mediante un mecanismo de foco atencional. PLoS biología computacional. 2015;11(10):e1004558. medio:26495984

  5. 5.

    Wunderlich K, Beierholm UR, Bossaerts P, O’Doherty JP. La corteza prefrontal humana media la integración de causas potenciales detrás de los resultados observados. Revista de neurofisiología. 2011;106(3):1558–69. pmid:21697443

  6. 6.

    Gureckis TM, Markant DB. Aprendizaje autodirigido: una perspectiva cognitiva y computacional. Perspectivas de la ciencia psicológica. 2012;7(5):464–81. pmid:26168504

  7. 7.

    Nelson J.D. Encontrar preguntas útiles: sobre diagnóstico bayesiano, probabilidad, impacto y ganancia de información. Revisión psicológica. 2005;112(4):979. pmid:16262476

  8. 8.

    Gottlieb J, Oudeyer PY, Lopes M, Baranes A. Búsqueda de información, curiosidad y atención: mecanismos computacionales y neuronales. Tendencias en ciencias cognitivas. 2013;17(11):585–93. pmid:24126129

  9. 9.

    Knox WB, Otto AR, Stone P, Love BC. La naturaleza de la elección exploratoria dirigida por creencias en la toma de decisiones humanas. Fronteras en psicología. 2012;2:398. pmid:22319503

  10. 10

    Wilson RC, Geana A, White JM, Ludvig EA, Cohen JD. Los seres humanos utilizan la exploración dirigida y aleatoria para resolver el dilema explorar-explotar. Revista de Psicología Experimental: General. 2014;143(6):2074. medio:25347535

  11. 11
    Jones A, Schulz E, Meder B. Aprendizaje funcional activo. En: la 40ª Reunión Anual de la Sociedad de Ciencias Cognitivas; 2018.
  12. 12

    Niv Y. Aprendizaje de representaciones de tareas y estados. Neurociencia de la naturaleza. 2019;22(10):1544–53. pmid:31551597

  13. 13

    Radulescu A, Shin YS, Niv Y. Aprendizaje de representación humana. Revisión anual de neurociencia. 2021;44. medio:33730510

  14. 14

    Ashby FG, Alfonso-Reese LA, Waldron EM, et al. Una teoría neuropsicológica de sistemas múltiples en el aprendizaje de categorías. Revisión psicológica. 1998; 105 (3): 442. medio:9697427

  15. 15.

    Ashby FG, Maddox WT. Aprendizaje de la categoría humana. Annu Rev Psychol. 2005;56:149–78. pmid:15709932

  16. dieciséis.

    Goodman ND, Tenenbaum JB, Feldman J, Griffiths TL. Un análisis racional del aprendizaje de conceptos basado en reglas. Ciencia cognitiva. 2008;32(1):108–54. pmid:21635333

  17. 17

    Tenenbaum JB, Kemp C, Griffiths TL, Goodman ND. Cómo hacer crecer una mente: estadísticas, estructura y abstracción. Ciencias. 2011;331(6022):1279–85. medio:21393536

  18. 18

    Nosofsky RM. Elección, similitud y la teoría contextual de la clasificación. Journal of Experimental Psychology: aprendizaje, memoria y cognición. 1984; 10 (1): 104. pmid:6242730

  19. 19

    Danileiko I, Lee MD. Un enfoque basado en modelos para la sabiduría de la multitud en el aprendizaje de categorías. Ciencia cognitiva. 2018;42:861–83. pmid:29094372

  20. 20

    Radulescu A, Niv Y, Ballard I. Aprendizaje de refuerzo holístico: el papel de la estructura y la atención. Tendencias en ciencias cognitivas. 2019. pmid:30824227

  21. 21

    Rescorla RA. Una teoría del condicionamiento pavloviano: variaciones en la efectividad del refuerzo y el no refuerzo. Investigación y teoría actuales. 1972: 64–99.

  22. 22

    Farashahi S, Rowe K, Aslami Z, Lee D, Soltani A. El aprendizaje basado en características mejora la adaptabilidad sin comprometer la precisión. Comunicaciones de la naturaleza. 2017;8(1):1–16. pmid:29170381

  23. 23

    Cortese A, Yamamoto A, Hashemzadeh M, Sepulveda P, Kawato M, De Martino B. Las señales de valor guían la abstracción durante el aprendizaje. Elife. 2021;10:e68943. pmid:34254586

  24. 24

    Gregg LW, Simon HA. Modelos de procesos y teorías estocásticas de formación de conceptos simples. Revista de Psicología Matemática. 1967;4(2):246–76.

  25. 25

    Nosofsky RM, Palmeri TJ, McKinley SC. Modelo de regla más excepción de aprendizaje de clasificación. Revisión psicológica. 1994; 101 (1): 53. medio:8121960

  26. 26

    Wilson RC, Niv Y. Inferir relevancia en un mundo cambiante. Fronteras en la neurociencia humana. 2012;5:189. medio:22291631

  27. 27

    Diedenhofen B, Musch J. cocor: Una solución integral para la comparación estadística de correlaciones. Más uno. 2015;10(4):e0121945. pmid:25835001

  28. 28

    Akaishi R, Kolling N, Brown JW, Rushworth M. Mecanismos neuronales de asignación de crédito en un entorno de múltiples señales. Revista de Neurociencia. 2016;36(4):1096–112. pmid:26818500

  29. 29

    Wang S, Rehder B. La toma de decisiones de atributos múltiples se caracteriza mejor por un modelo de aprendizaje de refuerzo inteligente de atributos. BioRxiv. 2017:234732.

  30. 30

    Choung Oh, Lee SW, Jeong Y. Exploración de dimensiones de características para aprender una nueva política en una tarea de aprendizaje por refuerzo sin información. Informes científicos. 2017;7(1):17676. pmid:29247192

  31. 31

    Schulz E, Konstantinidis E, Speekenbrink M. Poniendo bandidos en contexto: cómo el aprendizaje funcional apoya la toma de decisiones. Revista de psicología experimental: aprendizaje, memoria y cognición. 2018;44(6):927. pmid:29130693

  32. 32.

    Wu CM, Schulz E, Speekenbrink M, Nelson JD, Meder B. La generalización guía la exploración humana en vastos espacios de decisión. Comportamiento humano de la naturaleza. 2018;2(12):915–24. pmid:30988442

  33. 33.

    Speekenbrink M. Persiguiendo bandidos desconocidos: guía de incertidumbre en el aprendizaje y la toma de decisiones. Direcciones actuales en ciencia psicológica. 2022:09637214221105051.

  34. 34.

    Collins AG, Frank MJ. Control cognitivo sobre el aprendizaje: creación, agrupación y generalización de la estructura del conjunto de tareas. Revisión psicológica. 2013;120(1):190. pmid:23356780

  35. 35.

    Bramley NR, Dayan P, Griffiths TL, Lagnado DA. Formalización de la nave de Neurath: algoritmos aproximados para el aprendizaje causal en línea. Revisión psicológica. 2017;124(3):301. pmid:28240922

  36. 36.

    Klayman J, Ha YW. Confirmación, refutación e información en la prueba de hipótesis. Revisión psicológica. 1987;94(2):211.

  37. 37.

    Amor BC, Medin DL, Gureckis TM. SUSTAIN: un modelo de red de aprendizaje de categorías. Revisión psicológica. 2004;111(2):309. medio:15065912

  38. 38.

    Collins AG, Frank MJ. La dinámica dentro y fuera del ensayo del EEG humano revela una interacción cooperativa entre el aprendizaje por refuerzo y la memoria de trabajo. Procedimientos de la Academia Nacional de Ciencias. 2018;115(10):2502–7. pmid:29463751

  39. 39.

    Mnih V, Kavukcuoglu K, Silver D, Rusu AA, Veness J, Bellemare MG, et al. Control a nivel humano a través del aprendizaje de refuerzo profundo. naturaleza. 2015;518(7540):529–33. pmid:25719670

Fuente del artículo

Deja un comentario