Una formulación alternativa para la investigación de inferencia causal – Enlace

image

La inferencia causal es un área importante y activa de la investigación de la inteligencia artificial en la actualidad. De hecho, nada menos que El ganador del premio Turing, Yoshio Bengio, enumera el razonamiento causal como una prioridad principalal igual que su co-ganador del premio Turing, Yann LeCun, quien escribe que “Mucha gente en ML/DL sabe que la inferencia causal es una forma importante de mejorar la generalización. La pregunta es como hacerlo“. y la perla de judea El libro del por qué es un avance innovador en esta importante disciplina.

Si bien son valiosas, estas iniciativas pasan por alto una formulación mucho más sencilla del razonamiento causal (podría llamarlo «fruto al alcance de la mano») que puede proporcionar valor inmediato para las organizaciones con muy poco esfuerzo. Por esta razón, espero que los investigadores causales puedan considerar seriamente abordarlo.

La formulación estándar de IA del razonamiento causal es algo así:

Queremos mejorar la precisión (por ejemplo, falsos positivos y falsos negativos reducidos, mejor AUC, mejor R^2) de los sistemas de IA automatizados. Una forma de hacerlo es incorporar modelos de los mecanismos causales que impulsan los fenómenos del mundo real representados por modelos de IA. Y podemos aprender esos mecanismos causales a partir de los datos”.

Pero hay una formulación relacionada pero completamente diferente del razonamiento causal:

Queremos apoyar a los tomadores de decisiones de la forma en que piensan de forma natural, y usar la IA en situaciones en las que se deben lograr algunos resultados y se deben tomar algunas acciones, incluso si tenemos una «verdad básica» histórica escasa o inexistente. datos que proporcionan los resultados históricos asociados con ciertas acciones. Queremos simular las relaciones causales de acción a resultado, que pueden incluir dinámicas de sistemas complejos. Estamos dispuestos a obtener esta información causal no solo de los datos, sino entrevistando a expertos humanos, de estudios de investigación y de otros textos cuando estén disponibles”.

En esta nueva formulación, la máxima “Todos los modelos son erróneos, pero algunos modelos son útiles” cobra sentido. Resulta que incluso los modelos de muy baja fidelidad del camino desde las acciones hasta los resultados pueden ser muy valiosos. La razón: en muchas situaciones, la precisión del modelo es solo un indicador de «información que conduce a una buena decisión». Cuando se mira desde esta perspectiva, todo cambia. Esta formulación es el modelo central dentro de la disciplina emergente de inteligencia de decisión (DI).

Para un ejemplo simple, considere mi decisión sobre cuándo presionar el acelerador de mi automóvil para entrar en una intersección. Puedo tomar una decisión segura, incluso con solo un modelo aproximado de la velocidad de otros autos. Y mi conocimiento del clima, de cuántas personas están ocupando el edificio en la esquina, y muchos otros factores pueden ser muy malos o inexistentes, y todavía estoy a salvo.

Esto puede parecer un ejemplo extremo, pero ilustra un fenómeno real en el que los científicos de datos, sin saber las decisiones para las que se utilizarán sus modelos, se centran en ofrecer «percepciones» precisas. Esto puede llevar a un esfuerzo innecesario en algunos campos (p. ej., demasiado tiempo dedicado a modelar el clima en mi ejemplo) y no suficiente en otros. Para los científicos de datos, adivinar los modelos mentales de decisión de los usuarios finales no es suficiente.

En más de 35 años brindando soluciones de IA y DI, he observado esta situación de «desajuste de datos/decisiones» innumerables veces.

Aquí hay cuatro implicaciones clave de esta formulación diferente que, nuevamente, espero que los investigadores de IA comiencen a abordar:

  1. La mayor parte del trabajo causal implica inducir modelos causales a partir de datos. Pero en una gran cantidad de casos de uso, es raro encontrar suficiente información causal en los datos, por lo que a menudo necesitamos obtenerla de expertos humanos: en forma de entrevistas o extrayendo conocimiento (quizás usando métodos automatizados como NLP) de fuentes escritas. como trabajos de investigación. Necesitamos investigación de PNL para ese propósito, y necesitamos investigación UX / cognitiva para comprender cómo extraer mejor el conocimiento causal de las personas. En particular, recopilar, preparar y aprender de los datos puede llevar de meses a años, donde la misma información causal podría obtenerse de un experto humano en solo unos minutos.
  2. La mayor parte del trabajo causal busca una esquema de representación único para representar la causalidad. Pero en un entorno práctico, la mayoría de las decisiones involucran una variedad de vínculos causales. La mayoría de los modelos con los que he trabajado incluyen factores de comportamiento, econometría, inferencia y más. Necesitamos investigación que demuestre cómo propagar la causalidad sobre representaciones tan heterogéneas (no solo una, como la causalidad bayesiana).
  3. La mayoría del trabajo causal restringe la semántica de «causalidad» ser aquello de lo que se puede probar que es causativo, y no correlativo. Pero cuando trabajamos con tomadores de decisiones humanos, no piensan de esta manera, y esto crea una barrera entre los métodos formales y los modelos cognitivos humanos, lo que restringe severamente la cantidad de trabajo causal que realmente se usa en la práctica, junto con nuestra capacidad para obtener pericia. Entonces necesitamos investigar cómo a) obtener conocimiento «causal-ish» de las personas (por ejemplo, si hay una tasa de interés más alta en este producto, entonces eso hace que el cargo financiero suba; una causalidad econométrica, tiene que vivir en el mismo modelo con si mostramos a las personas tres videos diciéndoles que usen máscaras, entonces esto causa que sean 10% más propensos a usarlos) y b) cómo convertir este conocimiento «causal-ish» a una forma en la que apoya la toma de decisiones.
  4. La mayoría del trabajo causal no se integra con la simulación, los gemelos digitales, la IA, la econometría, la psicología del comportamiento y más. Así que necesitamos investigación que trate la integración multidisciplinar como área de interés de primer orden, no es un tema secundario que se deje para más adelante “durante la implementación, no la investigación”.

Incluso sin programas académicos que aborden cuestiones causales como las anteriores, el campo de la inteligencia para la toma de decisiones ha crecido al nivel que es predicho valdrá US$ 37.000 millones en todo el mundo en la próxima década. Aunque solo sea por esta razón, es hora de que la investigación académica tome en serio esta formulación DI alternativa, de modo que podamos trabajar juntos para resolver algunos de los problemas más difíciles de nuestro tiempo. La toma de decisiones humana es uno de los recursos sostenibles más subutilizados del mundo; mejorarlo es fácil de hacer y merece la atención de nuestros mejores y más brillantes.

Fuente del artículo

Deja un comentario