Aunque la gran mayoría de nuestras explicaciones obtienen una puntuación baja, creemos que ahora podemos usar técnicas de ML para mejorar aún más nuestra capacidad de producir explicaciones. Por ejemplo, descubrimos que podíamos mejorar las puntuaciones al:
- Iterando en las explicaciones. Podemos aumentar las puntuaciones pidiéndole a GPT-4 que presente posibles contraejemplos y luego revisando las explicaciones a la luz de sus activaciones.
- Uso de modelos más grandes para dar explicaciones. El puntaje promedio aumenta a medida que aumentan las capacidades del modelo explicativo. Sin embargo, incluso GPT-4 da peores explicaciones que los humanos, lo que sugiere un margen de mejora.
- Cambiando la arquitectura del modelo explicado. Los modelos de entrenamiento con diferentes funciones de activación mejoraron las puntuaciones de explicación.
Estamos abriendo nuestros conjuntos de datos y herramientas de visualización para las explicaciones escritas en GPT-4 de las 307 200 neuronas en GPT-2, así como el código para la explicación y la puntuación. utilizando modelos disponibles públicamente en la API de OpenAI. Esperamos que la comunidad de investigación desarrolle nuevas técnicas para generar explicaciones de mayor puntuación y mejores herramientas para explorar GPT-2 mediante explicaciones.
Encontramos más de 1000 neuronas con explicaciones que obtuvieron una puntuación de al menos 0,8, lo que significa que, según GPT-4, representan la mayor parte del comportamiento de activación superior de la neurona. La mayoría de estas neuronas bien explicadas no son muy interesantes. Sin embargo, también encontramos muchas neuronas interesantes que GPT-4 no entendía. Esperamos que, a medida que mejoren las explicaciones, podamos descubrir rápidamente una comprensión cualitativa interesante de los cálculos del modelo.