Por qué su organización debería unirse a la Asociación de estándares IEEE

En
nuestro estudio piloto, colocamos una matriz de electrodos delgada y flexible sobre la superficie del cerebro del voluntario. Los electrodos registraron señales neuronales y las enviaron a un decodificador de voz, que tradujo las señales en las palabras que el hombre pretendía decir. Era la primera vez que una persona paralizada que no podía hablar usaba la neurotecnología para transmitir palabras completas, no solo letras, desde el cerebro.

Ese ensayo fue la culminación de más de una década de investigación sobre los mecanismos cerebrales subyacentes que gobiernan el habla, y estamos enormemente orgullosos de lo que hemos logrado hasta ahora. Pero apenas estamos comenzando.
Mi laboratorio en la UCSF está trabajando con colegas de todo el mundo para hacer que esta tecnología sea lo suficientemente segura, estable y confiable para el uso diario en el hogar. También estamos trabajando para mejorar el rendimiento del sistema para que valga la pena el esfuerzo.

Cómo funcionan las neuroprótesis

Una serie de tres fotografías muestra la parte posterior de la cabeza de un hombre que tiene un dispositivo y un cable conectados al cráneo.  Una pantalla frente al hombre muestra tres preguntas y respuestas, que incluyen u201c¿Quiere un poco de agua?u201d y u201cNo, no tengo sed.u201d La primera versión de la interfaz cerebro-computadora le dio al voluntario un vocabulario de 50 palabras prácticas. Universidad de California, San Francisco

Las neuroprótesis han recorrido un largo camino en las últimas dos décadas. Los implantes protésicos para la audición son los que más han avanzado, con diseños que interactúan con el
nervio coclear del oído interno o directamente en el tronco cerebral auditivo. También hay una investigación considerable sobre implantes de retina y cerebro para la visión, así como esfuerzos para dar a las personas con manos protésicas un sentido del tacto. Todas estas prótesis sensoriales toman información del mundo exterior y la convierten en señales eléctricas que alimentan los centros de procesamiento del cerebro.

El tipo opuesto de neuroprótesis registra la actividad eléctrica del cerebro y la convierte en señales que controlan algo en el mundo exterior, como un brazo robótico, un controlador de videojuegos o un cursor en la pantalla de una computadora. Esta última modalidad de control ha sido utilizada por grupos como el Consorcio BrainGate para permitir que las personas paralizadas escriban palabras, a veces una letra a la vez, a veces usando una función de autocompletar para acelerar el proceso.

Para esa función de tecleo por cerebro, normalmente se coloca un implante en la corteza motora, la parte del cerebro que controla el movimiento. Entonces el usuario imagina ciertas acciones físicas para controlar un cursor que se mueve sobre un teclado virtual. Otro enfoque, iniciado por algunos de mis colaboradores en un artículo de 2021, hizo que un usuario imaginara que sostenía un bolígrafo sobre un papel y estaba escribiendo letras, creando señales en la corteza motora que se tradujeron en texto. Ese enfoque estableció un nuevo récord de velocidad, permitiendo al voluntario escribir alrededor de 18 palabras por minuto.

En la investigación de mi laboratorio, hemos adoptado un enfoque más ambicioso. En lugar de decodificar la intención de un usuario de mover un cursor o un bolígrafo, decodificamos la intención de controlar el tracto vocal, que comprende docenas de músculos que gobiernan la laringe (comúnmente llamada laringe), la lengua y los labios.

Una foto tomada desde arriba muestra una sala llena de computadoras y otros equipos con un hombre en silla de ruedas en el centro, frente a una pantalla. La configuración conversacional aparentemente simple para el hombre paralítico [in pink shirt] está habilitado tanto por hardware neurotecnológico sofisticado como por sistemas de aprendizaje automático que decodifican las señales de su cerebro. Universidad de California, San Francisco

Comencé a trabajar en esta área hace más de 10 años. Como neurocirujano, a menudo veía pacientes con lesiones graves que los dejaban sin poder hablar. Para mi sorpresa, en muchos casos, las ubicaciones de las lesiones cerebrales no coincidían con los síndromes que aprendí en la facultad de medicina, y me di cuenta de que todavía tenemos mucho que aprender sobre cómo se procesa el lenguaje en el cerebro. Decidí estudiar la neurobiología subyacente del lenguaje y, si era posible, desarrollar una interfaz cerebro-máquina (BMI) para restaurar la comunicación de las personas que la habían perdido. Además de mi experiencia en neurocirugía, mi equipo tiene experiencia en lingüística, ingeniería eléctrica, informática, bioingeniería y medicina. Nuestro ensayo clínico en curso está probando tanto el hardware como el software para explorar los límites de nuestro IMC y determinar qué tipo de habla podemos restaurar a las personas.

Los músculos implicados en el habla.

El habla es una de las conductas que
distingue a los humanos. Muchas otras especies vocalizan, pero solo los humanos combinan un conjunto de sonidos de innumerables formas diferentes para representar el mundo que los rodea. También es un acto motor extraordinariamente complicado: algunos expertos creen que es la acción motora más compleja que realizan las personas. Hablar es un producto del flujo de aire modulado a través del tracto vocal; con cada expresión damos forma a la respiración creando vibraciones audibles en nuestras cuerdas vocales laríngeas y cambiando la forma de los labios, la mandíbula y la lengua.

Muchos de los músculos del tracto vocal son bastante diferentes a los músculos basados ​​en las articulaciones, como los de los brazos y las piernas, que solo se pueden mover de unas pocas maneras prescritas. Por ejemplo, el músculo que controla los labios es un esfínter, mientras que los músculos que forman la lengua se rigen más por la hidráulica: la lengua se compone en gran medida de un volumen fijo de tejido muscular, por lo que mover una parte de la lengua cambia su forma. en otra parte. La física que gobierna los movimientos de tales músculos es totalmente diferente a la de los bíceps o isquiotibiales.

Debido a que hay tantos músculos involucrados y cada uno tiene tantos grados de libertad, hay esencialmente un número infinito de configuraciones posibles. Pero cuando la gente habla, resulta que usan un conjunto relativamente pequeño de movimientos básicos (que difieren un poco en diferentes idiomas). Por ejemplo, cuando los angloparlantes hacen el sonido “d”, ponen la lengua detrás de los dientes; cuando hacen el sonido “k”, la parte posterior de la lengua sube hasta tocar el techo de la parte posterior de la boca. Pocas personas son conscientes de las acciones musculares precisas, complejas y coordinadas que se requieren para decir la palabra más simple.

Un hombre mira dos grandes pantallas de visualización;  uno está cubierto de líneas onduladas, el otro muestra texto.u00a0El miembro del equipo David Moses observa una lectura de las ondas cerebrales del paciente [left screen] y una pantalla de la actividad del sistema de decodificación [right screen].Universidad de California, San Francisco

Mi grupo de investigación se centra en las partes de la corteza motora del cerebro que envían órdenes de movimiento a los músculos de la cara, la garganta, la boca y la lengua. Esas regiones del cerebro son multitareas: manejan los movimientos musculares que producen el habla y también los movimientos de esos mismos músculos para tragar, sonreír y besar.

Estudiar la actividad neuronal de esas regiones de manera útil requiere tanto una resolución espacial en la escala de milímetros como una resolución temporal en la escala de milisegundos. Históricamente, los sistemas de imágenes no invasivos han sido capaces de proporcionar uno u otro, pero no ambos. Cuando comenzamos esta investigación, encontramos muy pocos datos sobre cómo los patrones de actividad cerebral se asociaban incluso con los componentes más simples del habla: fonemas y sílabas.

Aquí tenemos una deuda de gratitud con nuestros voluntarios. En el centro de epilepsia de la UCSF, a los pacientes que se preparan para la cirugía generalmente se les colocan electrodos quirúrgicamente sobre las superficies de sus cerebros durante varios días para que podamos mapear las regiones involucradas cuando tienen convulsiones. Durante esos pocos días de tiempo de inactividad conectado, muchos pacientes se ofrecen como voluntarios para experimentos de investigación neurológica que hacen uso de las grabaciones de electrodos de sus cerebros. Mi grupo pidió a los pacientes que nos dejaran estudiar sus patrones de actividad neuronal mientras pronunciaban palabras.

El hardware involucrado se llama
electrocorticografía (ECoG). Los electrodos en un sistema ECoG no penetran en el cerebro sino que se encuentran en la superficie del mismo. Nuestras matrices pueden contener varios cientos de sensores de electrodos, cada uno de los cuales registra miles de neuronas. Hasta ahora, hemos usado una matriz con 256 canales. Nuestro objetivo en esos primeros estudios era descubrir los patrones de actividad cortical cuando las personas hablan sílabas simples. Les pedimos a los voluntarios que dijeran sonidos y palabras específicos mientras grabábamos sus patrones neuronales y seguíamos los movimientos de sus lenguas y bocas. A veces lo hicimos haciéndoles usar pintura facial de color y usando un sistema de visión por computadora para extraer los gestos cinemáticos; otras veces usamos una máquina de ultrasonido colocada debajo de las mandíbulas de los pacientes para obtener imágenes de sus lenguas en movimiento.

Un diagrama muestra a un hombre en silla de ruedas frente a una pantalla que muestra dos líneas de diálogo: u201c¿Cómo estás hoy?u201d y u201cEstoy muy bien.u201d Los cables conectan una pieza de hardware en la parte superior de la cabeza del hombre para un sistema informático, y también conectar la computadora  sistema a la pantalla de visualización.  Un primer plano de la cabeza del hombre muestra una tira de electrodos en su cerebro.El sistema comienza con una serie de electrodos flexibles que se colocan sobre el cerebro del paciente para captar señales de la corteza motora. La matriz captura específicamente los comandos de movimiento destinados al tracto vocal del paciente. Un puerto adherido al cráneo guía los cables que van al sistema informático, que decodifica las señales del cerebro y las traduce en las palabras que el paciente quiere decir. Sus respuestas luego aparecen en la pantalla de visualización.chris philpot

Utilizamos estos sistemas para hacer coincidir los patrones neuronales con los movimientos del tracto vocal. Al principio teníamos muchas preguntas sobre el código neuronal. Una posibilidad era que la actividad neuronal codificara direcciones para músculos particulares, y el cerebro esencialmente activaba y desactivaba estos músculos como si presionara las teclas de un teclado. Otra idea fue que el código determinaba la velocidad de las contracciones musculares. Otro más fue que la actividad neuronal se correspondía con patrones coordinados de contracciones musculares utilizados para producir un sonido determinado. (Por ejemplo, para hacer el sonido “aaah”, tanto la lengua como la mandíbula deben bajar). Lo que descubrimos fue que hay un mapa de representaciones que controla diferentes partes del tracto vocal, y que juntas las diferentes áreas del cerebro combinan de manera coordinada para dar lugar a un habla fluida.

El papel de la IA en la neurotecnología actual

Nuestro trabajo depende de los avances en inteligencia artificial durante la última década. Podemos introducir los datos que recopilamos sobre la actividad neuronal y la cinemática del habla en una red neuronal y luego dejar que el algoritmo de aprendizaje automático encuentre patrones en las asociaciones entre los dos conjuntos de datos. Fue posible establecer conexiones entre la actividad neuronal y el habla producida, y utilizar este modelo para producir texto o voz generados por computadora. Pero esta técnica no pudo entrenar un algoritmo para personas paralizadas porque nos faltaría la mitad de los datos: tendríamos los patrones neuronales, pero nada sobre los movimientos musculares correspondientes.

Nos dimos cuenta de que la forma más inteligente de utilizar el aprendizaje automático era dividir el problema en dos pasos. Primero, el decodificador traduce las señales del cerebro en movimientos previstos de los músculos en el tracto vocal, luego traduce esos movimientos previstos en voz o texto sintetizado.

Llamamos a esto un enfoque biomimético porque copia la biología; en el cuerpo humano, la actividad neuronal es directamente responsable de los movimientos del tracto vocal y solo indirectamente de los sonidos producidos. Una gran ventaja de este enfoque viene en el entrenamiento del decodificador para ese segundo paso de traducir los movimientos musculares en sonidos. Debido a que esas relaciones entre los movimientos del tracto vocal y el sonido son bastante universales, pudimos entrenar el decodificador en grandes conjuntos de datos derivados de personas que no estaban paralizadas.

Un ensayo clínico para probar nuestra neuroprótesis del habla

El próximo gran desafío fue llevar la tecnología a las personas que realmente podrían beneficiarse de ella.

Los Institutos Nacionales de Salud (NIH) están financiando
nuestra prueba piloto, que comenzó en 2021. Ya tenemos dos voluntarios paralizados con matrices ECoG implantadas y esperamos inscribir a más en los próximos años. El objetivo principal es mejorar su comunicación y estamos midiendo el rendimiento en términos de palabras por minuto. Un adulto promedio que escribe en un teclado completo puede escribir 40 palabras por minuto, y los mecanógrafos más rápidos alcanzan velocidades de más de 80 palabras por minuto.

Un hombre en uniforme quirúrgico y con una lupa en sus anteojos mira una pantalla que muestra imágenes de un cerebro.u00a0Edward Chang se inspiró para desarrollar un sistema de cerebro a voz por los pacientes que encontró en su práctica de neurocirugía. Bárbara Ries

Creemos que aprovechar el sistema de voz puede proporcionar resultados aún mejores. El habla humana es mucho más rápido que escribir: un hablante de inglés puede decir fácilmente 150 palabras en un minuto. Nos gustaría permitir que las personas paralizadas se comuniquen a una velocidad de 100 palabras por minuto. Tenemos mucho trabajo por hacer para alcanzar ese objetivo, pero creemos que nuestro enfoque lo convierte en un objetivo factible.

El procedimiento de implante es rutinario. Primero, el cirujano extrae una pequeña porción del cráneo; a continuación, la matriz ECoG flexible se coloca suavemente sobre la superficie de la corteza. Luego, se fija un pequeño puerto al hueso del cráneo y sale a través de una abertura separada en el cuero cabelludo. Actualmente necesitamos ese puerto, que se conecta a cables externos para transmitir datos desde los electrodos, pero esperamos que el sistema sea inalámbrico en el futuro.

Hemos considerado el uso de microelectrodos penetrantes, porque pueden registrar poblaciones neuronales más pequeñas y, por lo tanto, pueden proporcionar más detalles sobre la actividad neuronal. Pero el hardware actual no es tan robusto y seguro como ECoG para aplicaciones clínicas, especialmente durante muchos años.

Otra consideración es que los electrodos penetrantes generalmente requieren una recalibración diaria para convertir las señales neuronales en comandos claros, y la investigación sobre dispositivos neuronales ha demostrado que la velocidad de configuración y la confiabilidad del rendimiento son clave para lograr que las personas usen la tecnología. Por eso hemos priorizado la estabilidad en
crear un sistema «plug and play» para uso a largo plazo. Realizamos un estudio que analizó la variabilidad de las señales neuronales de un voluntario a lo largo del tiempo y descubrimos que el decodificador funcionaba mejor si usaba patrones de datos en varias sesiones y varios días. En términos de aprendizaje automático, decimos que los «pesos» del decodificador se trasladaron, creando señales neuronales consolidadas.

Universidad de California, San Francisco

Debido a que nuestros voluntarios paralizados no pueden hablar mientras observamos sus patrones cerebrales, le pedimos a nuestro primer voluntario que probara dos enfoques diferentes. Comenzó con una lista de 50 palabras que son útiles para la vida diaria, como «hambre», «sed», «por favor», «ayuda» y «computadora». Durante 48 sesiones a lo largo de varios meses, a veces le pedíamos que se imaginara diciendo cada una de las palabras de la lista, y a veces le pedíamos que abiertamente
probar para decirlos. Descubrimos que los intentos de hablar generaron señales cerebrales más claras y fueron suficientes para entrenar el algoritmo de decodificación. Luego, el voluntario podría usar esas palabras de la lista para generar oraciones de su propia elección, como «No, no tengo sed».

Ahora estamos presionando para expandirnos a un vocabulario más amplio. Para que eso funcione, necesitamos continuar mejorando los algoritmos e interfaces actuales, pero confío en que esas mejoras ocurrirán en los próximos meses y años. Ahora que se ha establecido la prueba de principio, el objetivo es la optimización. Podemos concentrarnos en hacer que nuestro sistema sea más rápido, más preciso y, lo que es más importante, más seguro y más confiable. Las cosas deberían moverse rápidamente ahora.

Probablemente, los mayores avances se producirán si podemos comprender mejor los sistemas cerebrales que estamos tratando de decodificar y cómo la parálisis altera su actividad. Nos hemos dado cuenta de que los patrones neuronales de una persona paralizada que no puede enviar órdenes a los músculos de su tracto vocal son muy diferentes de los de un paciente con epilepsia que sí puede. Estamos intentando una hazaña ambiciosa de la ingeniería de BMI mientras todavía hay mucho que aprender sobre la neurociencia subyacente. Creemos que todo se unirá para devolverles a nuestros pacientes sus voces.

De los artículos de su sitio

Artículos relacionados en la Web

Fuente del artículo

Deja un comentario