
🔘 Página de papel: arxiv.org/abs/2112.10508
Abstracto
«¿Cuáles son las unidades de texto que queremos modelar? Desde bytes hasta expresiones de varias palabras, el texto se puede analizar y generar con muchos detalles. Hasta hace poco, la mayoría de los modelos de procesamiento de lenguaje natural (NLP) operaban sobre palabras, tratándolas como tokens discretos y atómicos, pero a partir de la codificación de pares de bytes (BPE), los enfoques basados en subpalabras se han vuelto dominantes en muchas áreas, permitiendo vocabularios pequeños mientras aún permitiendo una inferencia rápida. ¿Es el final del camino el modelo a nivel de caracteres o el procesamiento a nivel de bytes? En esta encuesta, conectamos varias líneas de trabajo de la era preneuronal y neuronal, mostrando cómo se han propuesto y evaluado enfoques híbridos de palabras y caracteres, así como enfoques basados en subpalabras basados en la segmentación aprendida. Concluimos que existe y probablemente nunca habrá una solución singular milagrosa para todas las aplicaciones y que pensar seriamente en la tokenización sigue siendo importante para muchas aplicaciones.»
Autores
Sabrina J. Mielke, Zaid Alyafeai, Elizabeth Salesky, Colin Raffel, Manan Dey, Matthias Gallé, Arun Raja, Chenglei Si, Wilson Y. Lee, Benoît Sagot, Samson Tan
¿Te gustó esta publicación? Sigue este blog para obtener más.