Qué es un token cuando hablamos de IA y por qué es importante que Gemini admita un millón

Cuando las empresas como OpenAI o Google hablan de sus modelos siempre presumen de los tokens. Pero, ¿qué es un token? ¿Y por qué es importante? 

ChatGPT
1 comentario Facebook Twitter Flipboard E-mail

Cuando una firma como OpenAI o Google presenta alguna novedad relacionada con sus modelos del lenguaje (GPT, Gemini) es normal que presuma de tokens. Tokens, tokens, tokens. El otro día, durante el Google I/O, la empresa de Mountain View hizo especial hincapié en que Gemini 1.5 Pro admite un millón de tokens y en algunos casos, hasta dos millones. La pregunta es: ¿qué es exactamente un token cuando hablamos de inteligencia artificial? Es más, ¿por qué debería importarnos? Vamos a salir de dudas.

¿Qué es un token? Empecemos por lo básico. La forma más sencilla de entender los tokens es imaginarlos como fragmentos de palabras, como la unidad mínima de texto de un modelo de IA. Cuando introducimos un texto en ChatGPT o Gemini, el modelo coge ese texto, lo divide mediante un algoritmo tokenizador en fragmentos más pequeños siguiendo unas reglas (por ejemplo, ¿empieza por mayúscula? ¿Tiene un punto al final? ¿Lleva tilde?) y lo procesa.

Chiste de Gemini Será todo lo lista que quieras, pero lo del humor no lo llevan bien | Captura: Xataka

Aunque podemos hacer la asociación "un token, una palabra", no tiene por qué ser así. De hecho, una palabra en inglés no usa los mismos tokens que la misma palabra en español o francés. Los tokens no se cortan exactamente donde empiezan y acaban las palabras, ya que pueden incluir espacios finales, subpalabras, puntos, comas, emojis...

¿Me lo explicas con un ejemplo? Por supuesto. Usaremos el siguiente texto, que es el primer párrafo de 'Don Quijote de la Mancha". Nosotros vemos el texto tal que así:

"En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua, rocín flaco y galgo corredor. Una olla de algo más vaca que carnero, salpicón las más noches, duelos y quebrantos los sábados, lantejas los viernes, algún palomino de añadidura los domingos, consumían las tres partes de su hacienda. El resto della concluían sayo de velarte, calzas de velludo para las fiestas, con sus pantuflos de lo mesmo, y los días de entresemana se honraba con su vellorí de lo más fino".

Pues si se lo metemos a una IA como GPT-4, el algoritmo tokenizador lo dividirá en tokens y descompondrá en unidades mínimas de información de la siguiente manera:

Tokens El primer párrafo del Quijote equivale a 174 tokens | Captura: Xataka

Si le metemos el mismo párrafo, pero en inglés:

"In a village of La Mancha, the name of which I have no desire to call to mind, there lived not long since one of those gentlemen that keep a lance in the lance-rack, an old buckler, a lean hack, and a greyhound for coursing. An olla of rather more beef than mutton, a salad on most nights, scraps on Saturdays, lentils on Fridays, and a pigeon or so extra on Sundays, made away with three-quarters of his income. The rest of it went in a doublet of fine cloth and velvet breeches and shoes to match for holidays, while on week-days he made a brave figure in his best homespun".

GPT-4 lo divide de la siguiente forma:

El primer párrafo del Quijote en inglés equivale a 138 tokens | Captura: Xataka El primer párrafo del Quijote en inglés equivale a 138 tokens | Captura: Xataka

¿Y cuántas palabras es un token? Depende del idioma, el contexto, la frase... Es algo más complejo que decir "un token, una palabra". Sin embargo, una regla básica que podemos usar es la que nos ofrece OpenAI:

  • Un token ± cuatro caracteres en inglés o 3/4 de palabra.
  • 100 tokens ± 75 palabras.
  • Un párrafo ± 100 tokens.
  • 1.500 palabras: 2.048 tokens.
  • Lo que va de artículo, incluido esta última línea: 724 tokens.

La ventana de contexto. Ahora que ya sabemos qué es un token, toca pasar a otro concepto importante: la ventana de contexto. ¿Cómo se usa ChatGPT, Gemini y compañía? Normalmente, le enviamos un texto y nos devuelve una respuesta en forma de texto. Es decir, enviamos un texto, se convierte en tokens, se procesan y se genera una respuesta en forma de tokens que nosotros vemos como uno, dos o tantos párrafos como GPT, Gemini y compañía consideren oportunos.

Pues la cantidad de tokens máxima que un modelo puede procesar a la vez se llama ventana de contexto. Cuanto mayor sea la ventana de contexto, más información podremos incluir como entrada para que luego la IA nos conteste en base a toda esa información.

Y eso quiere decir... Vamos con otro ejemplo: "Jose cerró la puerta y se dirigió al salón". ¿Qué tenemos en esta frase? Palabras, sí, pero dentro de un contexto. Sabemos que "Jose" es probablemente el protagonista de la historia, que "cerró" se refiere a una acción física en pasado y que "puerta" es un objeto que permite entrar o salir de una habitación. También sabemos que "se dirigió" significa movimiento y que "salón" es un lugar específico de, probablemente, una casa.

En este caso, la IA entiende perfectamente lo que queremos decir porque la frase es muy corta, apenas necesita tokens. ¿Pero qué pasa si le metemos 20 PDFs de 300 páginas cada uno? La cosa cambia. Necesitaremos una ventana de contexto mucho más grande para que el modelo sea capaz de manejar tanta información a la vez.

ChatGPT ChatGPT no solo entiende texto, sino que también nos permite usar la IA mediante audio | Imagen: Solen Feyissa en Pexels

IA multimodal. Hasta ahora hemos hablado de texto, pero lo cierto es que la tendencia es ir hacia lo multimodal. Una IA multimodal es aquella que no solo entiende texto, sino que puede procesar a la vez varios tipos de datos, como texto, vídeo y audio. Project Astra o los últimos avances de OpenAI son, precisamente, ejemplos de inteligencias artificiales multimodales. Y efectivamente, no es lo mismo una hora de vídeo que diez páginas de texto.

¿Por qué nos interesa que la ventana de contexto sea mayor? Porque una inteligencia artificial multimodal debe procesar muchísima información al mismo tiempo. Piensa en todos los inputs que puede haber en un vídeo caminando por la calle en solo diez segundos: nombres, señales, número de personas, colores de la ropa, tiendas, restaurantes...

Que una IA tenga una ventana de contexto de uno y dos millones de tokens no es para que entienda una tesis doctoral en texto (que también), sino para trabajar con textos, audios y vídeos cada vez más largos y obtener información, respuestas y todo tipo de datos a partir de ellos.

Imagen | Solen Feyissa en Pexels

En Xataka | Gracias a GPT-4o, ChatGPT se convierte en el profesor particular ideal. Es otra revolución para la enseñanza

Inicio