El procesamiento del lenguaje natural no es nada nuevo en el campo de la tecnología, pero, con el progreso realizado estos últimos años, esta rama de la inteligencia artificial ha tomado una nueva dimensión hasta incorporarse a numerosos programas informáticas de la vida diaria (como traductores automáticos).
Google se ha servido de esta tecnología introduciendo el lenguaje natural en su algoritmo y, más recientemente, ofreciendo a las empresas una API especializada: Google NLP. Descubramos juntos la relación entre Google y el NLP (Natural Language Processing) y veamos cómo influye esta tecnología en la indexación y en el posicionamiento de las páginas web, y, en consecuencia, en las estrategias de posicionamiento web natural.
¿Qué es el procesamiento automático del lenguaje natural?
Antes de entrar en los detalles del trabajo de Google con el NLP, es importante entender en qué consiste el Natural Language Processing (procesamiento automático del lenguaje natural). Esta rama de la inteligencia artificial pretende dotar a un programa informático de la capacidad de comprender e interpretar el lenguaje tal y como lo hablan y lo escriben los seres humanos con todas sus complejidades y todos sus matices. Así, un algoritmo que utilice el NLP puede analizar las frases, entender el sentido de las palabras en su contexto y, por último, generar ese mismo lenguaje para comunicarse.
El procesamiento automático del lenguaje natural combina conocimientos informáticos, matemáticos y lingüísticos. En el campo de la inteligencia artificial, el NLP se encuentra entre el Machine Learning y el Deep Learning (dos métodos de aprendizaje autónomo), tal y como se puede ver en el siguiente esquema:
(Fuente: Sidartha Mehra, researchgate.net)
El objetivo es dar fluidez a la “comunicación” entre los humanos y las máquinas, ayudando a estas últimas a hablar en mismo idioma que los primeros. Esto tiene dos efectos inmediatos y tangibles: la simplificación del uso de las tecnologías y la rápida automatización de las tareas más pesadas gracias a la capacidad de los programas informáticos para procesar grandes cantidades de información en un tiempo récord. Estos datos, una vez estructurados, pueden ser aprovechada para diferentes aspectos.
En la práctica, el procesamiento automático del lenguaje natural ya se utiliza en aplicaciones cotidianas por parte de particulares y empresas (Por no hablar de los motores de búsqueda y la API de NLP de Google). Algunos ejemplos concretos son:
- Los traductores automáticos, como Google Translate, que traducen un texto en el idioma deseado de manera instantánea.
- Los asistentes de voz, software integrado en smartphones y ordenadores (Siri, Cortana…) y altavoces conectados (Google Home, Alexa…).
- Los chatbots, programas que simulan conversaciones humanas y son capaces de responder a sencillas preguntas de los usuarios (cada vez más utilizados en los portales web de las empresas).
- Los correctores automáticos, como el integrado en Microsoft Word o el programa informático Antidote.
Si alguna vez has utilizado un traductor instantáneo o has hecho clic en el corrector de tu documento Word, hasta utilizado una herramienta con tecnología de aprendizaje automático que se centra en la comprensión del lenguaje natural. También existen otras aplicaciones más específicas, a menudo utilizadas por profesionales: transcripción automática del lenguaje hablado (y viceversa), resumen automático con reformulación y paráfrasis, análisis del aspecto emocional de un contenido, modelización del lenguaje natural en forma de frases completas, herramienta de análisis de contenidos textuales (como Google NLP), etc.
En términos más generales, todos los programas informáticos que se basan en la comprensión del lenguaje natural usan la tecnología del NLP, buscando simplificar las tareas realizadas por los humanos. Por lo tanto, ¡estamos muy lejos de esa pesadilla que asocia el progreso de la inteligencia artificial con la rebelión de las máquinas!
La historia del procesamiento del lenguaje natural
El trabajo de Google con el NLP solo es un avance en un campo con mucha historia, cuya aparición coincide casi con la de los ordenadores. Las primeras pruebas de procesamiento automático del lenguaje natural se remontan a los años 50 con la puesta a punto de las herramientas de traducción instantánea, en un contexto político (la Guerra Fría) que favorecía este tipo de investigación. La idea de “programa conversacional” estaba en el centro de todas las miradas científicas en la época del conocido experimento que Alan Turing expone en su artículo “Computing machinery and intelligence” (fuente).
El primer robot de conversación de la historia, ELIZA, fue creado por Joseph Weizenbaum en un laboratorio norteamericano entre 1964 y 1966. Más tarde, en los años 80, tras una sucesión de programas capaces de estructurar la información en datos comprensibles para los ordenadores, esta evolución del procesamiento abrió paso a nuevas aplicaciones del NLP, especialmente con la introducción de algoritmos de Machine Learning: los ordenadores consiguen “aprender” y definir sus propias reglas.
Desde principios del siglo XXI, se ha dado luz verde (en el ámbito tecnológico) para favorecer el desarrollo del procesamiento automático del lenguaje natural: profundización del Deep Learning, aumento exponencial de la potencia de cálculo de los ordenadores, incremento de la cantidad de datos, etc. Esto ha dado lugar a aplicaciones concretas accesibles a todos los usuarios, como la aparición del primer asistente virtual instalado en un smartphone a finales del 2011 en el iPhone 4S y, posteriormente, de los altavoces conectados (Amazon en 2014 y Google en 2016).
¿Cómo funciona el Natural Language Processing?
Por lo tanto, la idea de la comprensión del lenguaje natural no es nada nuevo, pero ha experimentado un rápido progreso con el Deep Learning. Esta metodología se basa en el uso de redes neuronales artificiales que “imitan” al cerebro humano. La complejidad del lenguaje “natural” radica en que contiene muchas sutilezas difíciles de entender para las máquinas: ironía, insinuaciones, humor, metáforas, antítesis, etc. La tecnología de NLP pretende comprender estos matices y combinarlos correctamente con el aprendizaje autónomo para convertir el lenguaje en simples datos, generar interacciones con los usuarios y crear conversaciones inteligentes.
Con este objetivo, el algoritmo utiliza recurrencias, patrones y correlaciones para descomponer el lenguaje humano y, posteriormente, extraer su significado. Los elementos del discurso se clasifican y dividen, las palabras y los sintagmas se separan y se les asignan funciones según su morfología. De esta forma, el programa es capaz de distinguir una frase nominal, un verbo conjugado, diferentes proposiciones, complementos, personas, géneros, números, etc. Para ello, se utilizan varias metodologías (análisis de la frecuencia de los términos, comparación de los usos de una palabra clave según un porcentaje en varios textos del mismo tipo, estudio del contexto…), así como múltiples niveles de procesamiento del lenguaje:
- análisis léxico,
- análisis sintáctico,
- análisis semántico,
- análisis pragmático.
Así exactamente es como Google usa el NLP, tal y como sucede en su algoritmo BERT.
Google y el NLP: el procesamiento del lenguaje natural integrado en el algoritmo del motor de búsqueda
En lo que refiere al procesamiento automático del lenguaje natural, Google es un referente, pero vamos a centrarnos en cómo se utiliza esta tecnología para transformar los procesos de indexación y posicionamiento de las páginas web.
Para entender cómo evoluciona el algoritmo de Google, debemos fijarnos siempre en la experiencia del usuario. La firma de Mountain View quiere garantizar la satisfacción de los internautas que utilizan su motor de búsqueda, ofreciéndoles resultados lo más pertinentes posible, lo que implica mejorar continuamente la calidad de las páginas que se muestran en su SERP.
En este contexto, comprender las búsquedas que hacen los usuarios es un reto importante. Ya no solo se trata de entender el significado global de las palabras, sino de identificar la intención que hay detrás de la búsqueda para responder mejor a ella. Para ello, es necesario comprender todos los matices de la consulta, así como detectar los términos que expresan un “sentimiento”.
Este trabajo de Google con el NLP ha dado lugar al lanzamiento, en 2019, del algoritmo BERT (la actualización más importante en cinco años para la empresa, según han definido ellos mismos) y un auténtico avance en el funcionamiento de los motores de búsqueda. De hecho, BERT ya no se contenta con procesar cada palabra de la búsqueda, sino que entrelaza los términos utilizados para tener en cuenta el contexto de la consulta y entender el “verdadero significado”. Con este objetivo, examina todos los términos utilizados (incluidas las conjunciones y las preposiciones) y evalúa el “sentimiento” que se deduce de la búsqueda otorgándole una puntuación (positiva, negativa o neutra).
Cuando se puso en marcha, el algoritmo BERT (Bidirectional Encoder Representations from Transformers) era la culminación tecnológica de la investigación de Google en el NLP. Así, se basa en dos pilares:
- los datos (modelos preestablecidos: conjuntos de información para analizar a través del procesamiento automático del lenguaje natural);
- la metodología (la forma en que el algoritmo utiliza estos modelos).
Dicho de otra forma, con BERT, Google pretende “leer” la mente de los usuarios entendiendo no solamente la búsqueda, sino también lo que no dice explícitamente. También es una forma de entender las nuevas búsquedas (las que se formulan por primera vez) y que Google estimaba (en su momento), aproximadamente, en un 15% de las búsquedas diarias.
En 2021, el trabajo de Google con el NLP se intensificó para crear MUM (Multitask Unified Model), una actualización de su algoritmo que mejora aún más la comprensión del lenguaje natural y, con ello, la pertinencia de las respuestas ofrecidas a los internautas. En concreto, MUM se centra en lo que Google denomina “búsquedas complejas”, caracterizadas por su longitud y la inclusión de varias proposiciones. El objetivo de MUM es poder responder a estas consultas en una sola vez, aprovechando funciones avanzadas como la extracción de información de múltiples formatos de contenido, la visualización de recursos extraídos de resultados en 75 idiomas (con traducción instantánea) y la gestión de múltiples tareas de forma simultánea.
El procesamiento automático del lenguaje natural en Google, ¿cambia algo en concreto para el SEO?
Es importante entender que la integración del NLP en el motor de búsqueda de Google tiene como objetivo mejorar los servicios prestados a los internautas. La tecnología de procesamiento del lenguaje natural ayuda a los algoritmos a comprender mejor las búsquedas de los usuarios y a ofrecerles respuestas más pertinentes y satisfactorias.
Esto es aún más importante para Google, ya que estas necesidades se ven promovidas por los cambios en el comportamiento de la sociedad, en particular el aumento en el uso de la búsqueda vocal, que, a su vez, se ve facilitado por las aplicaciones de NLP. Una amplia encuesta realizada en 2019 por Uberall (y publicada aquí) muestra que el 21% de las personas encuestadas utilizan la búsqueda vocal cada semana. Sin embargo, al usar un lenguaje natural, las búsquedas vocales son, por lo tanto, mucho más complejas de entender para los motores de búsqueda que las consultas genéricas compuestas simplemente de algunas palabras claves.
En consecuencia, a medida que el trabajo de Google con el NLP se intensifica y que el algoritmo integra más y más criterios relacionados con el lenguaje natural, se hace imprescindible que los webmasters optimicen sus páginas web para adaptarse a estos cambios. Desde el lanzamiento de BERT, los librillos de los expertos en SEO se han llenado de nuevas recomendaciones para los contenidos:
- escribir para los usuarios, y no solo para los robots crawlers,
- aprender a entender mejor al público para responder con mayor pertinencia a sus expectativas,
- simplificar el lenguaje y emplear un tono más conversacional,
- trabajar el campo semántico de la página web para consolidar el contexto y ayudar el algoritmo para comprender los diferentes aspectos del tema tratado.
Más recientemente, Google ha lanzado una herramienta específica que incorpora el lenguaje natural y que ayuda a los usuarios a extraer información del texto no estructurado. Esta herramienta, moderadamente llamada Google NLP, es una API que permite examinar un contenido textual y extraer los datos que pueden ser utilizados como parte de una estrategia SEO. El NLP de Google da una idea de cómo el algoritmo entiende un texto y qué es lo que comprende al analizar sus palabras claves, su semántica, su sintaxis, su sentido general y sus “entidades” (palabras o frases que representan elementos que pueden ser identificados y clasificados). He aquí un ejemplo de los resultados que ofrece esta herramienta:
El principio es simple: Google NLP permite comparar el resultado del análisis con las páginas que se encuentran en los primeros puestos de las SERP y, posteriormente, aplicar los mismos métodos para la optimización, por ejemplo, aplicando una determinada combinación de palabras claves que muestren un sentido concreto por parte de los internautas. En igualdad de condiciones (en términos de criterios SEO), es teóricamente posible que tu contenido se sitúe cerca de las páginas mejor posicionadas por Google si responde a las expectativas del motor de búsqueda en términos de lenguaje natural.
Otro punto fundamental a tener en cuenta son los enlaces, tanto internos como externos, ya que adquieren una nueva dimensión gracias a los trabajos de Google con el NLP: más que nunca, el SEO debe tener en cuenta el contexto de la página sobre la colocación de los enlaces y la pertinencia de las anclas. Los enlaces deben servir únicamente para mejorar la experiencia del usuario, que, aunque algunos no estén de acuerdo, no afecta a su importancia en el SEO. En resumen, cuanto mejor entendamos el funcionamiento de Google y del NLP, mejor comprenderemos lo que el algoritmo considera más pertinente y lo que mostrará a los usuarios. Esto no cuestiona en ningún caso la importancia de los factores tradicionales del SEO, pero tiende a privilegiar la pertinencia y la calidad de los contenidos, así como la experiencia del usuario y la optimización de los distintos formatos de contenido (textos, imágenes, vídeos y archivos de audio). Por lo tanto, ¡ya es hora de que nos subamos al tren del lenguaje natural!