Últimamente estamos oyendo hablar mucho de las legaltech, donde España se considera un referente mundial en su revolución, hasta el punto de ser el primer país en impartir un máster completo sobre este innovador sector.
Todo esto es posible gracias a los enormes avances que se están haciendo en la tecnología. La semana pasada profundizamos en un tipo de IA, el Machine Learning, sin embargo esta semana entraremos más a fondo en el Procesamiento de Lenguaje Natural (PLN).
El PLN es una disciplina que cuenta con más de 50 años de investigación y desarrollo. Se utiliza para investigar la manera de que se puedan comunicar las personas con las máquinas mediante el uso de lenguas naturales, como pueden ser el español, el inglés o el chino. Eso sí, como es de esperar, solo las lenguas más usadas en el mundo son las que tienen aplicaciones en uso.
Las lenguas pueden expresarse por escrito, oralmente o mediante signos. El PLN está mucho más avanzado en el procesamiento de textos, ya que hay muchos más datos y son más fáciles de conseguir en formato electrónico. En el caso de los audios, primero hay que pasarlos a texto y después se procede a entender su contenido.
Componentes del PLN
- Análisis Morfológico o léxico: Consiste en el análisis interno de las palabras que forman las oraciones para extraer rasgos flexivos o lemas.
- Análisis sintáctico: Trata del análisis de la estructura de las oraciones de acuerdo con el modelo gramatical empleado. Este último puede ser lógico o estadístico.
- Análisis semántico: Proporciona la interpretación de las oraciones una vez eliminadas las ambigüedades morfosintácticas.
- Análisis pragmático: Es el que se encarga del análisis del contexto de uso a la interpretación final. En este caso se incluye el tratamiento de lenguaje figurado, como son la metáfora y la ironía y el conocimiento del mundo específico necesario para comprender un texto especializado.
Aplicaciones más importantes del PLN
- El análisis de opiniones y de sentimientos: Se ocupa del análisis computacional de textos producidos por seres humanos. Su finalidad es procesar y extraer unos niveles cuantificables de opiniones y sentimientos conexos. Se utiliza mucho en redes sociales, ya que los usuarios tienen muchas facilidades para mostrar sus opiniones y de esta forma pueden medir el impacto del producto.
- La traducción automática: Se centra en la traducción de textos asistida por ordenador de un idioma a otro. Existen muchas técnicas de traducción automática, en función del contexto, del planteamiento, etc… Se utiliza en las páginas web, ya que deben estar disponibles en cualquier idioma.
- El reconocimiento y la clasificación de entidades nombradas: Esta es una parte de la extracción de información que se ocupa de la localización, la identificación y la clasificación de elementos individuales, denominadas «entidades nombradas», en textos, fechas, porcentajes, números… Una tarea de esta aplicación es la de identificar «expresiones importantes» y enlazarlas a páginas de la wikipedia.
- Los sistemas de diálogo: Ofrecen a las personas una posibilidad de interactuar con un sistema computacional. Tanto usando diálogos escritos o incluso orales similares a los que mantienen entre sí las personas humanas. Esta aplicación se utiliza mucho en los chats de las páginas web, en las que la propia máquina le puede responder las preguntas a los usuarios como si fuera un humano.
- Los clasificadores y otras tecnologías de reconocimiento de patrones: Permiten la clasificación de la información según unos criterios predefinidos. La información puede proceder de diversas naturalezas, como pueden ser la visual, textual, acústica, etc… Esta tecnología se puede usar en la previsión meteorológica o en el reconocimiento de caracteres.
En Emérita Legal empleamos el PLN para la lectura de resoluciones, detección de entidades y la extracción de datos.
Beneficios del PLN
- Ahorro de tiempo con la automatización de los procesos que se realizan a mano. La traducción de documentos con información repetitiva o la clasificación documental son procesos automatizables.
- Agilización del trabajo de etiquetado manual: Se trata de la lectura de grandes volúmenes de documentos para así etiquetar de forma más fiable la información.
- Tomar decisiones relativas al negocio: La toma de decisiones, si un sistema detecta el fallo, se hace más sencilla.
En definitiva, el sector de las legaltech se encuentra en ebullición en España. Aunque le queda bastante para poder equipararse a países como EEUU, ya cuenta con bastantes iniciativas consolidadas y aún más en fase de ideación.