Primer diccionario multilingüe basado en palabras universales

Su primera aplicación será para el patrimonio cultural español y estará concluida en 2008

Investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid han desarrollado un original sistema que permite construir diccionarios multilingües basados en múltiples equivalencias de términos a partir de las así llamadas palabras universales, con una fiabilidad y exactitud del 88% hasta el momento.

El sistema se basa por un lado en la base de datos WordNet, de la Universidad de Princeton. WordNet es una base de datos léxica desarrollada por lingüistas del laboratorio de ciencias cognitivas de la mencionada universidad.

Su finalidad es inventariar, clasificar y relacionar de diferente forma, el contenido semántico y léxico de la lengua inglesa. WordNet se presenta como una base de datos electrónica que puede descargarse a través de Internet.

La base fundamental de WordNet es el synset (sinónimo set), grupo de palabras intercambiables que denotan un sentido o uso particular. Cada synset es uno de los significados diferentes que puede tener una palabra, descrita de forma breve y concisa.

WordNet dispone de un léxico de más de 200.000 términos perfectamente estructurados y definidos dentro de la lengua inglesa, que constituye uno de los pilares del sistema ideado por los investigadores de la Facultad de Informática de la UPM.

El otro pilar del sistema lo constituyen las palabras universales. El concepto palabra universal tiene su origen en el Proyecto UNL (Universal Networking Language), que tiene como cometido eliminar las barreras de la diversidad lingüística creando un medio de intercambio de información que permita comunicarse en su propio idioma.

Palabras universales

Tal como explica al respecto el Centro de Lengua Española del Proyecto UNL, uno de los conceptos más básicos del UNL es el de palabra universal. El concepto de palabra universal indica que se trata de una palabra, tomada de la lengua inglesa, a la que se le elimina su ambigüedad mediante la adición de una serie de atributos y restricciones.

La palabra inglesa más los atributos y restricciones es a lo que se denomina palabra universal, ya que tiene correspondencia con sus homónimas en cualquier otra lengua. Debido a su exactitud, uno de los usos de las palabras universales es la producción de forma sistemática de diccionarios multilingües.

Aplicando un algoritmo basado en modelos computacionales a la base de datos de WordNet, los investigadores de la Facultad de Informática de la UPM han expandido los léxicos de la lengua inglesa, convirtiéndolos así en palabras universales susceptibles de ser utilizadas en la producción de diccionarios multilingües.

A continuación, estos ingenieros han creado un Diccionario de Palabras Universales que permite asociar las palabras de cada lengua con su correspondiente palabra universal sin ambigüedad. De esta forma, han desarrollado una herramienta que permite a una persona poner una palabra en su idioma original y seleccionar la correspondiente en otro idioma, de entre un conjunto de términos escritos en su propia lengua, algo inédito en la historia del multilingüismo.

Cómo funciona

El objetivo final es construir diccionarios muy precisos entre diferentes lenguas. El sistema consiste en crear palabras universales en inglés a partir de la base de datos de WordNet. A continuación esas palabras universales se pasan a lexicógrafos de diferentes países. Cada uno de ellos lee en inglés la palabra universal y entiende el significado que se le otorga.

A continuación le añade la traducción en su lengua materna, sin necesidad de conocer la lengua de destino. Aunque las palabras universales utilizan terminología inglesa, la diferencia de usar directamente el inglés como palabra universal es que el inglés es otra lengua natural y tiene ambigüedad. Al asociársele atributos y restricciones la ambigüedad desaparece y la precisión hacia otras lenguas es muy alta.

De esta forma se construye este diccionario multilingüe. El método ya está experimentado y testado con resultados sorprendentes. La exactitud y fiabilidad de las traducciones realizadas a partir de las palabras universales creadas con WordNet es del 88% en equiparación perfecta.

Sistema original

Se trata de un sistema original respecto a otros métodos lexicográficos, ya que puede generar diccionarios bilingües sin necesidad de expertos que hablen todas las lenguas implicadas. Basta con que sepan inglés con nivel suficiente, además de su lengua materna, para aportar la traducción exacta de la palabra buscada.

Aunque hoy es relativamente sencillo encontrar intérpretes de español e inglés, por ejemplo, es más complicado encontrar traductores entre portugués y búlgaro, dilema que resuelve el sistema desarrollado por los investigadores de la UPM.

Estos diccionarios bilingües basados en las múltiples equivalencias de términos no son útiles solamente para construir diccionarios, sino también para soportar sistemas de búsqueda en diferentes idiomas.

Diccionario multilingüe del patrimonio cultural español

Con este sistema, el Grupo de Validación y Aplicaciones Industriales, que dirige el profesor de la Facultad de Informática Jesús Cardeñosa, elabora un diccionario de términos multilingües para el patrimonio cultural español, por encargo del Ministerio de Cultura, en el marco del Proyecto Patrilex, que estará finalizado en 2008.

El objetivo de este proyecto es la definición de una metodología y desarrollo de herramientas que sustenten la búsqueda documental sobre patrimonio cultural basada en recursos léxicos multilingües.

Para ello se desarrollan herramientas de recursos léxicos en el contexto del Patrimonio Cultural español, consistentes en un tesauro (base de datos) multilingüe sobre el que se definirán relaciones semánticas para la mejor determinación del contexto subyacente a una pregunta.

Un tesauro es una lista de términos que pueden estar constituidos por más de una palabra, relacionados entre sí jerárquicamente (términos generales y subordinados), utilizadas para la indización (con fines de archivo) y la recuperación de documentos.

El resultado final será un sistema de búsqueda basado en entradas del usuario mediante palabras clave, capaz de contextualizar la pregunta y de establecer la correspondencia con las palabras equivalentes en otras lenguas.

Ello permitirá por ejemplo escribir una búsqueda en español y obtener documentos en varios idiomas ajustados a los conceptos de la búsqueda, con una precisión inédita en los actuales sistemas multilingües.

Los idiomas para la confección del Tesauro multilingüe serán el español, inglés y ruso, y el entorno real de prueba del sistema será la web de la Subdirección General de Patrimonio, hoy exclusivamente en español. La Metodología hará especial énfasis en la extensibilidad a nuevas lenguas del método seguido, señala la presentación del proyecto.