Ir al contenido

Inicio
ETSIINF en Twitter ETSIINF en Facebook
Inicio > Conócenos > Sala de prensa > Proyecto COES

Investigadores de la Facultad crean el único diccionario electrónico público de español

Forma parte del proyecto COES, en el que participa también la Universidad Carlos III

31.01.2008. Un primer diccionario electrónico español de dominio público y libre distribución ha sido desarrollado por el proyecto COES, dirigido por Santiago Rodríguez, profesor de la Facultad de Informática Universidad Politécnica de Madrid (FIUPM), y por Jesús Carretero, actual profesor de la Universidad Carlos III de Madrid y antiguo profesor de la FIUPM.

Las herramientas para la lengua española COES son un campo de investigación del Departamento de Arquitectura y Tecnología de Sistemas Informáticos (DATSI) de la FIUPM. El principal objetivo de esta investigación es formalizar un conjunto de reglas gramaticales españolas y aplicar dichas reglas para probar distintos tipos de corrección en documentos escritos en Español. Para facilitar la distribución, COES se distribuye como software de libre disposición desde sus inicios en 1994. A pesar de tener más de diez años de antigüedad, la herramienta está actualizada y puede consultarse en la página del proyecto.

El sistema de diccionarios de español está integrado por un diccionario electrónico en formato texto, que contiene 53.000 términos, un fichero de clases morfológicas flexivas del español, y un script que permite generar un diccionario expandido en formato binario, que contiene todas las formas flexivas de los verbos, los nombres y los adjetivos del diccionario de lemas, junto con las formas invariables, como adverbios, conjunciones, etc.

Este conjunto de ficheros compone un diccionario de español cuyo número de términos está en constante incremento, aunque no se puede disponer de nuevas versiones hasta que no se comprueba su correcto funcionamiento. Es en ese momento cuando que se hacen públicas las nuevas versiones. La distribución actual de COES incluye un corrector ortográfico.

El diccionario en formato binario se puede integrar en un sistema de corrección ortográfica del español para sistemas operativos Unix, mediante la utilización de la herramienta de dominio público ispell

A partir del diccionario electrónico expandido en formato binario espa~nol.hash) y del diccionario de lemas (espa~nol.words), es posible generar el diccionario de formas expandidas en formato texto (espa~nol.wl).

Tal como comenta al respecto Infoling, disponer del diccionario electrónico expandido en formato texto puede resultar particularmente importante para los desarrolladores de tecnologías lingüísticas del español --tanto de Universidades como de empresas-- que necesiten integrar un diccionario de formas flexivas en aplicaciones específicas, especialmente, teniendo en cuenta que los diccionarios del proyecto COES son los únicos  diccionarios electrónicos del español de dominio público y de libre distribución (sin licencia).

El conjunto completo de diccionarios y otros componentes están integrados por un fichero de sufijos de flexión morfológica de verbos, nombres y adjetivos del español; una lista de palabras, que aparecen en el Diccionario de la Real Academia Española de la Lengua (vigésima primera edición); otra lista de palabras que no aparecen en el diccionario de la Real Academia Española de la Lengua, pero que son de uso corriente en español; una lista de palabras que, aunque no aparecen en el Diccionario de la Real Academia Española de la Lengua, se utilizan habitualmente en informática.

Asimismo, este conjunto de diccionarios integra una lista de palabras que, aunque aparecen en el Diccionario de la Real Academia Española de la Lengua, corresponden a acepciones que no tienen un uso real en el español actual; una lista expandida de palabras, un script y un fichero Makefile.