Old Spanish Textual Archive

En el año 2015 el HSMS empieza a trabajar en el Old Spanish Textual Archive (OSTA), un corpus lingüístico, lematizado y etiquetado morfológicamente, de cerca de 35.000.000 de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del HSMS. Puede accederse al proyecto a través del siguiente enlace:

http://osta.oldspanishtextualarchive.org

Descripción del proyecto

Los orígenes de OSTA se remontan al año 1978 cuando John J. Nitti, uno de los editores del Dictionary of the Old Spanish Language (DOSL) y co-fundador del Hispanic Seminary of Medieval Studies (HSMS), describe en un artículo titulado “Computers and the Old Spanish Dictionary” un proyecto a largo plazo:

the creation of the Old Spanish Archive (OSA), which is to be a repository … of all the machine-readable manuscripts and concordances of those works represented in DOSL… OSA will be established as a research archive open to any interested scholars wishing to make use of its facilities … eventually … information retrieval will be carried out via the computer … linking the magnetically-stored … machine-readable text transcriptions and concordances (43-52)

Este proyecto superaba, en el momento de su concepción, las posibilidades informáticas disponibles en la época, por lo que el objetivo a medio plazo del HSMS fue la creación y divulgación de la vasta base de datos compuesta por las transcripciones electrónicas de manuscritos e incunables escritos en español entre los años 1000 y 1600, utilizando para ello las microfichas, el CD-ROM y, a partir del año 2011, internet.

Tras una fase inicial es la que se delimitó el corpus textual—análisis de los códices y de su contenido— comenzamos el proceso de lematización y etiquetado gramatical, para el que utilizamos FreeLing, una herramienta de Procesamiento del Lenguaje Natural, y HSMS-app, una herramienta de análisis textual desarrollada específicamente para este proyecto.

A partir del año 2017 comenzamos a ampliar los recursos léxicos de FreeLing, trabajando en el reconocimiento de entidades nombradas (topónimos y antropónimos), de variantes ortográficas medievales y de palabras no identificadas por ninguna de las reglas desarrolladas. Para ello procesamos varios de los diccionarios del proyecto Dictionary of the Old Spanish Language del HSMS: el Diccionario español de textos médicos antiguos (Herrera 1996), el Diccionario español de documentos alfonsíes (Sánchez 2000), el Vocabulario militar castellano (siglos XIII-XV) (Gago Jover 2002), el Diccionario de la prosa castellana del Rey Alfonso X (Kasten y Nitti 2002), y el Diccionario herbario de textos antiguos y premodernos (Capuano 2017).

A comienzos de 2019 iniciamos el trabajo en la interfaz de consulta, la mejora de las reglas de afijación de FreeLing, la revisión del diccionario de formas de FreeLing y la definición de las formas no identificadas.

Recursos adicionales

	Manual de consulta: Para aprovechar al máximo las posibilidades de OSTA se recomienda la lectura del Manual de consulta, en el que se describen en detalle la interfaz, los tipos de consulta, el filtrado y la ordenación de resultados.
	Tabla códices: Recoge los metadatos de cada uno de los códices incluidos en OSTA. Consta de los siguientes campos: HSMS-ID (identificador de códice), abreviatura HSMS (secuencia alfanumérica utilizada por el HSMS para identificar cada una de las transcripciones), BETA manid (número de registro asignado por PhiloBiblon a cada uno de los manuscritos o impresos donde aparece una obra), BETA copid (número de registro asignado por PhiloBiblon a un ejemplar concreto de un libro impreso), biblioteca (localización actual del manuscrito o edición impresa), signatura (signatura del manuscrito o edición impresa), SPDT-inicio (fecha específica de producción, correspondiente a la fecha más temprana de la copia de un manuscrito o a la de la impresión de una edición), SPDT-fin (fecha específica de producción, correspondiente a la fecha más tardía de la copia de un manuscrito o a la de la impresión de una edición), lugar específico (nombre del lugar donde se escribió o imprimió el códice), productor específico (nombre del copista o impresor cuando este se conoce), formato (formato del códice, puede ser manuscrito o impreso), número de folios (número total de folios en el códice), PhiloBiblon (enlace directo a PhiloBiblon), facsímil digital (enlace directo al facsímil digital del códice cuando este existe)
	Tabla obras: Recoge los metadatos de cada una de las obras incluidas en OSTA. Consta de los siguientes campos: abreviatura HSMS (secuencia alfanumérica utilizada por el HSMS para identificar cada una de las transcripciones), BETA manid (número de registro asignado por PhiloBiblon a cada uno de los manuscritos o impresos donde aparece una obra), BETA copid (número de registro asignado por PhiloBiblon a un ejemplar concreto de un libro impreso), HSMS-ID (identificador de códice), Obra ID (identificador de obra), BETA cnum (número de control para cada entrada), Autor (nombre del autor cuando este se conoce, de otro modo aparece como “desconocido”), Traductor (nombre del traductor cuando este se conoce, de otro modo aparece como “desconocido”), Título (título general o normalizado, siguiendo las normas establecidas en PhiloBiblon), folio (la secuencia de folios que ocupa cada obra dentro del códice), OPDT inicio (fecha original de producción, correspondiente a la fecha más temprana de redacción conocida o supuesta del original de cada obra), OPDT fin (fecha original de producción, correspondiente a la fecha más tardía de redacción conocida o supuesta del original de cada obra), lengua-1, lengua-2 (lengua o lenguas empleadas en una obra determinada), tipo textual (tipología básica de la obra, puede ser verso o prosa), materia-1, materia-2, materia-3 (clasificación taxonómica de las obras por materias)
	Tabla de frecuencias (word_lemma_AbsFreq_RelFreq): Esta tabla contiene la lista de frecuencias de todo el corpus. La tabla está organizada de la siguiente manera: rango - palabra (token) - lema - frecuencia absoluta (número total de tokens) - frecuencia relativa (%).
	Tabla de frecuencias (word_lemma_PoS_AbsFreq_RelFreq): Esta tabla contiene la lista de frecuencias de todo el corpus. La tabla está organizada de la siguiente manera: rango - palabra (token) - lema - etiqueta morfológica (PoS) - frecuencia absoluta (número total de tokens) - frecuencia relativa (%).

Condiciones de uso

El Old Spanish Textual Archive del Hispanic Seminary of Medieval Studies es un recurso electrónico de acceso libre y gratuito en la red con las siguientes condiciones de uso:

Los usuarios citarán adecuadamente el Old Spanish Textual Archive en los trabajos en que utilicen datos del mismo. El formato de cita puede ser el siguiente (o uno similar que incluya los mismos datos bibliográficos):

Gago Jover, Francisco and F. Javier Pueyo Mena. 2020. Old Spanish Textual Archive. Hispanic Seminary of Medieval Studies. On line at http://osta.oldspanishtextualarchive.org. [fecha de la consulta]

Las obras individuales deberán citarse utilizando el código OSTA que aparece bajo la columna Obra en los resultados y en los Metadados de obra. En este código [HSMS-0286-0001] los cuatro primeros dígitos corresponden al códice y los cuatro últimos a la obra dentro del códice.
Para permitir que otros investigadores puedan comprobar los resultados obtenidos, se recomienda incluir la consulta efectuada tal como aparece en los resultados, incluyendo no solo el término o términos o expresión buscados, sino también los filtros empleados:
- Q = [(lemma='perro'%cd)] within text sort by yearobra
- Q = [(lemma='aceite'%cd)] :: match.text_materia3 = "medicina" & match.text_sigloobra = "14" within text sort by word
Los usuarios informarán a los responsables del Old Spanish Textual Archive de cualquier hallazgo científico relevante que se derive de la consulta de los datos. Por último, los usuarios informarán de los errores de transcripción o fallos de funcionamiento que detecten para así contribuir a mejorar este recurso.

Limitaciones de esta versión

La versión disponible del Old Spanish Textual Archive tiene las siguientes limitaciones:

La descarga de los resultados en formato TSV está limitada a los primeros 250.000 ejemplos.
Existen cerca de 370.000 formas desconocidas en el corpus (1,1% del total).
La lematización y el análisis morfológico de un reducido número de formas no es el correcto, algo que esperamos corregir en futuras revisiones del diccionario de formas de FreeLing.

Bibliografía

Capuano, Thomas M. 2017. Diccionario herbario de textos antiguos y premodernos, Nueva York: Hispanic Seminary of Medieval Studies.
Carreras, Xavier, Isaac Chao, Lluís Padró y Muntsa Padró. 2004. “FreeLing: An Open-Source Suite of Language Analyzers.” Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC’04). [pdf]
Gago Jover, Francisco y F. Javier Pueyo Mena. 2018. “El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales: lematización y etiquetado gramatical.” Scriptum Digital, 7: pp. 25-35. [pdf]
Gago Jover, Francisco y F. Javier Pueyo Mena. 2018. “El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales: el corpus textual.” Cuadernos del Instituto Historia de la Lengua, 11: pp. 165-209. [pdf]
Gago Jover, Francisco. 2002. Vocabulario militar castellano (siglos XIII-XV). Granada: Universidad de Granada.
Herrera, María Teresa. 1996. Diccionario español de textos médicos antiguos. Madrid: Arco/Libros.
Kasten, Lloyd A. y John Nitti. 2002. Diccionario de la prosa castellana del Rey Alfonso X. Nueva York: Hispanic Seminary of Medieval Studies.
Nitti, John. 1978. “Computers and the Old Spanish Dictionary,” Computers and the Humanities, 12, pp. 43-52.
Sánchez, María Nieves, et al. 2000. Diccionario español de documentos alfonsíes. Madrid: Arco/Libros.
Sánchez Marco, Cristina, Gemma Boleda, y Lluís Padró. 2011. “Extending the tool, or how to annotate historical language varieties”, Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, pp. 1-9, Portland, OR, USA, 24 June 2011. [pdf]