consulta experta

El Old Spanish Textual Archive (OSTA) utiliza para las consultas la colección de herramientas de código abierto IMS Open Corpus Workbench (CWB). Su componente central es el procesador de consultas CQP (Corpus Query Processor) que permite realizar consultas utilizando la coincidencia de patrones con expresiones regulares. Para mayor información sobre el lenguaje de CQP puede consultarse The IMS Open Corpus Workbench (CWB) CQP Query Language Tutorial. CWB Version 3.4.16.

Una de las utilidades de los corpus etiquetados morfológicamente y por lema, como el OSTA, es el hecho de que se pueden efectuar consultas por atributos, es decir, por lema, palabra, categoría gramatical ("PoS", part of speech), o forma HSMS.

Lema [(lemma='hombre')]hombre, home, homes, honbres, huembre, ome, uemme, etc.
Palabra [(word='hombre')]hombre
PoS [(pos='AQ.MP.')] → todos los adjetivos calificativos masculino plural
Forma HSMS [(hsms='q\<u\>\<\<a\>\>.*')] → todas las palabras que comienzan con qua-
Frecuencia [(f(word) = 1)] → todas las palabras que aparecen una vez

lemas

Al efectuar una búsqueda por lemas el resultado serán todas las formas de ese lema en el corpus. Para buscar por lema, hay que utilizar la siguiente expresión [(lemma='reina')]. Si lo que se desea son cadenas de lemas, simplemente se repite la expresión anterior tantas veces como lemas, el espacio en blanco entre ellas es opcional: [(lemma='reina')] [(lemma='don')]. NOTA: No hay que dejar espacios en blanco entre las comillas y el término buscado, pues de esta forma el buscador no devolverá ningún resultado.

Es preciso recordar que, en las consultas por lema, las mayúsculas y minúsculas son significativas y la consulta [(lemma='alfonso')] no devuelve ningún resultado, siendo necesario escribir el lema en mayúsculas [(lemma='Alfonso')] o utilizar el operador %c en la consulta [(lemma='alfonso'%c)]. Lo mismo ocurre con los diacríticos y la consulta [(lemma='Gutierrez')] no devuelve ningún resultado, siendo necesario poner la tilde [(lemma='Gutiérrez')] o utilizar el operador %d en la consulta [(lemma='Gutiérrez'%d)] para encontrar ejemplos de palabras correspondientes al lema Gutiérrez.

Finalmente hay que señalar que los operadores %c y %d pueden combinarse en la misma consulta: [(lemma='gutierrez'%cd)]

palabras

Para buscar palabras, hay que utilizar la siguiente expresión [(word='casa')]. Si lo que se desea son cadenas de palabras, simplemente se repite la expresión anterior tantas veces como palabras, el espacio en blanco entre ellas es opcional: [(word='casa')] [(word='grande')]. NOTA: No hay que dejar espacios en blanco entre las comillas y el término buscado, pues de esta forma el buscador no devolverá ningún resultado.

Es preciso recordar que, en las consultas por palabra, las mayúsculas y minúsculas son significativas y la consulta [(word='hombre')] solo incluye ejemplos sin mayúscula (hombre), siendo necesario utilizar el operador %c para encontrar también ejemplos con mayúscula, [(word='hombre'%c)]hombre, Hombre, HOmbre, etc.

Lo mismo ocurre con los diacríticos y la consulta [(word='cetri.*')] solo incluye ejemplos de palabras que comienzan por c (cetrino, cetrinas, etc.), siendo necesario utilizar el operador %d para encontrar también ejemplos que comiencen con ç. [(word='cetri.*'%d)]cetrina, cetrinas, cetrino, cetrinos, etc.

Los operadores %c y %d pueden combinarse en la misma consulta: [(word='francia'%cd)] → Francia, francia, etc.

etiqueta gramatical

Para buscar categorías gramaticales (PoS), hay que utilizar la siguiente expresión [(pos='NCFS000'%c)]. NOTA: La etiqueta morfológica EAGLES debe ser siempre escrita en mayúscula. Si lo que se desea son cadenas de palabras, simplemente se repite la expresión anterior tantas veces como palabras, el espacio en blanco entre ellas es opcional: [(pos='NCFS000'%c)] [(pos='AQ0FS0'%c)]. NOTA: No hay que dejar espacios en blanco entre las comillas y el término buscado, pues de esta forma el buscador no devolverá ningún resultado.

forma HSMS

A diferencia de la búsqueda por lemas o la búsqueda por palabras, compuestos únicamente por caracteres alfabéticos, la búsqueda por forma HSMS contiene indicaciones de la intervención editorial: inserción [ ], [^ ] supresión ( ), (^ ), abreviatura < >, caracteres volados << >>, carácter invertido ($ )[ ], o texto reconstruido [* ].

Para buscar las formas HSMS hay que utilizar la siguiente expresión [(hsms='p\<ar\>a')]. Esta consulta solo devuelve la forma abreviada de para (p<ar>a) pero no la forma sin abreviar para. NOTA: Es preciso escapar con una barra inversa \ cada una de las indicaciones de inserción, supresión, abreviatura, o caracteres volados.

frecuencia

Es posible buscar palabras o expresiones por la frecuencia (exacta, mínima o máxima) con la que aparecen en el corpus. Para encontrar todas las palabras que comienzan por 'p' en el corpus y que solo ocurren una vez hay que utilizar la expresión [(word='p.+'%c) & (f(word) = 1)]. Para encontrar todos los lemas que ocurren menos de 5 veces hay que utilizar la expresión [(lemma='.+'%c) & (f(lemma) < 5)]. Para encontrar todas las palabras que terminan en -orio en el corpus y que ocurren más de 2000 veces hay que utilizar la expresión [(word='.+orio'%c) & (f(word) > 2000)]. Finalmente, puede establecerse un rango de frecuencia mínima y máxima con la expresión [(word='p.+'%c) & (f(word) > 100 & f(word) < 1000)].

La combinación de la búsqueda por frecuencia con los filtros por obra, siglo, autor, etc. (y las ordenaciones por palabra, lema, etc.) puede ofrecer resultados significativos. Por ejemplo, la búsqueda de lemas de frecuencia 1 en La Fazienda de Ultramar, ordenadas por lema, mediante la expresión [(lemma='.+'%c) & (f(lemma) = 1)] :: match.text_titulo = "Fazienda de Ultramar" within text sort by lemma ofrece 137 casos; sin embargo, la misma consulta, pero esta vez buscando formas paleográficas únicas [(word='.+'%c) & (f(word) = 1)] :: match.text_titulo = "Fazienda de Ultramar" within text sort by lemma ofrece 1643 casos. Conviene notar cómo en este caso la lematización reduce sustancialmente en este análisis de frecuencias la variación gráfica y morfológica del corpus.