signos de puntuación.
Las siguientes etiquetas son utilizadas para los signos de puntuación:
- PUNCT para todos los signos de puntuación
- Fz para el calderón ¶
- Fs para todas las variantes de etcétera
Para hacer una búsqueda de puntuación existen varias opciones:
[(hsms=';' & pos='PUNCT'%c)]para encontrar todos los puntos y coma[(hsms='\.' & pos='PUNCT'%c)]para encontrar todos los puntos (en este caso hay que escapar el carácter con\para que lo busque como tal y no como comodín[(pos='PUNCT'%c)]para encontrar cualquier signo de puntuación[(hsms='\.'%c)] [(pos='C.+'%c)]para encontrar cualquier conjunción precedida por un punto[(pos!='PUNCT'%c)] [(pos='C.+'%c)]para encontrar cualquier conjunción NO precedida por signo de puntuación
búsquedas por lengua (no principal).
Las lenguas principales de OSTA son las siguientes:
- castellano
- castellano occidental
- asturiano
- leonés
- navarro
- navarro-aragonés
- aragonés
- riojano
y es posible filtrar y ordenar los resultados utilizando el filtro "Lengua principal".
Sin embargo, cuando un texto contiene pasajes escritos en una lengua que no sea ninguna de las lenguas principales, las palabras de estos pasajes tienen como lema la etiqueta de la lengua correspondiente. Según esto, la consulta
[(lemma='HEB'%c)] within text sort by yearobra
devuelve todas las palabras etiquetadas como hebreas, mientras que la consulta
[(word='a.*'%c) & (lemma='LAT'%c)] within text sort by yearobra
devuelve todas las palabras latinas que comienzan por a.
Además, todas las palabras de cualquier lengua no principal tienen asignada la misma etiqueta gramatical, LANG, por lo que la consulta
[(pos='LANG'%c)] within text sort by yearobra
devuelve todas las palabras en el corpus que no pertenecen a ninguna de las lenguas principales.
búsqueda de formas desconocidas.
Existe en OSTA también un número reducido, pero significativo de palabras (menos de 250.000, aproximadamente 0.6% del total) que el etiquetador morfológico ha sido incapaz de identificar. Todas las palabras desconocidas tienen el lema UNK. Así, la consulta
[(word='.*ones'%c) & (lemma='UNK.*'%c)] within text sort by yearobra
devuelve todas las palabras desconocidas en el corpus que terminan en -ones.