LINGUIST List 18.3797

Wed Dec 19 2007

FYI: New version of the [Corpus del espanol]

Editor for this issue: F. Okki Kurniawan <okkilinguistlist.org>

        1.    Mark Davies, New version of the [Corpus del espanol]

Message 1: New version of the [Corpus del espanol]
Date: 17-Dec-2007
From: Mark Davies <mark_daviesbyu.edu>
Subject: New version of the [Corpus del espanol]
[ Anuncio en español abajo ]

We would like to announce that there is now a new version of the Corpus del
Español: http://www.corpusdelespanol.org. The [Corpus del Español] is a 100
million word corpus of Spanish from the 1200s-1900s, and has been online
since 2002.


This version allows users to do many things that were not possible in the
previous version, including the following:

-- Find the collocates ('nearby words') for a given word up to 10 words to
the left and right of the node word. For example, you can find the words
within five words to the left or to the right of 'mujer', nouns near
'grave', or adjectives 1-10 words to the right of 'rostro'). This
information can be very useful in understanding the meaning of a given word.

-- With one simple query, compare the collocates of two words (to see the
difference between the related words, e.g. 'pelo/cabello',
'comenzar/iniciar', or 'gozar'/'disfrutar').

-- Compare the collocates in two historical periods or in two genres (e.g.
a comparison of the collocates of 'woman' in the 1800s and the 1900s, or
the collocates of 'cadena' in fiction and academic).

-- Sort collocates according to their overall frequency in the corpus
(using Mutual Information score). For example, instead of ‘rostro de, en,
que’, etc, the query ‘rostro *’ yields ‘rostro ovalado, desencajado,
amoratado’, etc.

-- See bar charts that show the overall frequency of a word, phrase, or
grammatical construction in the 1200s-1900s and the four registers from the
1900s (spoken, fiction, newspaper, and academic)

-- Save the results of a search and retrieve them (and use them) at a later

-- Search for much wider strings of words -- up to 21 words in the string
(compared to 3-4 words in the previous version)

-- The corpus has been completely re-lemmatized and re-tagged for part of
speech, and it is much more accurate than before. With the new
architecture, it will be possible to do searches using fuzzy matching for
part of speech (e.g. [v*] for all verbs) or for more specific parts of
speech (e.g. [*n*ms*] for all singular masculine nouns)

-- The textual corpus has been reorganized. For the 1900s, there are now
four equally-sized divisions: spoken (five million words), fiction (5m),
newspaper (5m), and academic (5m).

-- The search interface and the query syntax have been completely changed,
to make the searches more intuitive and easy to carry out.

We invite you to visit the new corpus, and hope that it will be of value to
you in your research.


Nos complace comunicarles que existe una nueva versión del Corpus del
Español: http://www.corpusdelespanol.org. Ésta les permite hacer muchas
cosas que eran imposibles en la versión anterior, inclusive las siguientes:

-- Encontrar las colocaciones (‘palabras cercanas’) de una determinada
palabra -- por ejemplo, las palabras que quedan dentro de cinco palabras a
la izquierda o a la derecha de ‘mujer’; sustantivos cerca de ‘grave’; o los
adjetivos que están cerca de ‘rostro’). Esta información puede resultar muy
útil para entender el significado de una determinada palabra.

-- Con una simple consulta, comparar las colocaciones de dos palabras (para
ver la diferencia entre palabras relacionadas, por ejemplo ‘pelo/cabello’,
‘comenzar/iniciar’ o ‘gozar/disfrutar’).

-- Comparar las colacaciones en dos períodos históricos o en dos géneros
(por ejemplo, una comparación de las colocaciones de ‘mujer’ entre el siglo
XIX y XX, o las colocaciones de ‘cadena’ en ficción y en textos académicos).

-- Ordenar las colocaciones según la frecuencia global en el Corpus (usando
la ''Información Mutua''). Por ejemplo, en lugar de ‘rostro de, en, que,
etc.’, la consulta ‘rostro *’ produce ‘rostro ovalado, desencajado,
amoratado, etc.’.

-- Ver un gráfico de barras que muestra la frecuencia global de una
palabra, frase o construcción gramatical entre los siglos XIII-XX, así como
en los cuatro registros del siglo XX (oral, ficción, periodístico y académico).

-- Guardar los resultados de una búsqueda y recuperarlos (y usarlos)
después de un tiempo.

-- Registrar series más amplias de palabras, hasta 21 palabras en una serie
(comparado con las 3-4 en la versión anterior).

-- El Corpus se ha re-lematizado y re-etiquetado y es mucho más exacto que
antes. Con la nueva arquitectura, será posible hacer búsquedas utilizando
ocurrencias para categorías léxicas poco específicas (por ejemplo, [v*]
para todos los verbos) o para categorías léxicas específicas (por ejemplo,
[*n*ms] para todos los nombres en masculino singular).

-- El Corpus textual se ha reorganizado. Para el siglo XX ahora hay cuatro
divisiones de igual tamaño: oral (5 millones de palabras), ficción (5
millones), periodismo (5 millones) y texto académico (5 millones).

-- La interfaz y la sintaxis de las consultas se han modificado
completamente para hacer búsquedas más intuitivas y fáciles de realizar.

Les invitamos a visitar el nuevo Corpus y esperamos que le sea útil en su

Linguistic Field(s): Computational Linguistics; Lexicography; Text/Corpus Linguistics

