* * * * * * * * * * * * * * * * * * * * * * * *
LINGUIST List logo Eastern Michigan University Wayne State University *
* People & Organizations * Jobs * Calls & Conferences * Publications * Language Resources * Text & Computer Tools * Teaching & Learning * Mailing Lists * Search *
* *
LINGUIST List 17.2739

Mon Sep 25 2006

FYI: Corpus do Português, 45 Million Words, 1300s-1900s

Editor for this issue: Hunter Lockwood <hunterlinguistlist.org>


To post to LINGUIST, use our convenient web form at http://linguistlist.org/LL/posttolinguist.html.
Directory
        1.    Mark Davies, Corpus do Português, 45 Million Words, 1300s-1900s


Message 1: Corpus do Português, 45 Million Words, 1300s-1900s
Date: 24-Sep-2006
From: Mark Davies <mark_daviesbyu.edu>
Subject: Corpus do Português, 45 Million Words, 1300s-1900s


We are pleased to announce the release of the Corpus do Português
(http://www.corpusdoportugues.org). This corpus has been funded by the US
National Endowment for the Humanities, and is now freely available online.

This corpus allows you to quickly and easily search more than 45 million
words in more than 50,000 Portuguese texts from the 1300s to the 1900s. The
interface allows you to search for exact words or phrases, substrings,
lemmas, part of speech, or any combinations of these. You can also search
for surrounding words (collocates) within a ten-word window.

The corpus also allows you to easily compare (and see, via charts) the
frequency of and distribution of words, phrases, and grammatical
constructions across texts, in at least three ways:

-- By register: comparisons between spoken, fiction, newspaper, and academic
-- By dialect: Portugal compared with Brazil
-- By historical period: compare different centuries from the 1300s to the
1900s

You can also easily carry out semantically-based queries of the corpus. For
example, you can compare and contrast the collocates of two related words
to determine the difference in meaning between these words. You can find
the frequency and distribution of synonyms for more than 20,000 words and
also compare their frequency in different registers, countries, and
historical periods, and use these word lists as part of other queries.
Finally, you can easily create your own lists of semantically-related
words, and then use them directly as part of the query.

[Anúncio em português]

Temos o prazer de anunciar o lançamento do Corpus do Português
(http://www.corpusdoportugues.org). Este corpus foi generosamente
patrocinado pela US National Endowment for the Humanities, e está
disponível gratuitamente na internet.

Este sítio permite pesquisar fácil e rapidamente mais de 45 milhões de
palavras em mais de 50,000 textos em português dos Trezentos aos
Novecentos. A interface permite pesquisar palavras exatas ou frases,
cadeias de pesquisa, lemas, classes gramaticais, ou qualquer combinação dos
referidos elementos. Proporciona também a pesquisa de palavras vizinhas
(collocates) com um contexto de dez palavras de cada lado.

O corpus também permite comparar (e ver através de diagramas) a freqüência
e distribuição de palavras, frases e construções gramaticais em textos de
pelo menos três maneiras diferentes:

-- Registro: comparações entre o falado, a ficção, o
jornalístico, e o acadêmico
-- Variedades do português: Portugal versus Brazil no século XX
-- Período histórico: comparação de séculos diferentes dos
Trezentos aos Novecentos

Realiza-se também com facilidade consultas de índole semântica no corpus.
Por exemplo, a diferença de significado entre duas palavras relacionadas
pode ser determinada através da comparação e contraste das palavras
vizinhas. Pode-se encontrar a freqüência e a distribuição de sinônimos de
mais de 20,000 palavras e comparar esta freqüência em registros ou países
diferentes, ou inclusive ao longo dos séculos. Estas listas de palavras
podem ser armazenadas e usadas para futuras consultas. Pode-se, além disso,
criar suas próprias listas de palavras com um parentesco semântico, e
usá-las como parte da consulta.

Mark Davies
Professor of Corpus Linguistics
Brigham Young University

Michael J. Ferreira
Professor of Portuguese Philology and Linguistics
Georgetown University



Linguistic Field(s): Ling & Literature
Text/Corpus Linguistics
Respond to list|Read more issues|LINGUIST home page|Top of issue




Please report any bad links or misclassified data

LINGUIST Homepage | Read LINGUIST | Contact us

NSF Logo

While the LINGUIST List makes every effort to ensure the linguistic relevance of sites listed
on its pages, it cannot vouch for their contents.