sexta-feira, 5 de junho de 2009

SITE PARA PESQUISAS DE PALAVRAS EM TEXTOS EM PORTUGUÊS DO SÉCULO XIV AO XX

http://www.corpusdoportugues.org/x.asp


Este sítio permite pesquisar fácil e rapidamente mais de 45 milhões de palavras de quase 57,000 textos em português do século XIV ao século XX. A interface permite pesquisar palavras exatas ou frases, curingas, lemas, classes gramamticais, ou qualquer combinação destes. Proporciona também a pesquisa de palavras vizinhas (colocados) com um máximo de dez palavras de cada lado (ex. todos os substantivos perto de cadeia, todos os adjetivos perto de mulher, ou todos os substantivos perto de girar).

O corpus também facilita, de pelo menos três maneiras diferentes, a comparação da freqüência e distribuição de palavras, frases e construções gramaticais através de textos:

Registro: comparações entre o oral, a ficção, o jornalístico, e o acadêmico

Dialeto: português brasileiro versus europeu no século XX

Período histórico: comparação de séculos diferentes do XIV ao XX

Realizam-se com facilidade consultas de índole semântica no corpus. Por exemplo, a diferença de significado entre duas palavras relacionadas, pode ser determinada através da comparação e contraste das palavras vizinhas (colocados). Pode-se encontrar a freqüência e a distribuição de sinônimos de mais de 20,000 palavras e comparar esta freqüência em registros ou países diferentes, ou inclusive ao longo dos séculos. Estas listas de palavras podem ser armazenadas e usadas em futuras consultas. Pode-se, além disso, criar as suas próprias listas de palavras com um parentesco semântico, e usá-las como parte da consulta.

Faça um pequeno tour de cinco minutos que apresentará os aspectos principais do corpus. Um simples clique para cada consulta preencherá automaticamente o formulário de pesquisa, pesquisará 45 milhões de palavras de textos, e exibirá os resultados. Este corpus de português é rápido, grátis, fácil de usar, e achamos que oferece características importantes não encontradas em nenhuma interface existente de corpora grandes de português.

Nenhum comentário:

Postar um comentário

 
BlogBlogs.Com.Br