PT-PG Informação Acerca do Acesso Robotizado ás nossas Páginas

Do Project Gutenberg, o primeiro produtor de livros electrónicos (ou livros eletrônicos) grátis.

Jump to: navigation, search
Esta página contém informações para pessoas que usam um programa de robotização ou pesquisa para acederem ao nosso sítio. Se você está a utilizar um navegador como o Mozilla Firefox ou o Internet Explorer não tem de ler esta página.

Contents


O sítio na Rede do Project Gutenberg tem cerca de 45.000 visitantes diários. Eles gostam de tempos de resposta rápidos de e elevadas velocidades de descarregamento. Se você aceder ao nosso sítio com um programa de robotização, estará a atrasar toda esta gente. Por favor, pense nisso antes de robotizar o nosso sítio.

Melhores Alternativas

O acesso robotizado ao nosso sítio deve ser deixado para último recurso, quando tudo o resto tiver falhado. Lembre-se, também, que o sítio do Project Gutenberg está protegido por direitos autorais.

Antes de robotizar o nosso sítio, por favor pondere as alternativas que nós oferecemos para as tarefas mais comuns. Essas alternativas são tão fáceis para si quanto produzem uma menor carga nos nossos servidores, enquanto a si lhe darão os mesmos ou melhores resultados.

Se você está a robotizar o nosso sítio por outras razões, por favor pondere, antes, contactar o webmaster. Na maioria dos casos, podemos mostrar-lhe uma alternativa melhor .

Regras para Robotização

Se, ainda assim, achar que deve robotizar o nosso sítio apesar das alternativas que lhe oferecemos, solicitamos que siga estas regras:

  1. Configure o seu robot para obedecer a /robots.txt.
    Se o seu robot não obedecer a /robots.txt, irá descarregar tudo o que se encontra no nosso sítio. Por exemplo, descarregará todas as páginas do nosso visualizador de livros em linha, o qual (numa estimativa muito conservadora de 100 páginas por livro electrónico) lhe dará 1.600.000 páginas, todas elas perfeitamente inúteis porque duplicam os conteúdos dos ficheiros dos livros electrónicos.
  2. Configure o seu robot para esperar pelo menos 2 segundos entre pedidos.

Se você robotizar o nosso sítio lentamente, nós aceitaremos a ligeira degradação no desempenho dos outros utilizadores trazida pelo seu robot. Se esperar dois segundos entre pedidos, atingirá uma taxa de descarregamento de cerca de 40.000 pedidos por dia, o que é mais do que suficiente. Comparando: quando o Google indexa o nosso sítio, apenas faz 15.000 pedidos por dia.

Você poderá querer ler o manual que vem com o seu robot para saber como o fazer respeitar estas regras.

Se você não respeitar estas regras, teremos de bloquear o seu endereço de IP (ou variações de IP) para proteger os nossos outros utilizadores. Isso significa que você não será mais capaz de aceder ao sítio na Rede do Project Gutenberg a partir desse computador (ou organização).

Obter uma Versão Fora de Linha do nosso Sítio

Mantemos uma cópia de todo o sítio para visualização fora de linha. Este pacote não inclui os ficheiros dos livros electrónicos. Você pode descarregar o pacote, descompactá-lo no seu PC e usar qualquer navegador para visualizar o sítio a partir do seu disco.

Obter Todos os Ficheiros de Livros Electrónicos

Você pode obter todos os nossos livros electrónicos em ficheiros zipados apontando o seu robot para

http://www.gutenberg.org/robot/harvest

Também pode obter todos os nossos ficheiros mp3, que não zipamos.

Eis uma estimativa do volume de dados: (Nov. 2004)

Tabela do número de ficheiros e volume de dados.
Tipo Ficheiros GB Tempo de descarga estimado a DSL 1 MBit/s
zip 24.160 14,5 48 horas
mp3 12.865 91,5 9 dias

Descompactar os ficheiros zip produzirá outros 70.000 ficheiros.

Isto é um exemplo de como obter todos os ficheiros usando o wget:

wget -w 2 -m http://www.gutenberg.org/robot/harvest

O wget é um programa livre e está disponível para Linux e Windows em www.gnu.org/software/wget/.

Se você não quer os ficheiros mp3, diga:

wget -w 2 -m -R "mp3" http://www.gutenberg.org/robot/harvest

Se apenas quer alguns tipos de ficheiros, diga:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&filetypes[]=html

Substitua txt e html pelos tipos de ficheiro nos quais está interessado.

Se apenas quer ficheiros numa determinada língua, diga:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de

Substitua de pelo código ISO da língua na qual está interessado. Dica: pode saber qual o código de qualquer língua a partir do catálogo do Project Gutenberg, olhando para a janela de estado do seu navegador enquanto passa o cursor por cima da língua, nesta página.

Espelhar os Ficheiros dos Livros Electrónicos

Se você quer robotizar com regularidade os ficheiros dos nossos livros electrónicos, p. ex.: para manter um sítio-espelho, leia o Como-Fazer de espalhamento. Este explica como usar o rsync ou o wget para fazer isso.

Se você está a robotizar o sítio para extrair dados de catálogo, está a desperdiçar tanto o seu tempo como os seus recursos. Pode obter os dados muito mais facilmente se pegar simplesmente no catálogo do Project Gutenberg em formato legível por computador. Os dados do catálogo estão licenciados sob a GNU GPL.

N.B.: O sítio na Rede do Project Gutenberg está protegido por direitos autorais. Não lhe é permitido usar quaisquer dados que tenha colhido directamente no sítio para tudo o que não seja uso pessoal. Isto é outra boa razão para pegar antes no catálogo legível por computador.