PT-PG Informação Acerca do Acesso Robotizado ás nossas Páginas
Do Project Gutenberg, o primeiro produtor de livros electrónicos (ou livros eletrônicos) grátis.
Contents |
O sítio na Rede do Project Gutenberg tem cerca de 45.000 visitantes diários. Eles gostam de tempos de resposta rápidos de e elevadas velocidades de descarregamento. Se você aceder ao nosso sítio com um programa de robotização, estará a atrasar toda esta gente. Por favor, pense nisso antes de robotizar o nosso sítio.
Melhores Alternativas
O acesso robotizado ao nosso sítio deve ser deixado para último recurso, quando tudo o resto tiver falhado. Lembre-se, também, que o sítio do Project Gutenberg está protegido por direitos autorais.
Antes de robotizar o nosso sítio, por favor pondere as alternativas que nós oferecemos para as tarefas mais comuns. Essas alternativas são tão fáceis para si quanto produzem uma menor carga nos nossos servidores, enquanto a si lhe darão os mesmos ou melhores resultados.
- Obter uma versão fora de linha do sítio do Project Gutenberg.
- Obter todos os ficheiros de livros electrónicos do Project Gutenberg.
- Obter os dados do catálogo do Project Gutenberg.
Se você está a robotizar o nosso sítio por outras razões, por favor pondere, antes, contactar o webmaster. Na maioria dos casos, podemos mostrar-lhe uma alternativa melhor .
Regras para Robotização
Se, ainda assim, achar que deve robotizar o nosso sítio apesar das alternativas que lhe oferecemos, solicitamos que siga estas regras:
- Configure o seu robot para obedecer a /robots.txt.
Se o seu robot não obedecer a /robots.txt, irá descarregar tudo o que se encontra no nosso sítio. Por exemplo, descarregará todas as páginas do nosso visualizador de livros em linha, o qual (numa estimativa muito conservadora de 100 páginas por livro electrónico) lhe dará 1.600.000 páginas, todas elas perfeitamente inúteis porque duplicam os conteúdos dos ficheiros dos livros electrónicos. - Configure o seu robot para esperar pelo menos 2 segundos entre pedidos.
Se você robotizar o nosso sítio lentamente, nós aceitaremos a ligeira degradação no desempenho dos outros utilizadores trazida pelo seu robot. Se esperar dois segundos entre pedidos, atingirá uma taxa de descarregamento de cerca de 40.000 pedidos por dia, o que é mais do que suficiente. Comparando: quando o Google indexa o nosso sítio, apenas faz 15.000 pedidos por dia.
Você poderá querer ler o manual que vem com o seu robot para saber como o fazer respeitar estas regras.
Se você não respeitar estas regras, teremos de bloquear o seu endereço de IP (ou variações de IP) para proteger os nossos outros utilizadores. Isso significa que você não será mais capaz de aceder ao sítio na Rede do Project Gutenberg a partir desse computador (ou organização).
Obter uma Versão Fora de Linha do nosso Sítio
Mantemos uma cópia de todo o sítio para visualização fora de linha. Este pacote não inclui os ficheiros dos livros electrónicos. Você pode descarregar o pacote, descompactá-lo no seu PC e usar qualquer navegador para visualizar o sítio a partir do seu disco.
Obter Todos os Ficheiros de Livros Electrónicos
Você pode obter todos os nossos livros electrónicos em ficheiros zipados apontando o seu robot para
http://www.gutenberg.org/robot/harvest
Também pode obter todos os nossos ficheiros mp3, que não zipamos.
Eis uma estimativa do volume de dados: (Nov. 2004)
| Tipo | Ficheiros | GB | Tempo de descarga estimado a DSL 1 MBit/s |
|---|---|---|---|
| zip | 24.160 | 14,5 | 48 horas |
| mp3 | 12.865 | 91,5 | 9 dias |
Descompactar os ficheiros zip produzirá outros 70.000 ficheiros.
Isto é um exemplo de como obter todos os ficheiros usando o wget:
wget -w 2 -m http://www.gutenberg.org/robot/harvest
O wget é um programa livre e está disponível para Linux e Windows em www.gnu.org/software/wget/.
Se você não quer os ficheiros mp3, diga:
wget -w 2 -m -R "mp3" http://www.gutenberg.org/robot/harvest
Se apenas quer alguns tipos de ficheiros, diga:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&filetypes[]=html
Substitua txt e html pelos tipos de ficheiro nos quais está interessado.
Se apenas quer ficheiros numa determinada língua, diga:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
Substitua de pelo código ISO da língua na qual está interessado. Dica: pode saber qual o código de qualquer língua a partir do catálogo do Project Gutenberg, olhando para a janela de estado do seu navegador enquanto passa o cursor por cima da língua, nesta página.
Espelhar os Ficheiros dos Livros Electrónicos
Se você quer robotizar com regularidade os ficheiros dos nossos livros electrónicos, p. ex.: para manter um sítio-espelho, leia o Como-Fazer de espalhamento. Este explica como usar o rsync ou o wget para fazer isso.
Obter Dados do Catálogo
Se você está a robotizar o sítio para extrair dados de catálogo, está a desperdiçar tanto o seu tempo como os seus recursos. Pode obter os dados muito mais facilmente se pegar simplesmente no catálogo do Project Gutenberg em formato legível por computador. Os dados do catálogo estão licenciados sob a GNU GPL.
N.B.: O sítio na Rede do Project Gutenberg está protegido por direitos autorais. Não lhe é permitido usar quaisquer dados que tenha colhido directamente no sítio para tudo o que não seja uso pessoal. Isto é outra boa razão para pegar antes no catálogo legível por computador.