PT-PG PergFreq dos Leitores
Do Project Gutenberg, o primeiro produtor de livros electrónicos (ou livros eletrônicos) grátis.
Acerca de Como Encontrar Livros Electrónicos
R.1. Como posso encontrar o livro electrónico que estou procurando?
Para os livros do PG, a maneira a mais simples é ir à [pg:catalog/world/search|página Pesquisa Em Linha]], escrever o Autor ou o Título no formulário de pesquisa, carregar no botão "Search", e seguir as escolhas. Também está disponível uma pesquisa por texto integral.
Estão disponíveis mais opções de pesquisa e navegação na página do Catálogo Em Linha.
R.2. Posso obter uma lista completa de livros electrónicos do Project Gutenberg?
Sim. GUTINDEX.ALL é uma lista em bruto dos ficheiros postados.
Quando postamos um livro, a informação de postagem contém o título, o autor, o número do livro electrónico, a base do nome do ficheiro e o calendário com o ano e o mês. Para os livros depois de 10.000, contem apenas o título, o autor e o número do livro electrónico, uma vez que isto é tudo do que precisamos para encontrar livros depois de 10.000. Esta informação em bruto vai para o GUTINDEX.ALL.
Após a postagem, o texto é catalogado automaticamente com informações limitadas. Mais tarde, os nossos catalogadores começam a trabalhar e adicionam mais informações — coisas como o título completo, o subtítulo, as datas de nascimento e morte do autor, Classificação da biblioteca do Congresso, nome completo e tamanho do ficheiro. Quando um livro tiver sido catalogado, é introduzido na base de dados do sítio para que você o possa procurar.
As pessoas que quiserem contornar a pesquisa no sítio e encontrar os livros por elas próprias, podem utilizar o GUTINDEX.ALL, uma vez que este não esperta pela catalogação. O GUTINDEX.ALL, é actualizado todas as semanas, normalmente ás Sextas-Feiras.
R.3. Como posso descarregar um texto do PG sem usar o catálogo na Rede?
Temos de dividir esta pergunta em duas respostas: para livros até 10.000, e para livros depois do 10.000 ou repostados depois de termos passado o 10.000.
Os livros postados depois do 10.000 vão para um novo esquema de nomenclatura, mais simples. Os livros repostados depois de termos passado o 10.000 (por volta de Novembro de 2003) também usam este esquema. Estamos sempre a repostar muitos livros antigos, com melhorias e correcções, e os livros mais velhos podem ter sido também repostados de acordo comeste esquema.
Pode facilmente ver, a partir da linha no GUTINDEX.ALL, se o livro está de acordo com a nomenclatura antiga ou com a nova. Quando a linha começa com um Mês ou ano e contem um modelo de nome de ficheiro entre parênteses rectos, o livro está ainda de acordo com o esquema antigo; por exemplo:
Feb 2005 Mike, by P. G. Wodehouse [mikewxxx.xxx] 7423
A linha para o mesmo livro, de acordo com o novo esquema de nomenclatura, omitira o Mês e o ano, e o nome de base do ficheiro, e parecer-se-ia com:
Mike, by P. G. Wodehouse 7423
Livros depois do 10.000 — o novo esquema de nomenclatura
Para encontrar um livro com um número acima de 10.000, ou um que tenhamos repostado desde que ultrapassámos o 10.000, você tem de saber o número do livro electrónico. Pode sabê-lo a partir do GUTINDEX.ALL
Assim que souber o número, você pode encontrar a directoria que contem todos os seus formatos. Formalmente, a directoria do livro electrónico estará contida numa hierarquia de directorias, cada uma com um único dígito, estando todos os dígitos do texto electrónico, com excepção do último, em ordem. O nome da directoria do livro electrónico propriamente dito será o número do livro electrónico. Mais é mais fácil perceber a partir de um exemplo.
Os ficheiros para o livro electrónico 10214 serão encontrados na directoria 1/0/2/1/10214 no sítio de descarga que você escolher. Portanto, por exemplo, se você estiver a descarregar o livro electrónico 10214 a partir do nosso sítio principal por HTTP em http://www.gutenberg.org/dirs/ pode simplesmente ir a http://www.gutenberg.org/dirs/1/0/2/1/10214/ e descarregar qualquer dos formatos que preferir.
Ou, em vez de escrever todo o endereço, para números que comecem com o dígito "1", você pode simplesmente ir a http://www.gutenberg.org/dirs/1/ e descer pela lista de directorias.
Livros anteriores ao 10.000 — o esquema de nomenclatura antigo
Em suma, navegue simplesmente para:
escolha o ano calendarizado do texto (os textos postados mais recentemente estarão normalmente no último ano) e desça pela lista para encontrar o nome do ficheiro de que está á procura.
Em geral, você precisa de saber:
- o endereço de um sítio FTP
- o ano calendarizado do texto que você pretende
- o nome de base do texto que você quer.
O sítio mais rápido e seguro que deve usar para isto é o ftp://ftp.ibiblio.org , que é o primeiro dos nossos dois sítios iniciais de postagem (ou outro é ftp://ftp.archive.org). Nós postamos nestes dois sítios e depois outros sítios copiam a partir deles, com intervalos, por isso, o ficheiro pode não estar imediatamente disponível noutros sítios que não estes dois.
Você pode obter o calendário de anos e a base do nome do texto a partir da linha no GUTINDEX.ALL. Peguemos num exemplo. O ficheiro
Mar 2004 The Herd Boy and His Hermit, by C. M. Yonge [#32][hrdbhxxx.xxx]5313
foi postado apenas algumas horas antes de eu escrever isto. Na entrada do GUTINDEX, o ano calendarizado é 2004, e a base do nome do texto é hrdbh.
Dividimos os nossos textos em directorias (pastas) com base no ano do calendário, por isso esse livro electrónico estará na directoria para 2004, que será nomeada com qualquer coisa terminada em /etext04. Todas as directorias têm o nome do texto electrónico mais os últimos dois dígitos do ano. (Alguém terá de mudar essa convenção daqui a 87 anos! :-) Actualmente, temos directorias que começam com 90, que percorrem os anos 90, e depois 01, 02, 03, 04. Todos os livros electrónicos produzidos antes de 1991 estão na directoria /etext90; por isso, se você está à procura de
Dec 1971 Declaration of Independence [whenxxxx.xxx] 1
ou
Aug 1989 The Bible, Both Testaments, King James Version [kjv10xxx.xxx] 10
deverá ver na directoria /etext90.
Por coincidência, o ibiblio suporta tanto acesso aos textos pot HTTP (Rede) como por FTP, por isso você pode simplesmente navegar até http://www.ibiblio.org/pub/docs/books/gutenberg/ e escolher a directoria 2004 a partir daí.
Se quiser automatizar isto, pode também usar o endereço mais directo ftp://www.ibiblio.org/pub/docs/books/gutenberg/etext04/
O endereço equivalente para o ftp.archive.org é ftp://ftp.archive.org/pub/etext/etext04/
De qualquer um dos modos, veremos uma longa página de ficheiros, em ordem alfabética. Desça até aos "H" e procure hrdbh. Vemos quatro ficheiros com este nome de base:
hrdbh10.txt hrdbh10.zip hrdbh10h.htm hrdbh10h.zip
Isto significa que estão disponíveis tanto no formato de texto puro, como no de HTML, e você pode escolher descarregá-los tanto comprimidos como descomprimidos. Veja esta entrada das PergFreq para more detail about conventions for filenames. A coisa mais importante que você precisa de saber é que qualquer ficheiro começado por hrdbh é um formato ou edição deste livro.
Finalmente, tudo o que precisa de fazer é clicar no formato que pretende e descarregá-lo.
R.4. Vocês não têm o livro electrónico que estou procurando. Podem ajudar-me a encontrá-lo?
Lamentamos, mas não. Nós podemos sugerir (veja abaixo) alguns outros lugares para procurar livros publicamente acessíveis na Rede, mas não podemos fazer a pesquisa para si.
R.5. A que outros lugares posso ir para encontrar livros electrónicos?
A Online Books Page dedica-se a criar uma lista de todos os livros em linha a partir de várias fontes. Procurar aí é um bom começo.
Se estiver à procura de livros comerciais, como livros escolares actuais ou sucessos de vendas, será improvável encontrá-los aqui, uma vez que os livros recentes não estão em domínio público. Para estes deverá procurar livrarias comerciais na Rede — qualquer motor de pesquisa irá direccioná-lo para algumas se introduzir termos como "comprar livros electrónicos".
R.6. Vejo alguns livros electrónicos em vários lugares na Rede. São pessoas diferentes que produzem, de facto, os mesmos livros electrónicos?
Acontece, de facto, mas sobretudo acidentalmente. Qualquer pessoa experimentada na criação de livros electrónicos pesquisará em primeiro lugar nos lugares habituais, para ver se outra pessoa já transcreveu o livro no qual está interessada. Se este já tiver sido transcrito, não duplicará os esforços.
Os textos electrónicos em domínio público flutuam frequentemente durante anos pena Rede — armazenados num servidor gopher aqui; postados na Usenet acolá; retido no computador pessoal de alguém durante um ano ou dias e depois reformatado para HTML e carregado para um sítio da Rede noutro lugar qualquer. E isto é bom, porque queremos que os textos sejam copiados tão largamente quanto possível.
Os livros electrónicos em domínio público são uma presa fácil para copiar, corrigir, marcar, coligir e postar: é isso mesmo que significa estar em domínio público.
Frequentemente, os livros electrónicos do Project Gutenberg são rapidamente copiados e reformatados, e postados em outros sítios tais como o Blackmask Online e o sítio de Steve Sakoman em http://www.sakoman.net/. Infelizmente, o sítio do Blackmask Online está em baixo devido a um processo judicial pelos direitos autorais dos livros do Doc Savage.
Se você encontrar o livro electrónico em muitos lugares diferentes, existem grandes probabilidades de este ter partido de uma fonte original, e ter sido copiado por aí.
Por vezes, de facto, as pessoas duplicam os esforços de transcrição para texto de livros já feitos. Por vezes, é porque não encontraram a versão já feita. Por vezes, têm uma edição diferente e querem transcrevê-la. Contudo, na maioria das vezes, todos nós tentamos não trabalhar do que o necessário.
Acerca da Utilização do Sítio
R.7. Porque não consigo alcançar o vosso sítio? (ou: Porque é que o vosso sítio é lento?)
Pode haver algo que esteja a retardar o processo entre você e o sítio. Se não tiver sucesso à primeira, não nos diga, tente simplesmente novamente e volte a tentar. O endereço correcto é
R.8. Aparece-me um erro quando tento descarregar um livro.
Muitos sítios FTP por todo o mundo mantêm o arquivo de textos completo do Project Gutenberg. Um sítio FTP é apenas um sítio na Internet que se especializa e manter ficheiros para descarga e enviá-los às pessoas a pedido. Poderá encontrar uma lista de sítios FTP que mantêm os textos do Gutenberg em http://www.gutenberg.org/MIRRORS.ALL.
Quando você está a pesquisar ou a navegar pelos títulos e autores, você está no sítio deste Project Gutenberg mas se você escolher um dos espelhos, ou outro método de descarga, quando clica no livro para o descarregar, estará ligado a um sítio FTP (ou HTTP). No momento em que você clica no nome do ficheiro o seu navegador contacta o sítio FTP e tenta descarregar o ficheiro a partir daí. Se lhe aparecer um erro, poderá ser porque o sítio FTP está ocupado, ou porque existe um obstáculo no tráfico da rede entre você e o sítio FTP, ou porque o texto que você está à procura está em falta no sítio FTP.
Normalmente, a solução mais simples é escolher outro sítio FTP a partir do qual descarregar o texto. Vá à página de Pesquisa ("Search"), escolha um sítio FTP diferente e pesquise novamente pelo seu texto.
Dica: Você deve sempre tentar escolher o sítio FTP mais próximo de si. Não estará apenas a ajudar a minimizar o tráfico da Rede a escolher um sítio mais próximo, mas o seu ficheiro também será descarregado mais rapidamente!
Se tudo isto falhar, repare no ano e nome de ficheiro do livro que quer, se for abaixo do 10.000, ou o seu número, se superior a 10.000, escolha o sítio FTP desta lista e clique num deles. Então navegue pelas listas até ai ficheiro que você quer.
Por exemplo, se encontrar Lady Susan de Jane Austen, verá que este foi publicado pelo Gutenberg em 1997 e o seu nome de ficheiro é lsusn10.txt, por isso navegue para um dos sítios FTP, escolha a directoria chamada /etext97 e clique (ou clique com o botão direito e Guarde, dependendo do seu navegador) no ficheiro lsusn10.txt. Ou, no caso de Clarissa, Volume 6 por Richardson, que é o #11364, você encontrá-lo-á na directoria /1/1/3/6/11364
R.9. Pesquisei por um livro que sei que está no Project Gutenberg mas não obtive resultados.
Primeiro, vá à página de Pesquisa Avançada ("Advanced Search"). Por vezes poderá falhar a pesquisa devido a ortografias alternativas, por isso tente pesquisar usando apenas uma palavra no Autor ou no Título. Leia as Dicas de Pesquisa ("Search Tips").
Se isso falhar, poderá navegar através do catálogo do sítio. Digamos que você está à procura de The Wandering Jew de Eugene Sue.
Vá à página do Catálogo Em Linha
Uma vez nesta página, clique em: "S" em "Authors:"
Deverá ver agora uma lista de autores cujo último nome começa por "S". Desça até encontrar as ligações directas para as obras de Sue, Eugene.
Clique na obra na qual está interessado, depois clique na ligação para o ficheiro que encontra na página para a qual foi levado, Etext 3350 quando estiver a seleccionar a obra, como dito imediatamente acima.
Nesta página, acima do extracto, existem ligações para descarga:
Clique numa ligação da sua escolha - "plain text" (texto plano) ou "zipped" (comprimido), de ibiblio.org ou de outro.
Se escolher um dos espelhos ("mirrors"), será então levado para uma nova página, que pedirá que seleccione um sítio de descarga ("Download site"). Nesta página, estão disponíveis mais pormenores sobre como e porque escolher um Sítio FTP.
Seleccione um sítio, e o ficheiro será descarregado, ou ser-lhe-á proposto para descarga, dependendo do formato que seleccionou e do navegador que você usa.
Se você não conseguir encontrar o seu texto de nenhuma maneira, é porque o livro ainda não foi catalogado. Se você sabe que o livro foi postado recentemente e talvez ainda não tenha entrado no catálogo, leia: How can I download a PG text without using the web catalog?
Se mesmo isto não ajudar, não desespere! Nós não o temos, mas pode estar noutro sítio da Rede. Vá aos maiores motores de pesquisa e tente aí. Também pode tentar procurar na secção "Book Search" da The Online Books Page e se não tiver sorte, poderá talvez encontrá-la listada como Em Curso algures na página Livros Em Curso e Pedidos.
R.10. Posso copiar o vosso sítio ou os materiais das vossas páginas?
Não.
Manter o sítio do PG actualizado com os últimos lançamentos de livros electrónicos é um trabalho contínuo e, pela nossa experiência, as pessoas, apesar de estarem bem-intencionadas, não mantêm as cópias em dia. Queremos que haja uma fonte clara para que as pessoas que procuram as últimas informações do Project Gutenberg, e pensamos que ter muitas cópias desactualizadas e cópias parciais espalhadas pela Rede seria uma Coisa Má.
Acolhemos de bom grado os espelhos e cópias dos nossos textos electrónicos em novos sítios FTP (veja: Can I become an FTP mirror?), mas o sítio principal propriamente dito está protegido por direitos autorias e não pode ser copiado.
Temos muito trabalho a assegurar-nos que o nosso sítio usa apenas HTML padrão válido e não nos sentimos minimamente tentados a usar características espalhafatosas que ficam muito bem num navegar mas que não funcionam noutro, por isso garantimos-lhe que o nosso sítio não é o problema.
Se você realmente clicou num botão, como o botão de pesquisa ("Search"), e nada aconteceu, você poderá estar protegido por um filtro de Rede ou procuração que não gosta que você faça pedidos de POST. Se você tiver um filtro de rede ligado, desligue-o, recarregue a página e tente novamente.
R.12. O que quer dizer essa coisa dos "sítios-espelhos" ("mirror sites")?
Os nossos textos não estão, na verdade, retidos no nosso sítio. O sítio apenas mantém um índice; os ficheiros propriamente ditos estão retidos em muitos sítios pelo mundo, chamados sítios FTP. Quando você encontrou o livro de que estava à procura, e faz aquele clique final para o obter, já não está, na verdade, a falar com o nosso sítio — é transferido para o sítio FTP que seleccionou. Alguns sítios FTP estão perto de si; outros estão longe. Alguns podem ser mais rápidos do que outros, mesmo se estiverem aproximadamente à mesma distância; alguns podem ter problemas técnicos temporários.
deverá normalmente escolher o sítio FTP mais próximo de si. Se achar que está a ter problemas com esse, pode seleccionar outro.
R.13. Afinal de contas, o que é exactamente um sítio FTP?
FTP significa Protocolo de Transferência de Ficheiros ("File Transfer Protocol"), um dos mais antigos e fidedignos protocolos da Internet. Este é o método pelo qual um ficheiro pode ser copiado de um computador par ao outro.
Temos agora alguns sítios (HTTP) que também contém livros, concluindo o nosso sítio principal em http://www.gutenberg.org/. Você pode utilizar quer o HTTP quer o FTP.
Um sítio FTP, ou servidor FTP, é um computador que guarda os ficheiros que as pessoas podem carregar e descarregar. No caso do PG, a Equipa de Postagem carrega os nossos textos quando estes estão prontos para dois servidores FTP principais, ftp://ftp.ibiblio.org e ftp://ftp.archive.org , que servem como nossas cópias-mestras.
Outros sítios FTP por todo o mundo descarregam automaticamente os ficheiros destes sítios-mestres, para que tenham o conjunto completo das publicações do PG para que você as descarregue. Uma vez que eles apenas verificam por actualizações e novos ficheiros em intervalos, alguns sítios FTP pode, estar um ou dois dias atrasados. Alguns sítios FTP não têm espaço disponível pra tudo, por isso podem guardar apenas as versões comprimidas dos ficheiros. Mas a maioria dos sítios FTP terão a colecção do PG completa. Estes chamam-se "espelhos" FTP, uma vez que são uma cópia do original.
Existem muitos sítios FTP que oferecem um espelho completo do PG mas que não estão na nossa lista de sítios FTP. Habitualmente, estes estão em escolas, onde servem estudantes locais mas não têm largura de banda suficiente para oferecer descargas a utilizadores de todo o Mundo.
R.14. Posso tornar-me num espelho FTP?
Sim! Estamos sempre à procura de mais espelhos FTP.
Se você gere um sítio FTP com cerca de 100 GB de espaço livre, por favor veja a nossa página de Informação sobre Contactos e contacte a pessoa apropriada que tratará das coisas por si.
R.15. Posso fazer um espelho FTP privado para a minha escola, biblioteca ou organização?
Sim.
Gostamos que todos os espelhos FTP estejam abertos a tantas pessoas quanto possível, mas sabemos que nem todas as escolas têm os recursos para serem um espelho público, por isso damos as boas-vindas a todos os espelhos.
E, de todo o modo, você nem sequer precisa de perguntar porque nós não controlamos o que acontece aos nossos textos assim que os postamos!
R.16. Quando cliquei no ficheiro que queria, não aconteceu nada.
Quando você selecciona um ficheiro para descarga, o seu pedido vai para o sítio FTP que seleccionou, não par ao nosso sítio. Se o sítio FTP que seleccionou estiver com problemas, ou se estiver a acontecer a versão cibernética de um engarrafamento de trânsito entre você e ele, poderá ter problemas ao descarregar.
Seleccione um sítio FTP diferente (veja: What does that thing about "mirror sites" mean?) e tente novamente.
R.17. Quantos textos são descarregados do sítio?
Vá à página Top 100.
R.18. Quais são os livros mais populares?
Vá à página Top 100.
Estes números variam muito. Quando um filme baseado num clássico é lançado, as descargas desse livro electrónico chegam ao tecto!
Acerca de Descarregar e Usar os Livros Electrónicos do Project Gutenberg
R.19. Devo descarregar um ficheiro ZIP ou TXT?
Se sabe como descomprimir um ficheiro, então descarregar o zip é mais rápido, Para alguns livros electrónicos que não de texto que contém múltiplos ficheiros, como HTML com imagens incluídas, poderá estar disponível apenas um ficheiro zip. Para alguns outros formatos, como MP3 ou MPEG, pode não existir nenhuma versão comprimida disponível uma vez que o formato nativo do ficheiro está já suficientemente comprimido de modo a que a comprimi-lo em zip não serve de muito.
R.20. Tirei um ficheiro ZIP. O que faço com ele?
Descomprima-o.
Se quer um programa grátis, pode tentar o programa de código aberto Info-Zip, disponível em http://www.ctan.org/tex-archive/tools/zip/info-zip/ para Mac, MS-DOS, Unix, Windows e praticamente tudo o resto que você possa ter.
Se quer um programa comercial, o PKZIP, a partir http://www.pkware.com e o WinZip, a partir http://www.winzip.com , estão entre as programas de avaliação mais populares que lhe permitem descomprimir ficheiros.
Os utilizadores de Mac que usam o Stuffit Expander podem querer definir preferências (File / Preferences / Cross Platform) para "Convert text files to Macintosh format … When a file is known to contain text". Isto livra-o de caracteres estranhos (caracteres de linha), que não se querem num Mac, no início das linhas. O MacZip é outro programa grátis para Macs. Os utilizadores de Mac podem também tentar o ZipIt ou outros programas de avaliação disponíveis a partir dos arquivos da Info-Mac, pe.ex.: a partir de ftp://mirrors.aol.com/pub/info-mac/_Compress_&_Translate/ .
R.21. Tentei descomprimir o ficheiro mas dizia que este estava corrompido ou danificado.
O mais provável é que não tenha feito a descarga correctamente. Tente descarregá-lo novamente. Se não for bem sucedido na segunda vez, tente descarregar a versão descomprimida.
R.22. Vejo gatafunhos no monitor quando clico num livro.
Para poupar tempo de descarga, os nossos textos electrónicos são armazenados sob forma comprimida bem como sob forma de texto. Os ficheiros comprimidos são mais pequenos e demoram menos tempo a ser transferidos para o seu computador, mas você precisa de um programa para os descomprimir. Se tentar ver um ficheiro descomprimido directamente, parecerão gatafunhos.
Pode reconhecer facilmente os ficheiros comprimidos porque os seus nomes de ficheiro terminam em .zip.
Se isso acontecer, tente assegurar-se que está a pedir ao seu navegador para salvar o ficheiro em vez de o mostrar (frequentemente, você clica com o botão direito do rato no ficheiro e escolhe Guardar), ou então clique na versão do ficheiro que acaba em .txt em vez de .zip. Não precisa de um programa de descompressão para ver os ficheiros .txt.
Ver um ficheiro comprimido em vez de um ficheiro de texto é, de longe, a razão mais comum para este problema, mas podem existir outras. Se você tem a certeza que não está a olhar para um ficheiro comprimido, então pode ser que o ficheiro que você descarregou use um conjunto de caracteres que o seu visualizador não reconhece, como Big-5 [V.78] para textos em Chinês, ou Unicode [V.77]. Se é este o caso, terá de encontrar um visualizador que funcione no seu computador para o conjunto de caracteres especificado. Também pode ter disponível uma versão em ASCII do mesmo texto — tentamos ter versões em ASCII de tudo [G.17], mas algumas línguas, como o Chinês, não podem ser expressas perceptivelmente em ASCII.
Se você pode consegue ver a maioria dos caracteres, em número suficiente para decifrar o texto, mas aparecem caracteres irregulares sem sentido, quadrados pretos, caixas vazias e caracteres obviamente em falta espalhados pelas palavras, então estará provavelmente a olhar para um texto em 8 bits [V.79], com caracteres acentuados, e o seu visualizador não suporta o conjunto de caracteres. Veja a FAQ "I can read the text file, but a few characters appear as black squares, or gibberish" [R.31].
Se apenas existirem alguns caracteres sem sentido, quadrados pretos ou caracteres obviamente em falta no texto, então é provável que este se destinasse a ser um texto de 7 bits mas alguns caracteres em 8 bits, como o símbolo da Libra Britânica ou letras acentuadas, escaparam.
R.23. Posso descarregar e ler os vossos livros?
Sim. É para isso mesmo que serve o Project Gutenberg — disponibilizar gratuitamente textos para toda a gente!
R.24. O que me é permitido fazer com os livros que descarrego?
A maior parte dos livros electrónicos do Project Gutenberg estão no domínio público. Você pode fazer tudo o que quiser com esses — pode repostá-los no seu sítio, imprimi-los, distribuí-los, traduzi-los para outras línguas, convertê-los para outros formatos ou redistribuí-los de forma inalterada. Contudo, se distribuir versões sob a marca registada do Project Gutenberg, impomos algumas condições que são explicadas no cabeçalho e/ou rodapé de cada texto.
Alguns textos electrónicos do Project Gutenberg têm restrições de direitos autorais. Pode descarregá-los e lê-los na mesma mas pode não lhe ser permitido reproduzi-los, modificá-los ou distribui-los. Quando estiver a navegar ou a pesquisar no nosso sítio, verá estes textos restringidos por direitos autorais indicados nas listas. Para informações mais completas sobre ele, descarregue o texto electrónico e leia o cabeçalho ou o rodapé do ficheiro, que explicará as condições em pormenor.
R.25. O Project Gutenberg sabe quem descarrega os seus livros?
Não, e não queremos saber!
Como em todas as transferências na Internet, os nossos sítios têm de saber os endereços de IP que os contactam; sem isso, não seria possível nenhuma comunicação. Mas não os localizamos, mantemos ou examinamos para além do necessário para lidar com quaisquer problemas ou manter diários e estatísticas. Nunca identificamos os endereços de IP com as pessoas.
Para além disso, encorajamos as pessoas, os sítios, escolas por todo o mundo a espelharem, ou copiarem, os nossos textos nos seus sítios. Assim que isso aconteça, não teremos qualquer controlo sobre eles e nunca teremos qualquer ideia quanto a quem ou mesmo quantas pessoas acedem a eles depois disso.
E, ainda mais além, encorajamos as pessoas a distribuírem os textos em discos, CD, papel e qualquer outro formato de armazenamento que possam encontrar, Encorajamo-las a converter os textos para outros formatos, e a partilharem-nos.
Para a maioria das pessoas que estiver a ler isto, o anonimato não será provavelmente um problema, mas você pode viver num sítio ou numa época na qual ler Paine, ou Voltaire, ou a Bíblia, ou o Corão, seja considerado suspeito ou mesmo subversivo. Nós não sabemos quem você é e, aquilo que nós não sabemos, não podemos dizer.
Actualmente (2004), através da GDD (Gestão de Direitos/Restrições Digitais) muitos editores comerciais podem fazer uma lista de exactamente quem está a ler quais dos seus livros electrónicos. Nós não sabemos, e não queremos saber.
R.26. Encontrei alguns erros tipográficos óbvios num texto do Project Gutenberg. Como é que o relato?
A primeira coisa a ter em conta é que as pessoas que efectivamente fazer as correcções que você sugerir são muito experientes e estão habituados a ver montes de tipos diferentes de relatórios de erros. Por isso, o formato exacto do seu relatório não é mesmo o mais importante — faça-nos, simplesmente, chegar o relatório numa forma clara qualquer que nos compreendamos.
Para além disso, eis algumas dicas para evitar mal-entendidos.
É sempre útil se nos informar do título completo, número do texto electrónico, ano e número de ficheiro do texto que está a corrigir. Temos múltiplas edições e versões de alguns textos, como a "Odyssey" de Homero e a menos que você nos diga exactamente a que texto se refere, podemos ter de passar algum tempo a procurar e a adivinhar.
Em especial, por favor confirme e relate o nome de ficheiro exacto do texto. É extraordinariamente comum as pessoas relatarem problemas com o abcde10.txt, quando já está postado um abcde11.txt que já tem esses e outros erros corrigidos.
Quando apenas existem alguns erros, é normalmente mais fácil cortar e colar a linha ou linhas nas quais os erros estão no seu e-mail, com o seu comentário.
Também pode ser útil dar o número da linha do local em que o erro se encontra, e algumas pessoas que verificam os textos fazem-no regularmente. Se isto lhe parecer natural, faça-o; se não parecer, não o faça.
Um relatório ideal para uma errata típica pode parecer-se com:
Title: The Odyssey, by Homer
Translated by Butcher & Lang
April, 1999 [Etext #1728]
File: dyssy08.txt
Line 884:
back Telemachus, who bas now resided there for a month.
"bas" should be "has"
Line 1491:
Ithaca yet stands. But I wouldask thee, friend, concerning
"would" and "ask" are run together here
Line 1563:
in his father's seat and the elders gave place to him
This is the end of a paragraph, and needs a period at end.
Line 15346-7:
'Hearken to me now, ye men of Ithaca, to the
will say. Through your own cowardice, my friends, have
I think there is something missing between "the" and "will"
Mas o seguinte também faria o serviço:
In Homer's Odyssey, translated by Butcher and Lang, from /etext99, file dyssy08.txt, I found the following errors: Telemachus, who bas now resided change "bas" to "has" But I wouldask thee, "would ask" run together and the elders gave place to him needs period ye men of Ithaca, to the will say. line missing between "the" and "will"?
Quando existirem mais de, digamos, 50 mudanças pode ser mais fácil, em geral, enviar simplesmente uma versão corrigida do ficheiro. Contudo, se você o fizer, por favor não reembrulhe os parágrafos a não ser que seja absolutamente necessário (e não consigo pensar num caso em que seja, uma vez que nós também conseguimos reembrulhar os textos); precisamos de verificar as suas sugestões antes de repostarmos e se o ficheiro estiver muito diferente é difícil e leva-nos muito tempo a encontrar as mudanças reais no meio das mudanças nas linhas. Em vez disso, acrescente simplesmente um comentário no seu e-mail como "I think this text needs rewrapping" (Acho que este texto precisa de ser reebrulhado).
Se você é um produtor habitual, e usou alguma das ferramentas padrão do Gutenberg tal como o Gutcheck ou o Guiguts para encontrar erros, por favor não os liste no seu e-mail. Nós correremos o gutcheck e um corrector ortográfico básico como base em cada texto actualizado que republicamos e desperdiça simplesmente tempo ter montes de duplicados. Você poderá simplesmente mencionar algo como "gutcheck finds a lot of bad quotes" (o gutcheck encontra montes de erros); saberemos o que fazer a partir daí. Por favor centre o seu relatório nos erros que nós não encontramos ou podemos falhar numa confirmação automática habitual.
R.27. Encontrei alguns erros tipográficos óbvios num texto do Project Gutenberg. A quem o devo relatar?
A Equipa de Postagem, que posta os livros, também faz as correcções e, em última análise, as correcções precisam de ir pare eles.
Muitos produtores colocam os seus endereços de correio electrónico nos seus textos, especialmente para que os leitores os possam contactar quando são encontrados erros. Se o vir no seu texto, deve tentar contactar o produtor em primeiro lugar. Isto é particularmente verdade se as correcções não forem óbvias, como no caso de palavras em falta. É provável que o produtor tenha o livro original e possa provavelmente confirmar as suas correcções sem visitar uma biblioteca. Se o livro precisa de correcções, o produtor pode então notificar a Equipa de Postagem.
Se não obtiver resposta do produtor, ou se não estiver listado o endereço de correio electrónico, se as correcções forem pequenas e óbvias, deverá mandá-las para o endereço de e-mail para relatório de erros listada na Página de Contactos na qual os membros da equipa de postagem lidarão com elas.
R.28. Relatei alguns erros tipográficos. O que acontece em seguida?
Isso varia bastante. Às vezes, você pode apenas receber um e-mail de resposta num dia ou três, agradecendo e dizendo que nós corrigimos o erro tipográfico. Isto é normal quando você apenas relatou um ou alguns erros tipográficos óbvios.
Onde há algum texto em falta, ou as mudanças que você sugere não são, de outra forma, óbvias, nós podemos ter que encontrar alguém com uma cópia elegível do livro para confirmar as mudanças, e isso pode levar tempo. Normalmente, você receberá um e-mail a explicá-lo dentro de uma semana.
Às vezes, mesmo que tenhamos notado somente um ou dois pequenos erros tipográficos, uma pessoa da Equipa de Postagem que estivesse a olhar para ele poderá encontrar muitos mais, e decidir que o texto inteiro precisa de ser reembrulhado. Isto também pode demorar tempo.
Se o texto precisar de muitas mudanças, nós podemos postar uma nova EDIÇÃO [R.35] dele, com um novo nome de ficheiro: por exemplo: abcde10.txt pode tornar-se abcde11.txt. Neste caso, você receberá uma cópia do e-mail enviado para a lista postada que anuncia um novo ficheiro. A nossa regra de bolso actual é que criamos uma nova edição quando fazemos doze mudanças significativas, mas avaliamos cada uma caso-a-caso e, em especial, não fazemos habitualmente uma nova edição se a original foi postado recentemente.
R.29. Tirei o ficheiro de texto e consigo lê-lo mas parece estar com espaçamentos duplos ou com caracteres de controlo como ^J or ^M no final de cada linha.
Isto é visto mais frequentemente nos Mac e Linux. Se quer aprofundar o motivo pelo qual isto acontece, veja a FAQ "Why use a CR/LF at end of line?" [V.85].
Talvez vê-lo num editor ou visualizador diferente ajude, mas é, geralmente, mais fácil substituir globalmente todos os caracteres de controlo (se os vir) por nada ou substituir todos os fins de linha duplos por fins de linha simples.
R.30. Quando imprimo o ficheiro de texto, cada linha passa para além da extremidade da página e fica mal.
Se tem um ficheiro terminado em .txt do Project Gutenberg, este está normalmente formatado com cerca de 70 caracteres por linha e com um par Regresso ao Berço/Avanço de Linha ("Carriage Return/Line Feed") (também conhecidos como "Retorno Obrigatório" - "Hard Return" - ou "Marca de Parágrafo").
Este é o formato mais largamente aceite para ficheiros de texto mas não é ideal para todos os computadores e todos os programas. 70 caracteres por linha significa que um tamanho de letra anormalmente grande ou pequeno para o imprimir, as linhas podem enrolar-se ou não se estenderem pela página. Um retorno obrigatório significa que, em alguns sistemas, as linhas podem aparecer com espaçamento duplo.
Infelizmente, não podemos aconselhá-lo em como formatar melhor os textos em todos os sistemas, principalmente porque não conhecemos todos os sistemas! Eis algumas dicas que você pode tentar:
Se a sua fonte é muito grade ou muito pequena, tente definir o tipo de letra para Courier tamanho 10 ou Times tamanho 12. Pode não ser ideal, mas costuma funcionar.
Num processador de texto, pode ser capaz de remover os Retornos Obrigatórios (Hard Returns) mas, tenha atenção!, se remover demasiados, todo o texto ficará em um só parágrafo. Uma fórmula comum para remover os RO é assim:
- Primeiro, todos os parágrafos e linhas separadas devem ser separadas por dois RO, para que você possa ver uma linha em branco entre eles. Onde não existirem, como numa tabela de conteúdos ou linhas de versos, acrescente os RO para os fazer assim.
- Substitua TODAS as ocorrências de dois RO por um caracter qualquer sem sentido ou uma linha que não exista no texto, como ~$~.
- Substitua TODOS os RO obrigatórios por um espaço.
- Substitua a linha que inseriu ~$~ por um RO.
R.31. Consigo ler o ficheiro de texto mas uns poucos de caracteres aparecem como quadrados pretos ou gatafunhos.
O texto está a utilizar algum conjunto de caracteres que o seu editor ou visualizador não utiliza. Por exemplo, o texto usa ISO-8859-1 e o seu visualizador está a utilizar o Codepage 850 — ou vice versa. Você consegue ver os caracteres ASCII simples mas os caracteres não-ASCII, como letras acentuadas, aparecem como coisas sem sentido.
Olhe para o início do ficheiro para ter uma pista sobre a codificação do conjunto de caracteres: se estiver lá, pode ajudá-lo encontrar que editor, ou tipo de letra, ou visualizador, deveria estar a utilizar.
R.32. Posso adquirir algum aparelho portátil para ler os textos do PG? Que aparelho devo adquirir?
Para ler os livros electrónicos num aparelho portátil, você precisa de três coisas: o conteúdo do livro electrónico propriamente dito (que pode obter a partir do PG ou de outros sítios), um aparelho (a que eu por vezes chamarei PDA apesar de, tecnicamente, o RocketBook não ser um PDA) e o programa de leitura que corre no PDA.
Em meados de 2002, existem três grandes famílias de dispositivos manuais que as pessoas utilizam para ler livros electrónicos: Palms, Pocket PCs and RocketBooks (ou o seu sucessor, REB1100s). Em geral, é possível usar qualquer destes combinado com qualquer tipo comum de computador pessoal.
Os Palms são muito comuns, especialmente quando você tem em conta não apenas o Palm http://www.palmone.com/us/ propriamente dito, mas os dispositivos baseados no sistema operativo Palm de outros fabricantes, como:
- the Franklin eBookman http://www.franklin.com/ebookman/
- the Handspring Visor http://www.handspring.com
- the Sony Clié http://www.sony.com
Devido ao número de fabricantes de dispositivos baseados no sistema operativo Palm, você pode comprá-los com montes de combinações de características — monitores a cores, áudio, tamanhos de memória diferentes. Claro, os Palm têm outras aplicações para além da leitura de livros electrónicos. Os Palm são os mais pequenos e mais portáteis de entre as três classes e tendem a ter uma melhor tempo de bateria para viajar, mas também têm o monitor mais pequeno. Quase todos os programs de leitura correrão nos Palm, excepto o Microsoft Reader, que corre apenas nos Pocket PCs, mas você não precisa do Microsoft Reader para os livros electrónicos do Project Gutenberg.
Nos Pocket PCs, o Compaq iPaq http://www.hp.com e o Dell Axim http://www.dell.com são, de longe, os mais comuns no final de 2003. Mais caros e robustos do que o Palm, têm um monitor maior. Como os Palm, podem realizar muitas funções para além da leitura de livros electrónicos. Apenas os Pocket PC conseguem suportar o Microsoft Reader, mas isto não é necessário para ler os livros electrónicos do Project Gutenberg.
O RocketBook e o seu sucessor, o Gemstar REB1100, são bastante diferentes dos outros. Foram criados especialmente para a leitura de livros electrónicos e não têm funções adicionais. Tecnicamente, não são PDA. Os seus monitores são maiores e excelentes para ler mas não oferecem cores. Também não oferecem uma escolha de leitores mdash; o leitor dedicado está integrado no aparelho. Ambos precisam que os livros electrónicos que você carrega sejam formatados para o seu leitor e os ficheiros feitos para eles normalmente têm a extensão .rb para RocketBook. O REB1100 não veio com o RocketLibrarian, que é o programa que você corre no seu PC para transformar um texto electrónico num ficheiro do RocketBook mas as pessoas ainda fazem ficheiros .rb e o RocketLibrarian ainda está disponível e é popular entre um grupo de utilizadores entusiastas do Rocket. (O REB1200 é completamente diferente do REB1100 e, tanto quanto sabemos, os textos electrónicos do PB não conseguem ser facilmente transferidos para ele.)
Em finais de 2003, a Gemstar parou a produção da sua linha de leitores de livros electrónicos, mas ainda existiam muitos por aí.
Em suma, o Rocket/REB1100 é um leitor dedicado, com um bom monitor, mas limitado naquilo que faz.
Os Palms são relativamente baratas e comuns, com um largo leque de opções e a possibilidade de funcionar como PDAs também. Podem correr todos os leitores comuns excepto o da Microsoft.
O iPaq http://www.hp.com tem um bom monitor a cores mas é mais robusto do que o Palm e pode correr montes de leitores, incluindo o da Microsoft, mas nem todos os leitores Palm estão disponíveis para o Pocket PC. Como os Palms, o iPaq pode realizar outras tarefas para além de mostrar livros electrónicos.
Pessoas diferentes tomam opções diferentes entre estes para lerem os seus livros electrónicos e todos eles funcionam bem; é uma questão de gosto pessoal.
Como posso ler um livro electrónico do PG no meu Palm?
Estes passos funcionam para todos os aparelhos que corram o sistema operativo Palm.
- Instale o Plucker Viewer gratuito no seu Palm
- Descarregue o livro electrónico no formato "plucker" para o seu computador de mesa
- Sincronize o ficheiro que puxou, enviando-o para o seu Palm, usando a sua aplicação de computador preferida.
Como posso ler um livro electrónico do PG no meu PDA (não Palm)?
Para ler um livro no seu PDA, precisa de obter o ficheiro num formato que o seu programa leitor compreenda. Cada programa leitor dos PDA funcionará apenas com um formato específico de ficheiro. Alguns lerão vários formatos mas, em geral é uma selva de opções em competição.
A não ser que você use o Rocket ou o REB1100, precisará de instalar pelo menos um programa leitor e muitos leitores veteranos instalam dois ou três para lidarem com formatos diferentes. Existem muitos deles disponíveis. Um dos mais utilizados é o Mobipocket Reader.
Para além disso, o processo pode ser diferente dependendo do programa leitor que você estiver a utilizar. Cada formato que o leitor entender tem um ou mais programas de conversão que correm no seu PC e transformam um ficheiro de texto puro nesse formato. Por isso, em geral, você tem de:
- Descarregar o texto do PG.
- Editar o texto para o formato que o conversor quer (frequentemente HTML).
- Utilizar o conversor para criar um ficheiro no formato que o leitor quer.
- Transferir o ficheiro convertido para o seu PDA.
Se tudo isto aprece muito complicado, lembre-se que muitas pessoas pegam e convertem os textos do PG para muitos formatos e oferecem-nos para descarga nos seus sítios. Claro, não existem garantias de que alguém tenha convertido um livro electrónico em particular que você queira mas há montes de opções. Tente Blackmask, que lista milhares de textos já convertidos para o Mobipocket, iSilo, RocketBook e Microsoft Reader.
Existem muitos outros sítios que servem textos do PG pré-convertidos.
MemoWare também é um recurso útil para livros electrónicos convertidos e tem montes de informações, incluindo um excelente mapa da selva de leitores e formatos.
O sítio do Steve Sakoman em http://www.sakoman.net/ pega em texto puro do PG e produz conversões automatizadas para HTML e PalmDOC PDB.
Se você está por sua contam precisará provavelmente de converter os seus textos simples para HTML por esta altura porque montes de conversores exigem alimentação em HTML e este é um tema comum nas explicações dos leitores sobre como transferir os textos para os seus PDA. Não entre em pânico! Não tem de ser um sábio em HTML para fazer isto — de facto, não precisa sequer de saber nada de HTML! Normalmente, é apenas uma questão de remover alguns finais de linha e Guardar Como HTML. Não focará com muitas marcações extravagantes, ou imagens a aparecerem do nada, mas terá o livro.
Uma das coisas habituais que você normalmente tem de fazer ao criar o HTML é desembrulhar as linhas. Se estiver a fazer o seu HTML manualmente, isto faz-se normalmente substituindo duas marcas de parágrafo por algum marcador sem sentido como @@Z@@, substituindo todas as marcas de parágrafo sozinhas por um espaço, e substituindo o marcador sem sentido por uma marca de parágrafo. Depois de desembrulhar, o texto pode ser Guardado Como HTML.
Isto tem o senão de as linhas que não deveriam ser embrulhadas — como poesia, tabelas e cabeçalhos de cartas, serão embrulhadas, Poderá ter de passar pelo texto e acrescentar quebras de linha extra para elas.
Existem algumas aplicações que ajudam especificamente com a autoconversão de texto para HTML:
- GutenMark http://www.sandroid.org/GutenMark foi especialmente escrito para este fim e conhece suficientemente bem as convenções do PG para fazer um trabalho muito bom.
- InterParse http://www.interparse.com é um analisador genérico de texto baseado no Windows que é de utilização muito intuitiva.
- O World Wide Web Consortium lista algumas outras opções em http://www.w3.org/Tools/Misc_filters.html
Se está a usar o RocketBook ou o REB1100, para lidar com ele, não tem nem as escolhas nem a confusão. Um dos nossos voluntários que usa o RocketBook ofereceu estas receita para converter um texto do PG para um RocketBook:
Ao converter para o Rocket:
- Descarregue o ficheiro de texto.
- Utilizando a sua ferramenta para mostrar a formatação, introduza o modo de edição do seu programa de processamento de texto.
- Substitua todas mas marcas de parágrafo duplas por uma sequência sem sentido que não possa efectivamente existir mesmo no texto, como @@Z@@.
- Substitua todas as marcas de parágrafo simples por um espaço simples ("enter").
- Substitua a sequência sem sentido por uma marca de parágrafo.
- Converta todos os espaços duplos para espaços simples. Repita isto até ter "0" para o número de substituições que fez.
- Guarde em HTML.
- Vá ao seu Rocket Librarian. Use "importar ficheiro utilizando o Rocket Librarian." Siga e pegue o ficheiro, que será automaticamente convertido para .rb neste processo.
Isto parece demorado, mas normalmente leva-me menos de três minutos, excepto num texto muito longo. Nunca demorei mais de cinco minutos. Você pode simplesmente entrar e pegar no ficheiro de texto com o Rocket Librarian, mas aquilo com que fica no monitor se fizer isto vai parecer muito estranho. Os passos 2-7 não são essenciais e se estou com pressa para ler alguma coisa posso saltá-los, mas se é algo que eu sei querer manter, uso-os.
Esta fórmula não é o ideal para poesia ou verso branco — se quer manter as linhas desembrulhadas, deve evitar remover as marcas de parágrafo.
Outro voluntário, que lê no Mobipocket http://www.mobipocket.com deu esta sugestão:
Eu uso o MobiPocket Publisher, disponível gratuitamente a partir de http://www.mobipocket.com . Ele quer pegar num ficheiro HTML como alimentação por isso, a primeira coisa que tenho de fazer é converter o meu texto do PG para HTML.
Habitualmente faço isto correndo o GutenMark, disponível em http://www.sandroid.org/GutenMark . Também posso fazer isto no Microsoft Word, utilizando a seguinte sequência:
- Editar / Substituir / Especial e escolho Marca de Parágrafo duas vezes (ou, a partir de escrever, você pode digitar ^p^p para obter duas Marcas de Parágrafo) e substituo por @@@@. Substituir Todos. Isto preserva os finais de parágrafo reais ao marcá-los com uma sequência sem sentido.
- Agora Substituir uma Marca de Parágrafo (^p) por um espaço. Substituir Todos. Isto remove os finais de linha.
- Finalmente, substituir @@@@ por uma Marca de Parágrafo. Substituir Todos. Isto traz de volta os Finais de Parágrafo.
- Agora posso Guardar Como HTML.
O GutenMark faz um melhor trabalho de conversão para HTML do que a minha fórmula simples para o Word uma vez que reconhece as características padrão do PG e, por vezes, o Mobipocket não gosta do HTML produzido a partir do Word — queixa-se de um ficheiro em falta, ou não reconhece as aspas.
Tendo obtido o meu ficheiro HTML, abro o Mobipocket Publisher, escolho "Project Gutenberg", Adiciono o Ficheiro que criei, e Publico-o simplesmente para o formato .PRC do MobiPocket. Então, transfiro-o para o meu iPaq na próxima vez que sincronizo. O processo todo demora dois ou três minutos e os resultados, desde que descobri o GutenMark, são bons.
descobri recentemente o InterParse 4 em http://www.interparse.com . Não tem o conhecimento integrado do GutenMark por isso os resultados não são tão bons mas é realmente fácil de utilizar e você pode ver o efeito das suas mudanças no monitor à medida que as faz. Para a maioria dos livros do PG, tudo o que tem de Fazer é simplesmente Abrir o ficheiro de texto e escolher Opções / Remover todos os CRLFs (Excepto no Final de Parágrafo), então Converter / Texto para HTML e Guardar Como o nome de ficheiro HTML que você quiser. Rápido e sem espinhas.
Acerca dos Ficheiros
R.34. Que tipos de ficheiros existem, e como os leio?
A vasta maioria dos nossos ficheiros são em texto puro, Pode lê-los com qualquer editor ou visualizador de texto ou navegador. Alguns estão em HTML. Pode lê-los com qualquer navegador.
Para uma listagem mais completa de outros tipos de ficheiro, e como os ler, por favor veja a Formats FAQ [F.2].
R.35. O que quer dizer o nome de ficheiro dos textos?
Temos de dividir esta questão em duas respostas, para livros até ao 10.000 e livros depois do 10.000 (ou livros mais antigos repostados depois de atingirmos o 10.000).
Livros depois do 10.000 — o novo esquema de nomenclatura
Desde o número de livro electrónico 10.000, nomeamos os nossos ficheiros com base no número de texto electrónico do PG; portanto, a base do nome reflecte simplesmente a ordem pela qual um livro é postado. 12345.txt é simplesmente o 12345º livro postado.
Também, quando corrigimos um livro mais velho, podemos repostá-lo no novo esquema de nomenclatura em vez de o substituir simplesmente na nomenclatura antiga. Quando o fazemos, as suas convenções de nomenclatura são as mesmas como se fosse numerado após 10.000 e, adicionalmente, adicionamos uma subdirectoria "old/",, na qual colocamos todos os ficheiros mais antigos para que sejam preservados para qualquer pessoa que os queira examinar, Desta forma, iremos, desejavelmente, mover todos os livros electrónicos para a nova nomenclatura.
Os formatos ou conjuntos de caracteres que não ASCII simples recebem então extensões acrescentadas para indicar o tipo de ficheiro. Os conjuntos de caracteres recebem dígitos; os formatos recebem letras. Destes, os mais comuns são:
- -0 para Unicode
- -8 para texto puro de 8 bits
- -h para HTML
- -m para MP3
- -r para RTF
- -t para TeX
- -x para XML
Portanto, o livro electrónico pode — bastante frequentemente — ter os ficheiros 12345.txt, 12345.zip, 12345-8.txt, 12345-8.zip, 12345-h.htm e 12345-h.zip, bem como outros conjuntos de caracteres ou formatos.
Outros formatos recebem as extensões apropriadas de três letras, como -pdf.
O conjunto completo de regras de nomenclatura para livros electrónicos pós-10K é:
1. Estrutura da directoria: a directoria para o livro electrónico deverá estar contida numa hierarquia de directorias, cada uma com um único dígito, sendo todos os dígitos do número do texto electrónico com excepção do último, por ordem. O número da directoria do livro electrónico propriamente dito será o número do livro electrónico. Portanto, o livro electrónico #12345 estará contido em:
/1/2/3/4/12345/
e o 123456 em
/1/2/3/4/5/123456/
Quando um livro electrónico é uma repostagem de um texto pré-10.000, criaremos uma subdirectoria old/, que contém todos os ficheiros antigos associados a esse texto. Por exemplo, pense em_
- Mike, by P. G. Wodehouse 7423
Os ficheiros corrigidos, repostados, encontrar-se-ão em:
- /7/4/2/7423/
e os ficheiros mais velhos, pré-10K, serão todos mantidos em:
- /7/4/2/7423/old/
2. Os nomes de ficheiro dento da directoria do livro electrónicos deve ter o número do livro electrónico, com extensões precedidas por um sinal de menos, indicando o conjunto de caracteres e o formato.
a) Um ficheiro sem indicador do conjunto de caracteres ou do formato está em ASCII simples de 7 bits. [Na prática, podemos permitir alguns de caracteres de 8 bits — até uma dúzia ou duas — e ainda assim chamar-lhe ASCII]
- Exemplo: 12345.txt [ASCII "plain vanilla" de 7 bits]
b) Os conjuntos de caracteres, para os ficheiros de texto, recebem dígitos:
- -0 Unicode (incluindo UTF-7, UTF-8, UCS-4, etc.)
- -5 Big-5
- -8 8 bits (incluindo ISO 8859, Codepages, etc.)
- Exemplo: 12345-8.txt [O texto está numa codificação qualquer de 8 bits]
c) Os tipos de ficheiro recebem letras. Idealmente, os formatos com uma letra devem ser baseados em padrões e editáveis. Por agora, segue-se a lista de formatos com uma letra:
- -h HTML
- -x XML
- -r RTF
- -t TEX
- -m MP3
Outros formatos recebem preferencialmente três letras (ou mais, se necessário).
- -lit LIT
- -pdb PDB
- -doc Word DOC
- -mpg MPEG
- Exemplo: 12345-x.xml [XML]
- Exemplo: 12345-pdf.pdf [PDF]
Quando é postada mais do que uma variante do formato, o postador acrescentará letras adicionais consoante seja apropriado.
- Exemplo: Se um HTML do 12345 tiver sido postado como 12345-h, e estivermos a postar um novo HTML se o mesmo livro electrónico foi separado entre páginas, pode ser postado como 12345-hp.
3. Todos os ficheiros de um livro electrónico estão sob a mesma directoria. Os ficheiros .txt estarão na directoria principal do livro electrónico, bem como outros formatos que exigem apenas um ficheiro (PDF, RTF, …). Os formatos que provavelmente exigem ficheiros adicionais recebem uma subdirectoria nomeada por tipo de ficheiro, com o ficheiro lá dentro. Isto serve para tornar previsível o encontro dos formatos e para permitir que quaisquer ficheiros adicionais sejam armazenados na subdirectoria.
Os formatos que recebem uma subdirectoria incluem: HTML, TeX and XML. Os formatos que não recebem uma subdirectoria incluem: PDF, RTF, LIT, PDB.
O nome da subdirectoria para cada um deve ser o nome do ficheiro principal que lá se encontra.
- Exemplo: O ficheiro 12345-h.htm estará em /12345/12345-h/12345-h.htm e os ficheiros acessórios (tais como JPEG ou CSS) estarão em (ou abaixo) da mesma subdirectoria.
4. Encontrar-se-á um ficheiro .zip para cada formato na directoria principal do livro electrónico. O .zip será descomprimido para uma subdirectoria se for um formato multi-ficheiro dos do n.º 3 acima; de outro modo, descomprimirá simplesmente o ficheiro. Nos casos de alguns formatos pré comprimidos, como MP3, não faz sentido ter um .zip e, quando isso aconteça, será omitido.
- Exemplo: 12345-h.zip estará em 12345/ e, quando descomprimido, criará uma subdirectoria 12345-h/ com o ficheiro 12345-h.htm e quaisquer acessórios.
- Exemplo: 12345-pdf.zip estará em 12345/, e, quando descomprimido, criará o 12345-pdf.pdf na directoria actual.
5. Versões e edições: no caso de uma nova EDIÇÃO, um ficheiro corrigido, o ficheiro original é renomeado com a extensão da data em que ele próprio foi postado. Por isso o 12345.txt, quando substituído, torna-se 12345.txt.20030101 e o novo ficheiro, corrigido, fica 12345.txt.
Às novas EDIÇÕES será acrescentada uma linha "Most recently updated: " (actualizado mais recentemente: ) nos seus metadados padrão.
A data de lançamento ("Release Date") no cabeçalho padrão será o mês e o ano da primeira postagem real do livro electrónico.
6. Cada ficheiro (p.ex.: 12345-h.htm) deverá ter um cabeçalho do Project Gutenberg, metadados e um rodapé. Nos casos em que um ficheiro não seja editável (como os PDF), ou nos quais acrescentar um cabeçalho não seja realista (como nos MP3) o cabeçalho, os metadados e o rodapé podem ir num ficheiro "readme" nomeado para o ficheiro, com o "-readme" acrescentado antes da extensão. O ficheiro "readme" deve ficar na mesma directoria que o ficheiro ao qual se refere e deve ser incluído no ficheiro ZIP para aquele formato. Quando o formato for multificheiro, deve existir apenas um "readme" para todos os ficheiros.
- Exemplo: "12345-pdf-readme.txt" para o ficheiro 12345-pdf.pdf Nota: se formos capazes de acrescentar o cabeçalho padrão antes de criar o ficheiro PDF ele pode ser distribuído como qualquer outro formato editável sem o "readme".
- Exemplo: "12345-m-readme.txt" para os ficheiros 12345-m-001.mp3, 12345-m-002.mp3, etc.
7. O(s) ficheiro(s) GUTINDEX terão entradas na forma:
Título, by Autor eBook#
eBook # ficará em 5 dígitos, seguido por um "C" se protegido por direitos autorais e "*" se reservado. "by " será omitido se não houver espaço suficiente. Quaisquer dados adicionais, como o tradutor ou o subtítulo ficarão numa linha seguinte ou linhas seguidas por parênteses rectos [] e avançados a dois espaços.
O GUTINDEX terá indicadores de data aproximados tais como:
- MARCH 2004: 822 eBooks
O que se segue é um exemplo do texto electrónico n.º 12345, partindo do princípio que ficheiros de texto em ASCII, 8 bits e Unicode, um HTML e um HTML separado por páginas, um XML, PDF, TeX, e formatos LIT , e MP3. Suponha que não conseguimos editar o LIT, e por isso tivemos de acrescentar um "readme" para que contivesse o cabeçalho como no ponto 6, acima.
A directoria 12345 para o livro electrónico estará em
- 1/2/3/4/12345/
e conterá os ficheiros
- 1/2/3/4/12345/12345.txt
- 1/2/3/4/12345/12345.zip
- 1/2/3/4/12345/12345-0.txt
- 1/2/3/4/12345/12345-0.zip
- 1/2/3/4/12345/12345-8.txt
- 1/2/3/4/12345/12345-8.zip
- 1/2/3/4/12345/12345-h.zip
- 1/2/3/4/12345/12345-hp.zip
- 1/2/3/4/12345/12345-t.zip
- 1/2/3/4/12345/12345-x.zip
- 1/2/3/4/12345/12345-pdf.pdf
- 1/2/3/4/12345/12345-pdf.zip
- 1/2/3/4/12345/12345-lit.lit
- 1/2/3/4/12345/12345-lit-readme.lit
- 1/2/3/4/12345/12345-lit.zip
e nas suas subdirectorias ainda outros ficheiros
- 1/2/3/4/12345/12345-h/12345-h.htm
- 1/2/3/4/12345/12345-h/image1.png
- 1/2/3/4/12345/12345-hp/12345-hp.htm
- 1/2/3/4/12345/12345-hp/page2.htm
- 1/2/3/4/12345/12345-hp/image1.png
- 1/2/3/4/12345/12345-t/12345-t.tex
- 1/2/3/4/12345/12345-x/12345-x.xml
- 1/2/3/4/12345/12345-x/12345-x.xsl
- 1/2/3/4/12345/12345-x/image1.png
- 1/2/3/4/12345/12345-m/12345-m-readme.txt
- 1/2/3/4/12345/12345-m/12345-m-001.mp3
- 1/2/3/4/12345/12345-m/12345-m-002.mp3
Livros até 10.000 — o esquema de nomenclatura antigo
Os ficheiros do PG mais antigos são nomeados para o texto, edição e tipo de formato.
Praticamente todos estes ficheiros do PG são nomeados no formato "8.3" — ou seja, até oito caracteres, um ponto e mais três caracteres. (Deveriam ter sido todos eles, segundo as regras, mas tivemos de quebrar alguns.)
Os primeiros cinco caracteres no nome de ficheiros são simplesmente um nome único para esse texto, por exemplo, "Ulysses" de Joyce começa por "ulyss".
se o texto foi postado tanto em texto de 7 bits como de 8, então o primeiro caracter do nome de ficheiro será um 7 ou um 8, para o indicar. Por exemplo, temos tanto o 7crmp10 e o 8crmp10 para o Crime and Punishment de Dostoevsky.
O 6º e 7º caracteres do nome são o número de edição — de 01 a 99. Normalmente, começamos na edição 10 (1.0); os números abaixo disso indicam que pensamos que o texto precisa de mais algum trabalho; os números acima disso significam que alguém corrigiu a edição 10 original.
O 8º caracter do nome de ficheiro se existir, indica ou a versão ou o formato do ficheiro. Quando obtemos uma versão diferente do texto baseada numa fonte diferente, atribuímos-lhe um a, b, c, como, por exemplo, se o texto for de uma tradução diferente, Quando tivermos postado o texto num formado diferente, também acrescentamos um oitavo caracter — "h" para HTML, "x" para XML, "r" para RTF, "t" para TeX, "u" para Unicode são formatos estabelecidos. Houve algumas postagens experimentais com "l" para LIT, e "p" tanto para PRC como para PDB.
Por isso, por exemplo:
7crmp10 é a nossa primeira edição de Crime and Punishment em ASCII simples 8sidd10 é a nossa primeira edição de Siddhartha, como texto de 8 bits dyssy10b é a nossa primeira edição da nossa terceira tradução de Odyssey de Homero em ASCII simples jsbys11 é a nossa segunda edição de Jo's Boys, em ASCII simples vbgle10h é o nosso formato HTML da nossa primeira edição de Voyage of the Beagle de Darwin 7ldv110 é a nossa versão ASCII de 7 bits do primeiro volume de Notebooks of Leonardo da Vinci
Para piorar, nem sempre nos mantemos fieis a estas regras, por exemplo:
1ddc810 é a primeira edição do primeiro livro da Divina Commedia de Dante em Italiano, como texto de 8 bits 80day10 é a nossa primeira edição de Around the World in 80 days de Verne, em ASCII de 7 bits em Inglês. emma10 é a nossa primeira edição de "Emma" de Jane Austen — com uma base de nome 4 caracteres em vez de 5.
Algumas séries têm nomes especiais, não- padronizados. Shakespeare é nomeado com um dígito que representa a fonte geral (First Folio, etc), depois "ws", depois um número de série, por isso, por exemplo 0ws2610, 1ws2610 e 2ws2610 são todas versões de "Hamlet". A série de Tom Swift é nomeada com um prefixo de dois dígitos denotando o número da série, depois tom", por isso, por exemplo, 01tom10 é o "Tom Swift and his Motor-Cycle".
E o que deveremos fazer com um texto de uma fonte diferente que seja formatado em HTML? Por exemplo, se dyssy10b é o nome da terceira tradução, como deveria ser nomeada a versão HTML? dyssy10bh seria óbvio, mas usa 9 caracteres.
O problema, claro, é que estamos a tentar encaixar montes de informação num nome de ficheiro de 8 caracteres à medida que o acervo aumenta deparamo-nos com mais pressão sobre os nomes de ficheiro por isso, ainda que o nome de ficheiro seja um bom guia quanto aos conteúdos, não é definitivo.
R.36. Qual é a diferença, dentro do PG, entre uma "edição" e uma "versão"?
Chamamos "edição" a um ficheiro corrigido feito a partir de um texto existente no PG. Por exemplo, se alguém aponta alguns erros tipográficos no nosso ficheiro de "War and Peace", corrigi-los-emos e, se forem encontrados em número suficiente para garantir uma "nova edição", então, em vez de substituirmos simplesmente o ficheiro wrnpc10.txt, podemos fazer um novo ficheiro wrnpc11.txt, e deixar o original em paz. Uma nova edição é sempre arquivada sob o mesmo ano e número de texto electrónico que o original — é apenas uma actualização.
Chamamos "versão" a um texto electrónico completamente independente feito a partir do mesmo livro original mas com uma fonte diferente, Por exemplo, a Odisseia de Homero foi traduzida por várias pessoas diferentes mas todos eles trabalharam a partir do mesmo livro. As traduções de Lang, Butler, Pope e Chapman são muito diferentes mas todas elas vêm da mesma raiz.
Portanto, todas estas são versões da Odisseia de Homero. Damos a todas elas o mesmo nome de base — dyssy — e cada uma recebe um novo número, mas mantemos o nome de base original e acrescentamos uma letra ao nome de ficheiro para indicar que elas são "versões" do mesmo livro original:
dyssy10.txt Tradução de Butler dyssy10a.txt Tradução de Butcher & Lang dyssy10b.txt Tradução de Pope
AS diferenças não têm de ser tão radicais quanto isso para que nos criemos uma nova versão. "Clotelle"/"Clotel", por exemplo, foi um livro publicado múltiplas vezes em Inglês por William Wells Brown e, de cada vez, ele mudava o texto. Preservamos três textos diferentes do mesmo livro como versões diferentes: clotl10 clotl10a e clotl10b.
R.37. Qual é a diferença entre um "texto electrónico" e um "livro electrónico"?
Se existir alguma, parece estar nos olhos do Departamento de Marketing! O Michael Hart começou isto tudo e cunhou a palavra "Etext" (texto electrónico). O termo "eBook" (livro electrónico) está a ganhar popularidade, mesmo para textos que não são livros completos por isso começámos a usá-lo mais agora.
R.38. O que significa o "número do texto/livro electrónico" nos textos?
São simplesmente uma série de números. Damos um a cada texto electrónico quando é postado por isso os textos electrónicos mais antigos têm números mais baixos e os textos electrónicos mais recentes têm números mais elevados. O texto electrónico número 1 é a Declaration of Independence, o primeiro texto que o Michael Hart digitou no supercomputador que estava a utilizar em 1971.
Alguns poucos de números estão reservados para livros que esperamos ter no arquivo do PG algum dia; por exemplo, 1984 está reservado para o clássico de Orwell.
Quando melhoramos um texto fazendo algumas correcções, chamamos-lhe uma nova EDIÇÃO, e mantêm o mesmo número de texto electrónico, mas quando postamos uma VERSÃO do mesmo texto, de um livro em papel diferente &mdash como as diferentes traduções da Odisseia de Homero &mdash cada nova versão recebe um novo número de texto electrónico.
R.39. O que significam o mês e o ano no texto?
O Project Gutenberg para si próprio uma meta de produção. A ideia é tentarmos produzir x livros num mês, e nos livros anteriores ao n.º 10.000 datávamos os textos de acordo com o mês da nossa agenda em que apareciam. Por exemplo, se o nosso alvo para Setembro de 2000 fosse 50 textos, e produzíssemos efectivamente 55, então os últimos dois seriam datados de Outubro de 2000 e teríamos um avanço no mês. Enquanto escrevíamos as Perguntas Frequentes originais, em Julho de 2002, essa meta era a publicação de 200 livros por mês. Contudo, a nossa produção real ultrapassou de longe as nossas metas, o que resultou em que o "avanço" acumulou-se tanto que em Julho de 2002 estamos a lançar livros agendados para Março de 2004!
O facto é que estar tão adiantados torna isto bastante confuso para os novatos. Se o chateia, não pense simplesmente nisso! Mas, ao menos, é melhor do que estar atrasado. Nem sempre produzimos tantos livros. No boletim de Setembro de 1994, Michael Hart escreveu:
- Como sempre, estou aterrorizado com a perspectiva de duplicarmos os nossos resultados para 16 textos electrónicos por mês, precisamos mesmo da vossa ajuda!!!
Isso era quando a meta do Project era de 87 textos electrónicos por mês. Hoje, a nossa meta é caminhar em direcção aos 12 livros electrónicos por dia!
Nos livros após o número 10.000 abandonamos a ideia do "Calendário Mês Ano" e a "Data de Lançamento" ("Release Date") é a data real em que os postamos.