PT-PG PergFreq Ferramentas
Do Project Gutenberg, o primeiro produtor de livros electrónicos (ou livros eletrônicos) grátis.
Contents |
Que programas úteis estão disponíveis para o trabalho no Project Gutenberg?
Estas sugestões vieram em grande medida de uma votação dos voluntários em Junho de 2002. Os programas listados são um sumários dos programas que nós efectivamente utilizamos. Existem muitos outros programas por aí que conseguem fazer o mesmo trabalho, por isso não limite a sua pesquisa apenas a estes.
OCR
Existem três pacotes comerciais principais que as pessoas compraram especialmente para este fim. Em alguns casos, as pessoas tinham versões mais antigas destes, integradas nos seus digitalizadores.
| Abbyy | http://www.abbyy.com |
| OmniPage | http://www.omnipage.com |
| TextBridge | http://www.textbridge.com |
Os utilizadores de Macintosh recorrem-se sobretudo a dois aplicativos diferentes.
| OmniPage | http://www.nuance.com/omnipage/mac/ |
| Readiris | http://www.irislink.com/ |
Estes são pacotes de Software Livre. Algumas pessoas que responderam ao levantamento tinham-nos experimentado, mas ninguém o tinha efectivamente utilizado para produzir um texto.
| Clara OCR | http://www.claraocr.org/ |
| Gocr | http://jocr.sourceforge.net |
Este é interessante--você pode simplesmente submeter a sua imagem através de uma página da Rede e o serviço devolverá um texto de OCR. Todavia, o processo de submissão, esperar pelo seu texto e depois cortar e colar no seu documento, é lento.
| DocMorph -- a free, web-based OCR | http://docmorph.nlm.nih.gov/docmorph/ |
Outros voluntários usam vários programas de OCR que vêm integrados nos digitalizadores.
Editar
As respostas principais, dadas por mais de uma pessoa, foram:
| AbiWord | http://www.abiword.org |
| emacs | |
| Microsoft Word | |
| vi | |
| Windows WordPad | |
| Word Perfect |
Outros editores mencionados incluíam:
| Crisp para Windows | http://www.crisp.demon.co.uk/ |
| Editpad para Windows | http://www.editpadpro.com/ |
| Editplus para Windows | http://editplus.com/ |
| Foxpro 2.6 para DOS | |
| Metapad | http://www.liquidninja.com/metapad/ |
| Windows Notepad |
Os programas recomendados pelos utilizadores da Apple Macintosh incluíam:
| TextWrangler | http://www.barebones.com/products/textwrangler/index.shtml |
| Microsoft Word | http://www.microsoft.com/mac/ |
| Nisus Writer | http://www.nisus.com/ |
| Text-Edit Plus | http://www.tex-edit.com/ |
| TextSpresso | http://www.taylor-design.com/textspresso/overview.htm |
Verificar e rever
Para a ortografia, a maioria das pessoas usa um corrector ortográfico integrado no seu editor ou processador de texto. Os utilizadores *nix que correm emacs ou vi tendiam a usar variantes do comendo ortográfico padrão do Unix, tal como o ispell ou o aspell. Os utilizadores do Mac têm o corrector ortográfico Excalibur, disponível a partir de <http://excalibur.sourceforge.net/>, assim como o que vem integrado com o Microsoft Word.
O Gutcheck <http://gutcheck.sourceforge.net> era usado para confirmação do formato e algumas poucas de pessoas escreveram alguns procedimentos de confirmação por elas próprias.
Trabalhar com HTML
No levantamento, a maioria dos voluntários preferia fazer manualmente os seus HTML usando os seus editores normais. Aqueles que usavam um processador de texto editavam o HTML como texto em vez de comporem um ficheiro com o processador de texto e então o Guardarem Como HTML. Existiu uma unanimidade notável nisto.
Os editores específicos de HTML mencionados para uso ocasional foram:
| Adobe PageMill | já não disponível |
| Mozilla Composer | http://www.mozilla.org |
| HTMLKit | http://www.chami.com/html-kit/ |
| HTMLPad | http://www.intermania.com/htmlpad/ |
Contudo, nem todo o trabalho de HTML tem a ver com a edição e os pacotes seguintes foram generosamente mencionados para outras funções. Especialmente importante é o Tidy, que é bastante preciso para todos, menos para os experientes, para uma verificação rápida do HTML. <http://tidy.sourceforge.net> tem o original, e ligações para versões do Tidy para Windows (Tidy-GUI) e quase todas as outras plataformas.
- GutenMark:
- Converte os testos do Project Gutenberg para HTML e TeX.
- <http://www.sandroid.org/GutenMark/>
- HTMSTRIP by Bruce Guthrie:
- MS-DOS. Converte HTML para texto
- <http://users.erols.com/waynesof/bruce.htm>
- Lynx (lynx --dump):
- Converte HTML para texto
- <http://lynx.browser.org/>
- Dave Raggett's HTML Tidy:
- Verifica a precisão do HTML, reformata e corrige
- <http://tidy.sourceforge.net>
- W3C html2txt (web-based):
- Converte HTML para texto puro.
- <http://cgi.w3.org/cgi-bin/html2txt>
- W3C Validator (baseado na Rede):
- A Última Palavra em precisão de HTML.
- <http://validator.w3.org>
- wget:
- Uma utilidade muito destra para obter páginas de Rede
- <http://www.gnu.org/software/wget/>
Trabalhar com imagens
Existem duas aplicações principais para imagens no PG--imagens para serem utilizadas dentro dos textos, como ilustrações no HTML, e a gestão de imagens de página para a digitalização. Estes pacotes são usados pelos voluntários variavelmente para ambos estes propósitos. É indicado o seu uso típico dentro do PG. Os pacotes de "processamento avançado de imagem" não lhe permitirão editar e restaurar imagens danificadas mas, para o trabalho do PG, precisamos fundamentalmente de geri-las, convertê-las, redimensioná-las e apará-las.
- ACDSEE para Windows
- Para revisão de imagens
- <http://www.acdsystems.com>
- Adobe Photoshop
- Para processamento avançado de imagens
- <http://www.adobe.com/products/photoshop/main.html>
- ImageMagick para *nix, Mac and Windows
- Redimensionar e conversão de formatos
- <http://www.imagemagick.org/>
- Irfanview para Windows
- Visualização, conversão, aparar e redimensionamento
- <http://www.irfanview.com>
- The Gimp
- Para processamento avançado de imagens
- <http://www.gimp.org/>
- Picture Publisher
- Para processamento avançado de imagens
- VuePrint Pro
- Para visualização de imagens
- <http://www.hamrick.com/>
Que programas poderia eu escrever para ajudar no trabalho do PG?
Olhe para os programas listados acima. Consegue escrever uma versão melhor de algum deles? Melhorar os OCR e editores constitui o desafio maior, a não ser que você seja um especialista mundial, mas verificar e reformatar os textos é uma área não visada por programas de larga escala e você pode contribuir aí.
Correndo o risco de parecermos burlescos, a melhor coisa que você pode fazer é descobrir maneiras pelas quais uma maior programação possa ajudar o Project Gutenberg!
Muitos programadores trabalham nos livros do PG e o fácil provavelmente já foi feito. O desafio para os programadores que querem escrever algo que ajude a produzir textos electrónicos não está em escrever o código; está em identificar formas pelas quais os programas possam ajudar.
O que quer que você faça, não ande simplesmente por aí à espera que alguém lhe peça para escrever algo porque isso não irá acontecer, Conceba um projecto, pergunte aos voluntários se eles o usariam e trabalhe com afinco! Ainda melhor, produza você mesmo alguns textos electrónicos, utilizando as ferramentas existentes, e tenha uma sensação do tipo de problemas com os quais novos programas poderiam ajudar.
Poderá aderir à gutvol-p, a nossa lista de correspondência para programadores, para discutir isto com outros programadores.