PT-PG PergFreq Ferramentas

Do Project Gutenberg, o primeiro produtor de livros electrónicos (ou livros eletrônicos) grátis.

Jump to: navigation, search

Contents

Que programas úteis estão disponíveis para o trabalho no Project Gutenberg?

Estas sugestões vieram em grande medida de uma votação dos voluntários em Junho de 2002. Os programas listados são um sumários dos programas que nós efectivamente utilizamos. Existem muitos outros programas por aí que conseguem fazer o mesmo trabalho, por isso não limite a sua pesquisa apenas a estes.

OCR

Existem três pacotes comerciais principais que as pessoas compraram especialmente para este fim. Em alguns casos, as pessoas tinham versões mais antigas destes, integradas nos seus digitalizadores.

Abbyy http://www.abbyy.com
OmniPage http://www.omnipage.com
TextBridge http://www.textbridge.com

Os utilizadores de Macintosh recorrem-se sobretudo a dois aplicativos diferentes.

OmniPage http://www.nuance.com/omnipage/mac/
Readiris http://www.irislink.com/

Estes são pacotes de Software Livre. Algumas pessoas que responderam ao levantamento tinham-nos experimentado, mas ninguém o tinha efectivamente utilizado para produzir um texto.

Clara OCR http://www.claraocr.org/
Gocr http://jocr.sourceforge.net

Este é interessante--você pode simplesmente submeter a sua imagem através de uma página da Rede e o serviço devolverá um texto de OCR. Todavia, o processo de submissão, esperar pelo seu texto e depois cortar e colar no seu documento, é lento.

DocMorph -- a free, web-based OCR http://docmorph.nlm.nih.gov/docmorph/

Outros voluntários usam vários programas de OCR que vêm integrados nos digitalizadores.

Editar

As respostas principais, dadas por mais de uma pessoa, foram:

AbiWord http://www.abiword.org
emacs
Microsoft Word
vi
Windows WordPad
Word Perfect

Outros editores mencionados incluíam:

Crisp para Windows http://www.crisp.demon.co.uk/
Editpad para Windows http://www.editpadpro.com/
Editplus para Windows http://editplus.com/
Foxpro 2.6 para DOS
Metapad http://www.liquidninja.com/metapad/
Windows Notepad

Os programas recomendados pelos utilizadores da Apple Macintosh incluíam:

TextWrangler http://www.barebones.com/products/textwrangler/index.shtml
Microsoft Word http://www.microsoft.com/mac/
Nisus Writer http://www.nisus.com/
Text-Edit Plus http://www.tex-edit.com/
TextSpresso http://www.taylor-design.com/textspresso/overview.htm

Verificar e rever

Para a ortografia, a maioria das pessoas usa um corrector ortográfico integrado no seu editor ou processador de texto. Os utilizadores *nix que correm emacs ou vi tendiam a usar variantes do comendo ortográfico padrão do Unix, tal como o ispell ou o aspell. Os utilizadores do Mac têm o corrector ortográfico Excalibur, disponível a partir de <http://excalibur.sourceforge.net/>, assim como o que vem integrado com o Microsoft Word.

O Gutcheck <http://gutcheck.sourceforge.net> era usado para confirmação do formato e algumas poucas de pessoas escreveram alguns procedimentos de confirmação por elas próprias.

Trabalhar com HTML

No levantamento, a maioria dos voluntários preferia fazer manualmente os seus HTML usando os seus editores normais. Aqueles que usavam um processador de texto editavam o HTML como texto em vez de comporem um ficheiro com o processador de texto e então o Guardarem Como HTML. Existiu uma unanimidade notável nisto.

Os editores específicos de HTML mencionados para uso ocasional foram:

Adobe PageMill já não disponível
Mozilla Composer http://www.mozilla.org
HTMLKit http://www.chami.com/html-kit/
HTMLPad http://www.intermania.com/htmlpad/

Contudo, nem todo o trabalho de HTML tem a ver com a edição e os pacotes seguintes foram generosamente mencionados para outras funções. Especialmente importante é o Tidy, que é bastante preciso para todos, menos para os experientes, para uma verificação rápida do HTML. <http://tidy.sourceforge.net> tem o original, e ligações para versões do Tidy para Windows (Tidy-GUI) e quase todas as outras plataformas.


GutenMark:
Converte os testos do Project Gutenberg para HTML e TeX.
<http://www.sandroid.org/GutenMark/>
HTMSTRIP by Bruce Guthrie:
MS-DOS. Converte HTML para texto
<http://users.erols.com/waynesof/bruce.htm>
Lynx (lynx --dump):
Converte HTML para texto
<http://lynx.browser.org/>
Dave Raggett's HTML Tidy:
Verifica a precisão do HTML, reformata e corrige
<http://tidy.sourceforge.net>
W3C html2txt (web-based):
Converte HTML para texto puro.
<http://cgi.w3.org/cgi-bin/html2txt>
W3C Validator (baseado na Rede):
A Última Palavra em precisão de HTML.
<http://validator.w3.org>
wget:
Uma utilidade muito destra para obter páginas de Rede
<http://www.gnu.org/software/wget/>

Trabalhar com imagens

Existem duas aplicações principais para imagens no PG--imagens para serem utilizadas dentro dos textos, como ilustrações no HTML, e a gestão de imagens de página para a digitalização. Estes pacotes são usados pelos voluntários variavelmente para ambos estes propósitos. É indicado o seu uso típico dentro do PG. Os pacotes de "processamento avançado de imagem" não lhe permitirão editar e restaurar imagens danificadas mas, para o trabalho do PG, precisamos fundamentalmente de geri-las, convertê-las, redimensioná-las e apará-las.

ACDSEE para Windows
Para revisão de imagens
<http://www.acdsystems.com>
Adobe Photoshop
Para processamento avançado de imagens
<http://www.adobe.com/products/photoshop/main.html>
ImageMagick para *nix, Mac and Windows
Redimensionar e conversão de formatos
<http://www.imagemagick.org/>
Irfanview para Windows
Visualização, conversão, aparar e redimensionamento
<http://www.irfanview.com>
The Gimp
Para processamento avançado de imagens
<http://www.gimp.org/>
Picture Publisher
Para processamento avançado de imagens
VuePrint Pro
Para visualização de imagens
<http://www.hamrick.com/>

Que programas poderia eu escrever para ajudar no trabalho do PG?

Olhe para os programas listados acima. Consegue escrever uma versão melhor de algum deles? Melhorar os OCR e editores constitui o desafio maior, a não ser que você seja um especialista mundial, mas verificar e reformatar os textos é uma área não visada por programas de larga escala e você pode contribuir aí.

Correndo o risco de parecermos burlescos, a melhor coisa que você pode fazer é descobrir maneiras pelas quais uma maior programação possa ajudar o Project Gutenberg!

Muitos programadores trabalham nos livros do PG e o fácil provavelmente já foi feito. O desafio para os programadores que querem escrever algo que ajude a produzir textos electrónicos não está em escrever o código; está em identificar formas pelas quais os programas possam ajudar.

O que quer que você faça, não ande simplesmente por aí à espera que alguém lhe peça para escrever algo porque isso não irá acontecer, Conceba um projecto, pergunte aos voluntários se eles o usariam e trabalhe com afinco! Ainda melhor, produza você mesmo alguns textos electrónicos, utilizando as ferramentas existentes, e tenha uma sensação do tipo de problemas com os quais novos programas poderiam ajudar.

Poderá aderir à gutvol-p, a nossa lista de correspondência para programadores, para discutir isto com outros programadores.