PT-PG PergFreq de Digitalização

Do Project Gutenberg, o primeiro produtor de livros electrónicos (ou livros eletrônicos) grátis.

Jump to: navigation, search

Contents

S.1. O que é um digitalizador?

Um digitalizador (/escaner) é uma máquina que gera uma imagem, uma fotografia da página que você lhe dá, e envia essa imagem para o seu computador. Apenas gera uma imagem, como uma máquina fotográfica; não transforma a imagem em texto.

S.2. Que tipos de digitalizadores existem?

O tipo mais comum de digitalizadores, aquele que mais provavelmente encontrará na sua loja de informática, é o digitalizador plano. Tem uma placa de vidro normalmente um pouco maior do que o tamanho de papel de Carta (ou A4, se preferirem, na Europa! :-) e a maioria dos modelos comuns são optimizados para correspondência típica de escritório. Um destes pode custar qualquer coisa entre os 100 e os 400 dólares, dependendo das suas características, ou pode arranjá-los mais baratos, em segunda-mão. Utiliza-se colocando no vidro o papel do livro, de barriga para baixo, na horizontal, e digitaliza-se a partir daí. Este é o tipo de digitalizador mais habitualmente utilizado pelos voluntários do PG.

Algumas lojas atribuirão uma categoria diferente aos digitalizadores de folhas soltas. Estes são digitalizadores de mesa com Alimentação Automática de Documentos (ADF) ("Automatic Document Feed"), mas são fundamentalmente a mesma máquina e a unidade ADF de alimentação de folhas pode frequentemente ser comprada como um acessório do digitalizador plano. Recentemente, apareceram alguns digitalizadores de folhas soltas muito pequenos, sem a placa inteira, mas apenas com uma faixa estreita pela qual o papel rola. Evite-os para o trabalho do PG; você precisa frequentemente de conseguir digitalizar o livro achatado.

Os digitalizadores de mão, como o seu nome indica, são muito mais pequenos e habitualmente muito baratos ou mesmo dados de graça. estes usam-se pegando neles com a mão e percorrendo o texto com ele como uma escova. Estes não se destinam mesmo ao trabalho do PG; você precisaria de um movimento de mãos muito firme para digitalizar uma imagem numa imagem legível e estes não deveriam ser considerados uma opção para um livro de 400 páginas — digitalizar e fazer o OCR já é suficientemente difícil mesmo sem isso!

Você pode também ter em conta digitalizadores de produção, tais como digitalizadores planos de capacidade industrial. Os mecanismos básicos são os mesmos, mas um digitalizador de produção terá certamente ADF (alimentador de folhas) e mais características e rapidez, e estar classificado para digitalizações de grande volume. Os digitalizadores industriais são utilizados por editoras, negócios com necessidade de processamento de grandes volumes de papel, e reprografias. As últimas são úteis, pois poderá conseguir que lhe façam algumas digitalizações numa reprografia. Perguntar não custa. Se gostaria de comprar um destes meninos (e quem não gostaria? :-), assegure-se que tem 2000 dólares ou mais para gastar.

Os digitalizadores de tambor são utilizados pelos editores para trabalhos artísticos profissionais de alta qualidade. O papel é colocado na superfície do tambor que roda em torno de uma cabeça de digitalização fixa. O tambor pode ser muito grande. Uma vez que os sensores não têm de se mexer, a electrónica e óptica podem ser de alta qualidade e produzem imagens muito rigorosas, de alta definição. São precisamente aquilo que você pretenderia para fazer digitalizações com qualidade profissional de cartazes de filmes antigos, mas são caros, e não muito úteis para digitalizar o Guerra e Paz com vista a um OCR.

Os digitalizadores planetários são de uma raça diferente de todos os outros. Na verdade, não são, de todo, digitalizadores, mas uma câmara digital muito sofisticada com um apoio. Você coloca o livro virado para cima com as páginas abertas, com a câmara virada directamente para baixo, para ele. Tira uma fotografia e passa-a para um computador ligado a ela. Os digitalizadores planetários são óptimos para livros velhos, frágeis e valiosos que não podem ser expostos à tensão da digitalização normal. Geralmente são fornecidos com programas especializados e por vezes até com o seu próprio computador dedicado e são muito, muito, caros — mais de 20.000 dólares.

S.3. Que digitalizador devo comprar?

Para a maior parte das pessoas, a resposta é simples. A não ser que tenha muito dinheiro e tenha a certeza que irá digitalizar muitos livros, deverá obter um digitalizador de mesa normal, plano, do género que se destina a consumidores ou escritórios, com ou sem um alimentador de folhas ADF.

Assim que decidir isso, terá de enfrentar a questão de que digitalizador comprar. Mais boas notícias! O mercado de digitalizadores é muito competitivo e existem muitos fornecedores de primeira linha a olharem para as características uns dos outros como falcões, ávidos por lançarem as máquinas mais cheias de especificidades que conseguirem. Existem apenas alguns factores críticos nesta decisão — a maior parte dos quais prendem-se com fazer a melhor compra.

Para os trabalhos do PG, você necessita, mesmo, de uma resolução óptica não inferior a 300 por 300 dpi (pontos por polegada — em Inglês: "dots per inch") e 600 por 600 é o mais aconselhável. Obviamente, ter mais é melhor, mas é muito raro precisar de mais de 600 dpi de resolução para o trabalho do PG. Não dê atenção à resolução "interpolada" ou "avançada", em que o programa "adivinha" que pontos deveriam preencher as lacunas — você está apenas interessado na resolução óptica. A boa notícia é que é muito difícil encontrar digitalizadores modernos com uma resolução máxima inferior a 600 dpi, mas se está a comprar um em segunda-mão, deverá conferir isto primeiro.

Também irá precisar de uma superfície de digitalização do vidro suficientemente grande para colocar o seu livro com duas páginas achatadas de face para baixo. Mais uma vez, a boa notícia é que é muito difícil encontrar digitalizadores planos cuja superfície de digitalização seja demasiado pequena para o trabalho do PG, uma vez que estes digitalizadores tendem a ser desenhados para lidar com papel de escritório, que tem aproximadamente o tamanho certo. Quase todos os digitalizadores planos têm superfícies de 21,59 cm por 29,21 cm e isto é a regra no trabalho para o PG. Se você estiver a trabalhar com livros com páginas muito grandes, poderá ter de se resignar a digitalizar uma página de cada vez, mas comprar um digitalizador com uma placa maior para estas ocasiões raras pode ser muito mais caro.

Deve assegurar-se que compra um digitalizador que irá ligar-se correctamente ao seu computador. Existem quatro tipos principais de ligações habitualmente disponíveis: SCSI, USB, FireWire (IEEE 1394) e paralela.

A SCSI ("Small Computer Systems Interface") é a opção de mais elevada qualidade, mas significa que precisa de ter um cartão SCSI no seu computador e que precisa de estar disposto a descobrir como instalá-lo. Se você já é um entusiasta da SCSI, não precisa de ler mais; se não é, sugiro que a evite, a não ser que goste de remendar coisas. Os digitalizadores de produção exigem, quase todos, uma SCSI.


As conexões por porta paralela eram habitualmente comuns, como uma alternativa mais barata e fácil às SCSI. Desde a introdução da USB, tornaram-se raras, mas ainda as verá à venda em segunda-mão. Aquelas ligam-se à porta da sua impressora e não precisam de mais nenhumas habilidades de engenharia.

A maioria dos digitalizadores conecta-se usando uma interface USB ("Universal Serial Bus"), que é uma opção sem confusões nem agitações, "liga e siga"; mas, se tiver um computador velho, verifique se ele tem mesmo uma porta USB e se o seu sistema operativo a suporta; alguns PC Windows e Macs mais antigos podem não a suportar. Se o seu PC não suporta USB, talvez deva ver digitalizadores de porta paralela.

Se estiver a comprar em segunda-mão — e os digitalizadores usados podem ser muito baratos — certifique-se completamente que obtém também os programas que vinham com ele e que esses programas irão funcionar com o seu sistema operativo actual no seu PC.

Tendo-se assegurado que a sua escolha de digitalizadores passa os testes, pode agora satisfazer os seus gostos relativamente a quaisquer extras de que goste. Características de cor são boas, mas raramente são utilizadas, uma vez que transcrevemos, fundamentalmente, livros antigos que não têm impressões a cores. Também sabe bem ter altas resoluções, tanto porque poderá ocasionalmente acha-las úteis, como porque mostram que a óptica é de uma qualidade maior do que aquela que realmente precisa para as digitalizações do PG.

Se escolher o digitalizador o deixa nervoso, ou quão fácil é pôr um a trabalhar, esteja à-vontade para contactar outros voluntários do PG para saber as suas opiniões, tal como descrito na FAQ "How do PG volunteers communicate?" [V.12].

S.4. O que é um ADF?

ADF significa Alimentação Automática de Documentos ("Automatic Document Feed") e é apenas termo de jargão para um alimentador de folhas, no qual você coloca um molho de páginas para serem digitalizadas e se vai embora enquanto isso acontece em vez de colocar cada página manualmente.

S.5. Devo comprar um ADF?

Isso depende. Sim, o ADF é uma óptima ideia e pode ser um enorme poupador de tempo e se você tem o dinheiro para dar pode muito bem valer a pena. Mas o ADF tem um pequeno segredo: tal como qualquer outro equipamento com partes que se movem, ocasionalmente encrava. Os alimentadores de folhas embutidos nestas máquinas de baixo custo destinam-se a tratar de papel de escritório típico directamente da impressora a laser — grandes, finas, de boa qualidade, com um corte perfeito e bordos perfeitamente alinhados. No seu trabalho no PG, você estará a lidar com páginas de cem anos, de várias espessuras e texturas, normalmente muito mais pequenas do que o que o alimentador de folhas foi desenhado para trabalhar. E você terá de ter cortado as páginas e pode ter deixado os bordos ásperos ao fazê-lo.

Nestas condições, pode descobrir que o papel encrava frequentemente no seu alimentador de folhas, o que anula o objectivo, se você tem de estar ao pé do digitalizador enquanto ele trabalha ou se você acaba por ter de levantar a tampa e usar o digitalizador como um plano, normal ou, pior, se o seu papel fica todo amachucado como se o cão tivesse estado a brincar com ele.

E, claro, para o alimentar com as páginas, vai ter de as cortar do livro, destruindo-o. (Pode ser possível, com a ajuda de uma guilhotina, ter as páginas cortadas profissionalmente e mais tarde reencaderná-las.)

Com o ADF, você não irá provavelmente digitalizar mais rapidamente do que com um plano mas não precisará de ficar a virar as páginas durante esse tempo.

Por isso, quando estiver a fazer essa escolha, pense com cuidado. Se o dinheiro não é um problema, ou você espera mesmo trabalhar com folhas cortadas, então vá em frente e adquira um alimentador de folhas — é óptimo quando funciona! Mas não fique desapontado quando não funcionar sempre.

S.6. O que é um "controlador TWAIN" e porque preciso de um?

Um controlador TWAIN (veja twain.org) é um programa que se instala no seu PC Windows ou Mac e que controla o seu digitalizador a partir daí. Com qualquer digitalizador moderno, existirá um controlador TWAIN incluído no seu pacote de programas. Uma vez instalado, você não deverá ter de pensar nisso novamente ou mesmo saber que está lá.

Um pacote de OCR moderno encontrará normalmente o seu controlador TWAIN e utilizá-lo-á para controlar o digitalizador. Isto é muito útil. Também, poderá existir um pequeno pacote de digitalização com o seu controlador TWAIN, que lhe fornecerá um monitor no qual você poderá fazer óptimos ajustes às definições do digitalizador e começar as digitalizações. Provavelmente não precisará disto uma vez que o pacote de OCR irá provavelmente fazê-lo por si, mas pode ser útil para um controlo semi-manual do digitalizador.

Os sistemas baseados no Unix como o Linux usam o SANE (http://www.mostang.com/sane/) em vez de controladores TWAIN.

S.7. Como digitalizo um livro?

Depende se você cortou as páginas ou se está a trabalhar com um livro intacto.

Se cortou as páginas, e tem um ADF, então irá, obviamente, alimentá-lo com elas.

Se não tem um ADF, não existe normalmente muita utilidade em cortar as páginas. A maioria dos OCR modernos irá reconhecer uma digitalização de "página dupla" ou "duas páginas lado a lado" e, se reconhecer, então é, normalmente, a melhor solução. Digitalizar o livro não cortado, aberto e espalmado, é o método de digitalização mais comum utilizado no PG.

Peque no livro e coloque-o aberto, espalmado, no vidro do digitalizador. Para ajustar ambas as páginas no vidro , poderá ter de o posicionar ao comprido, a 90 graus do seu ângulo normal. A maioria dos programas de OCR reconhecerá que a imagem foi rodada para um ângulo à direita e corrigi-la-á quando ler o texto.

Um problema comum ao digitalizar um livro aberto é o "escurecimento do lombo" ("guttering"), que acontece quando a lombada do livro não é pressionada suficientemente espalmada e o interior de cada página, onde toca na lombada, fica curvado contra o vidro. Temos mais acerca disto e um exemplo, o scan3, na FAQ [S.17] "Why am I getting a lot of mistakes in my OCRed text?" Para evitar o escurecimento dos lombos, assegure-se que a lombada é pressionada durante a digitalização. (Algumas pessoas usa um peso na lombada para manter a lombada em baixo em todas as digitalizações; outras, pressionam simplesmente com a mão.)

Outro problema habitual é a dispersão da luz, quando entra muita luz no digitalizador. A cabeça do digitalizador detecta a luz e você quer que a única fonte interna de luz seja a do próprio digitalizador, não a luz ambiente do seu quarto ou do Sol. Os digitalizadores possuem coberturas que se destinam a ser fechadas durante a digitalização para obter um nível de luz controlado, mas, quando você está a digitalizar um livro aberto e espalmado, não consegue fechar a cobertura completamente. Num caso mau, isto pode levar a um problema de digitalização como o da sobrexposição de uma película e você pode ver um exemplo no scan4 da FAQ [S.17] "Why am I getting a lot of mistakes in my OCRed text?". Se isto acontecer, assegure-se simplesmente que o seu quarto fica obscuro enquanto digitaliza — não tenha um raio de Sol a saltitar no interior do digitalizador!

Ocasionalmente, quando estiver a digitalizar páginas cortadas com um papel muito fino, você pode ficar com uma sombra do texto que se encontra no outro lado à mostra. Se isto acontecer, você pode tentar cobrir o interior da tampa do digitalizador, que é normalmente branca, com um pedaço de papel preto.

Muitos pacotes modernos do OCR controlarão o digitalizador automaticamente e você talvez consiga definir o seu OCR para que este faça digitalizações automáticas temporizadas, digamos, a cada 30 segundos. Isto poupa imenso tempo uma vez que não precisa de andar para trás e para a frente entre o digitalizador e o monitor. Defina simplesmente o seu temporizador, segure no livro virado para baixo para a digitalização, levante o livro, vire a página, pouse-o novamente e espere que a próxima digitalização comece. Defina o temporizador para o intervalo com o qual se sente confortável. Altamente recomendável se o seu pacote de OCR ou de digitalização o poder fazer.

Por definição, a maioria dos digitalizadores digitalizam sempre toda a área do vidro mas, normalmente, o seu livro ocupará apenas metade. Procure por uma definição no seu programa de OCR ou digitalização que lhe permita reduzir a área que a cabeça digitaliza. Digitalize apenas o necessário para ter a imagem das suas páginas. Isto diminuirá o tempo de cada digitalização e o reconhecimento de OCR subsequente e, num caso mesmo bom, poderá reduzir o tempo total de digitalização e OCR para metade.

Digitalizar todas as páginas de uma vez costuma ser mais rápido, mas você poderá preferir digitalizar cada conjunto de duas páginas, corrigi-las no editor do seu pacote de OCR e digitalizar depois o seguinte. Esta abordagem mais vagarosa é preferida por alguns voluntários.


S.8. O meu livro não fica suficientemente aberto para fazer uma boa digitalização e não quero cortar as páginas.

Bem, então você tem de fazer uma escolha difícil mas tem na mesma várias opções:

Pode aceitar uma digitalização de baixa qualidade e perder montes de tempo a corrigir o escurecimento do lombo e as margens.

Pode agarrar o boi pelos cornos e cortar as páginas.

Pode digitar o livro ou encontrar um dactilógrafo que o faça por si.

Pode encontrar uma loja se impressões ou um encadernador que lhe corte as páginas profissionalmente e reencaderne quando você terminar. Pode até recuperá-lo com uma capa novinha em folha, que dê ao livro uma nova vida.

Decida como entender.

A maioria de livros abrirão plano o suficiente para fazer uma digitalização adequada, embora possa ter de aplicar alguma pressão na lombada para o fazer.

Se tiver um livro realmente precioso, e não puder encontrar um digitador, pode ter em conta a utilização de uma câmara digital [S.11] ou um digitalizador planetário [S.2] para o digitalizar para si.

O Michael Hart dizia: "Adbicaria de todos os livros que possuo, incluindo a minha primeira edição do Oxford English Dictionary, a minha edição da Guerra Civil do "Unabridged" de Merriam Webster etc., etc., etc., para que outra pessoa os pudesse usar sempre que pretendessem em vez de apenas eu ou os meus amigos o podermos utilizar . . . e, obviamente, eu poderia usá-lo também."

Felizmente, raramente chega a esse ponto.

S.9. Quanto tempo demora a digitalizar um livro?

Colocar o livro espalmado no vidro significa que conseguirá digitalizar duas páginas de cada vez. Um digitalizador razoavelmente moderno digitalizará a área de duas páginas típicas a 400dpi em qualquer coisa entre os 20 e os 40 segundos — digamos, 30 segundos para duas páginas. Isso faz quatro páginas por minuto ou 240 páginas por hora. Você poderia passar razoavelmente um livro de 400 páginas em duas horas, mesmo permitindo-se a uma pausa ou falhas ocasionais.

Claro, deverá também perder um tempo para digitalizar mas poucas de páginas de teste com definições diferentes antes de começar para decidir que definições utilizar. Dez minutos passados nisto podem poupar-lhe horas de tempo de revisão.

Há duas grandes dicas que lhe podem poupar montes de tempo de digitalização:

Se o seu OCR ou pacote de controlo do digitalizador têm um temporizador, que continue a digitalização automaticamente sem a intervenção do utilizador, pode esquecer o monitor e ficar simplesmente a virar as páginas à medida que for necessário.

Deve configurar o seu digitalizador apenas para digitalizar a área que o livro cobre no vidro. Por definição, o seu programa irá provavelmente digitalizar a área do vidro inteira e, normalmente, o seu livro não precisará disso. Ao digitalizar apenas o que necessita, poderá poupar normalmente algo entre os 20 e os 70% do tempo que demoraria a digitalizar a área inteira. Se o seu livro for suficientemente pequeno para permitir ser aberto espalmado ao longo do digitalizador em vez de de lado, 400 páginas por hora não estão fora de questão com este truque.

S.10. Que definições do digitalizador são as melhores?

Para um dado livro, digitalizador, PC ou programa de OCR, devem existir algumas definições "ideais" mas se você mudar algum destes componentes, as definições ideais do digitalizador irão mudar igualmente, Alguns pacotes de OCR reconhecem a escala de cinza melhor do que o branco e preto; alguns não gostam de todo da escala de cinza. Alguns livros têm letras pequenas que precisam de uma maior resolução; alguns estão manchados pelo que uma resolução maior leva a mais erros.

Obviamente que as melhores definições dependem sempre do livro em concreto e alguns livros irão exigir que você seja absolutamente criativo nas definições mas a maior parte dos livros do PG são digitalizados a Preto e Branco ou a escala de cinza, algures entre os 300dpi e 600dpi.

Esta decisão é um meio-termo entre a velocidade e a exactidão e uma manifestação da diferença entre os princípios e a prática. Em princípio, uma digitalização a todas as cores e 9600dpi dá uma versão muito melhor de uma página do que uma digitalização a P&B a 400dpi. Na prática, toda essa informação extra, normalmente, não ajuda o OCR a fazer melhores distinções entre as letras e quanto maior e mais detalhada for a digitalização, mais tempo demora a digitalizar e mais espaço em disco ocupa o ficheiro de imagem e mais tempo de processamento e memória o pacote de OCR necessita para a reconhecer.

Surge um paradoxo adicional quando se consideram resoluções altas vs. baixas: dependendo do tipo de papel e da qualidade da tinta, você pode ver mais erros a começara parecer em digitalizações de resolução muito elevada. Estes são causados por pequenas imperfeições no papel ou na pontos de tinta que aparecem nas digitalizações de alta resolução e o OCR tenta interpretá-los como letras ou pontuação.

Por isso, em suma, maior é melhor, mas só até certo ponto.

A luminosidade é uma definição muitas vezes negligenciada, que pode fazer uma grande diferença nos seus resultados. Olhe para a imagem digitalizada: se vir muitas pintas escuras, aumente a luminosidade da sua digitalização; se as suas letras aparecerem finas e esbatidas, escureça a sua digitalização.

Veja a FAQ [S.17] "Why am I getting a lot of mistakes in my OCRed text?" para algumas digitalizações e resultados típicos.

S.11. Posso usar uma câmara digital em vez de um digitalizador?

As câmaras digitais estão todos os dias a ficar com melhor resolução e alguns voluntários experimentaram fazer uma espécie de digitalizador planetário caseiro com uma câmara digital e um apoio. Até agora, os resultados não se equiparam propriamente a um digitalizador dedicado à medida que as câmaras digitais melhoram isto pode vir a ser uma opção comum. Um problema, que os digitalizadores planetários usam programas especializados para corrigir, é que a curva natural das páginas perto do meio do livro tende a dar um aspecto condensado ás letras que se encontram aí, o que pode causar problemas ao programa de OCR, tal como o escurecimento do lombo.

Apesar dos problemas actuais, a perspectiva de usar câmaras digitais é excitante porque isso significará que os não-dactilógrafos serão capazes de produzir livros antigos emprestados a partir de bibliotecas sem se preocuparem com a qualidade da digitalização vs. danos na lombada.

S.12. O que é um OCR?

OCR significa Reconhecimento Óptico de Caracteres ("Optical Character Recognition"). Este é um programa muito importante que olha para um retrato da página que o seu digitalizador forneceu, e transforma-o em texto.

Quando o digitalizador dá a imagem da página, essa imagem é apenas um retrato. Você não pode, por exemplo, pesquisar por texto que ele contenha, ou editar o texto para adicionar uma linha em branco. O seu editor ou processador de texto não pode trabalhar com ele. O programa do OCR faz o trabalho de "ler" e "escrever" a imagem por si. Os programas de OCR chamam a isto "leitura" ou "reconhecimento".

S.13. Que diferenças existem entre pacotes do OCR?

Numa palavra: imensas. Todos os pacotes de OCR fazem o mesmo trabalho mas fazem-no de formas diferentes, com características diferentes e com diferentes níveis de exactidão. O OCR pode poupar-lhe imenso tempo, ou custar-lhe imenso tempo. Vale mesmo a pena dedicar algum esforço a assegurar-se que adquire o pacote de OCR correcto e, assim que o tiver, entender como o usar. Isto ir-lhe-á poupar tempo a longo prazo.

S.14. Quão exacto deve ser o OCR?

Os pacotes de OCR dizem frequentemente que são "99%+" exactos, ou algo como isso. Vamos analisar o que isso realmente significa: digamos que existem 1.000 caracteres (letras) em cada página, então, com uma exactidão de 99,9%, você deverá esperar ter de fazer 1 correcção por página. Com uma exactidão de 99%, isso seria mais de 10 correcções por página. E num livro de 400 páginas, tudo isto aumenta.

Mas isso inclui uma cláusula "Poderá Variar Consoante o Seu Sistema". Tipicamente, os fabricantes testam os seus OCR em cópias novas, impressas a laser ou imprensa, com digitalizações perfeitas e isto é legítimo, visto que eles orientam os seus produtos em primeiro lugar para negócios que processam este tipo de materiais. Você não estará a lidar com impressões novas; estará desde logo a lidar com livros velhos, amarelecidos, manchados, marcados, com impressões imperfeitas, e possivelmente que utilizam ou com tipos de letra fora do comum. E é improvável que você tenha paciência para obter uma digitalização perfeita de cada página. O resultado é que a exactidão dp OCR para uma obra típica do PG não corresponde com a exactidão de imagens de papel perfeito e novo.

Para além da qualidade da digitalização, o OCR também tem de bulir com os diferentes tipos e tamanhos das letras.

Contudo, se você estiver a receber mais de 10 erros por página, deverá ver alguns exemplos de OCR na FAQ [S.17] "Why am I getting a lot of mistakes in my OCRed text?".

S.15. Que pacote de OCR devo adquirir?

A exactidão do programa de OCR melhorou enormemente nos últimos anos e a tecnologia de OCR parece vir a melhorar provavelmente mais rapidamente do que a dos programas em geral. Para mais, existe competição nessa área e os produtos passam à frente uns dos outros regularmente com novas versões. As marcas mais frequentemente mencionadas pelos voluntários do OPG (meados de 2002) são o Abbyy, OmniPage e TextBridge [P.1] e estiveram disponíveis para descarga na Rede versões de avaliação de todos estes tês e talvez ainda estejam quando você ler isto. [Aviso: estas descarregar são grandes — 40MB ou mais.]

OS pacotes de OCR mais comuns oferecerão duas opções de trabalho principais: digitalizar a a página e ver/editar o texto resultante no próprio sítio antes de a salvar, e digitalizar todo um grupo de páginas, juntas, e vê-las/editá-las todas mais tarde. Algumas pessoas gostam de corrigir uma página de cada vez, outras preferem fazer todo o trabalho de OCR de uma vez e colocar depois todo o texto nos seus editor. A maior parte dos programas de OCR fornecerão possibilidades para ambas e se isto é importante para si, deve verificar se o OCR que está a comprar suporta a forma pela qual quer trabalhar.

Se tenciona trabalhar numa língua que não o Inglês, certifique-se que o OCR que comprar suporta os caracteres da sua língua.

Alguns programas de OCR têm um modo de "treino" ou "aprendizagem". Usando este modo, ele digitaliza e "lê" ou "reconhece" uma página, então você corrige essa página e o OCR "aprende" com os seus erros e tenta fazer melhor nas letras que ele interpretou mal quando as reconhecer na página seguinte. Se você está a lidar com uma fonte muito rara, isto poderá fazer a diferença na qualidade do seu OCR, mas os pacotes de OCR modernos vêm com um conhecimento de tipos de letra incluído suficiente para a maioria das línguas e você provavelmente não precisará disto.

Se possível, tente alguns pacotes de OCR antes de se decidir. Se quiser opiniões sobre versões específicas, contacte outro voluntário do PG e pergunte-lhe pela sua opinião, como descrito na FAQ "How do PG volunteers communicate?" [V.12].

S.16. Que tipos de erros cometem tipicamente os pacotes de OCR?

Cada texto tem as suas próprias particularidades mas existe um número de erros de digitalização bem conhecidos com os quais você estará sempre a lidar.

A pontuação é sempre um problema. Pontos, aspas e ponto-e-vírgulas são muitas vezes confundidos, assim como vírgulas e ponto-e-vírgulas. Também costuma haver um número de espaços extra ou em falta no texto electrónico.

O problema das aspas pode assumir proporções de pesadelo num texto que contenha muito diálogo, particularmente quando estão aninhados.

O número 1, a letra minúscula l, o ponto de exclamação ! e a maiúscula I são rotineiramente confundidas e, muitas vezes, aspas duplas ou simples podem ser confundidas com algum daqueles.

A minúscula m é muitas vezes confundida com rn ou ni.


As letras h e b e e e c são frequentemente mal lidas e estas são provavelmente, de todas, as mais difíceis de apanhar, uma vez que ear/car, eat/cat, he/be, hear/bear, heard/beard são todas palavras inglesas comuns que nenhum corrector ortográfico marcaria como problemas.

Por exemplo:

" Hello1' caIled jirnmy breczily.  11Anyone home ? "

There seemed to he no-oneabout. Only tbe eat beard him."

deveria ser lido:

"Hello!" called Jimmy breezily, "Anyone home?"

There seemed to be no-one about. Only the cat heard him.

S.17. Porque estou a ficar com montes de erros no meu texto resultante do OCR?

Se você é novato no OCR, pode ter a ideia que o OCR é quase perfeito e que apenas faz alguns erros aqui e acolá. Não. É vagamente estupendo quando o OCR funciona simplesmente e, quando funciona, não é perfeito.

Pode razoavelmente esperar uma média de algo até aos 10 erros por página para uma obra típica do PG; se estiver a ver mais, então há um problema com

Os problemas com os livros impressos caem em três categorias: má impressão, idade, ou fontes fora do habitual. A má impressão consiste em problemas como muita ou muito pouca tinta na prensa no momento em que o livro foi impresso e irregularidades na impressão no sítio em que o tipo de metal estava danificado. A idade provoca o amarelecimento — até mesmo o acastanhamento — do papel ou impressão esbatida. As fontes fora do comum podem ser difíceis para o OCR reconhecer e uma impressão pouco espaçada pode fazer com que as letras adjacentes pareçam tocar-se, o que confunde o programa de OCR.

Há muitas formas pelas quais você pode ter problemas com o digitalização. Obviamente, se o seu digitalizador tiver defeito ou o vidro estiver sujo, você irá aperceber-se imediatamente, mas existem muitos erros que você pode fazer que resultarão numa imagem de má qualidade e causar problemas mais tarde ao seu OCR.

Você pode não conseguir controlar a qualidade do papel com o qual em de trabalhar, mas há muitas coisas que pode fazer quanto à qualidade da sua digitalização.

Os dois erros que as pessoas inexperientes com os digitalizadores cometem mais frequentemente são não pressionar a lombada do livro o suficiente para obterem uma imagem plana do papel e não definir a luminosidade correctamente ou deixar entrar muita luz. Nas suas primeiras digitalizações, tenha atenção a estes problemas.

Em primeiro lugar, se ainda não o fez, leia a FAQ "How do I scan a book?" [S.7] e verifique aí se está a seguir as recomendações básicas.

Agora olhemos para alguns exemplos e vejamos que tipos de problemas você poderá encontrar.

Uma retratação quanto a estas amostras: os pacotes específicos de OCR são nomeados mas você não deve tomá-los como uma revista comparativa clara e compreensiva do programa. O objecto deste exercício é mostrar condições típicas de digitalização e problemas e o OCR resultante, Os pacotes de OCR têm uma grande faixa de variações dentro deles próprios, podem funcionar melhor nuns textos do que noutros, podem melhorar com o "treino" ou definições diferentes e eu até já vi o mesmo pacote de OCR produzir texto diferente da mesma imagem com as mesmas definições! Para além disso, uma vez que a qualidade dos OCR está a melhorar rapidamente, e os pacotes passam à frente uns dos outros em qualidade, a versão seguinte de uma marca particular pode ser largamente melhor do que a dos programas mencionados aqui. É de particular interesse neste contacto o salto de qualidade entre o OmniPage 10 e o OmniPage 11.

Digitalização 1 — Uma digitalização perfeita

A digitalização 1 está tão próxima do perfeito quanto você pode esperar num trabalho do PG. Vem do The Founder of New France de Charles W. Colby. É apenas uma imagem a 300 dpi, mas dada a qualidade da impressão e do digitalizador, 300 dpi é tudo do que precisamos. Ironicamente, veio de Gardner Buchanan, que se queixa da idade e enfermidade do seu digitalizador na sua descrição de como produz um texto. A moral é que você não precisa de ter o último equipamento para obter bons resultados!

Não precisa de nenhum comentário e todos os pacotes, com excepção do gocr, apresentaram-no na perfeição. Note o "espaço" falso antes do ponto e vírgula — se olhar atentamente para a imagem, verá por que o pacote de OCR o tomou erradamente por um espaço completo, como discutido na FAQ [V.104] "My book leaves a space before punctuation like semicolons, question marks, exclamation marks and quotes. Should I do the same?"

Champlain was now definitely committed to
the task of gaining for France a foothold in
North America. This was to be his steady
purpose, whether fortune frowned or smiled.
At times circumstances seemed favourable ;
at other times they were most disheartening.
Hence, if we are to understand his life and
character, we must consider, however briefly,
the conditions under which he worked.

O gocr 0.3.6 converteu isto como:

Champtain was now definitely committed to
the task of gaining for France a foothotd in
_orth America.  This was to be his steady
purpose, whether fortune frowned or smiled.
At times circumstances seemed favourable .,
at other times they were most disheartening.
_ence, if we are to understand his life and
character, we must consider, however brieRy,
the conditions under which he worked.

Digitalização 2 — Uma digitalização típica

A digitalização 2 é um parágrafo do Castles in the Air de Baroness Orczy. Repare no borrão de tinta acima da maiúscula "I" na primeira linha, que dará ao seu OCR alguns problemas. A página também está desigualmente preenchida por tinta algures e eu digitalizei-a com o nível de tinta um pouco elevado.

Fiz duas digitalizações separadas, uma a 300 dpi e outra a 400 dpi, ambas a preto e branco. A página foi cortada perfeitamente e cuidadosamente colocada directamente no vidro do digitalizador com a tampa para baixo. A impressão original tem algo entre os tamanhos Times New Roman 10 e 11, com maiúscula com cerca de 2,2 milímetros de altura, mas espaçadas melhor e com mais clareza. Estas digitalizações são bastante típicas do trabalho do PG. Devido às relativamente grandes letras e á digitalização razoável, não há muita diferença entre o texto produzido a partir da digitalização a 300 dpi e a 400 dpi.

Na verdade, cortei o livro para ficar com as páginas de fora de forma a poder alimentar o meu ADF com elas mas o papel é tão grosso e com textura que se cola um ao outro e encrava quando está a alimentar. O papel grosso e absorvente, combinado com uma tinta desigual significa que, não interessa quão bom é o digitalizador, qualquer OCR terá de lutar com as bordas irregulares das cartas, que são claramente visíveis quando a 300 dpi.

Aqui está o resultado destas digitalizações a partir de alguns pacotes de OCR. Mudei apenas uma coisa: o Abbyy reconhecia os travessões enquanto tais e produzia-os como um caracter especial no Codepage 1252 para os travessões, que não está disponível em ASCII, por isso eu converti isso para os 2 traços do padrão do PG.

Abbyy FineReader 6:

 Yes, indeed, I was on the track of M. Aristide Fournier,
 and of one of the most important hauls of enemy goods
 which had ever been made in France. Not only that. I
 had also before me one of the most brutish criminals it
 had ever been my misfortune to come across. A bully, a
 fiend of cruelty. In very truth my fertile brain %vas
 seething with plans for eventually laying that abominable
 ruffian by the heels: hanging would be a merciful pun-
 ishment for such a miscreant. Yes, indeed, five thousand
 francs — a goodly sum in those days, Sir — was practically
 assured me. But over and above mere lucre there was
 the certainty that in a few days' time I should see the
 light of gratitude shining out of a pair of lustrous blue
 eyes, and a winning smile chasing away the look of
 fear and of sorrow from the sweetest face I had seen for
 many a day.
 Yes, indeed, Twas on the track of M. Aristide Fournier,
 and of one of the most important hauls of enemy goods
 which had ever been made in France. Not only that. I
 had also before me one of the most brutish criminals it
 had ever been my misfortune to come across. A bully, a
 fiend of cruelty. In very truth my fertile brain was
 seething with plans for eventually laying that abominable
 ruffian by the heels: hanging would be a merciful pun-
 ishment for such a miscreant. Yes, indeed, five thousand
 francs — a goodly sum in those days, Sir — was practically
 assured me. But over and above mere lucre there was
 the certainty that in a few days' time I should see the
 light of gratitude shining out of a pair of lustrous blue
 eyes, and a winning smile chasing away the look of
 fear and of sorrow from the sweetest face I had seen for
 many a day.

gocr 0.3.6:

 __e_, indeed, f___as on_the track of h_. hristide Fournier,
 3nd of one of the most im__ant hau1s of enem)_ goods
 ___hich had e__er been made in France.  h?ot onl3_ that.  I
 had a1so before me one of the most brUtish crimînat_s it
 h__4 e___er been m31 misfortune to co_me acro__3.  A bu113_, a
 tiend oí cruelt__.  In very truth m3_ fertiIe brain ___as
 s_e_1_::_g __-ith planS for e__entua113_ _ay:ng that abominab1e
 ru_iin b.__ t1_e hee1s . hanginig __ou1d be a n_erciful pun-
 i;__,i__gnt íor such a miscreanf.  yes, in_i__ee3, fj_1e thou3and
 francî-a b_ood13_ sum in those days, _ir-_vas practica1l3_

 a3_ured me.  _ut o___er and above n_ere lucre there was
 the certaint_v that in a few_ da3_s' ti_e I shou1d see the
 lib_ht of gratitude shininb_ out of a pair _f _usLtrous btue
 e3_e3_, and a ___inning smi1e chasing a__ay the Ioo_ of
 _ear and of sorrow from the s__eetest iace T had Seen fof
 man)_ a day.
 Yes, indeed, f___as on the track of h__. Ariseide Fournier,
 and of one of the most important hau1s _f enemy goods
 ___hich had ever been made in France.  NoEUR on1y that.  I
 had also before me one of the most brutish crimina1s it
 h_ad ever been my misfo__tune to come acros__.  A bu11y, a
 fiend of crue1ty.  _n very truth my fertib brain _vas
 seeî3_:i_g __ith plans for e__entua11p 1aying _at abom_in_ ab1e
 ru_an by the heels. hanging _____ou1d _ a merciful pun-
 iï_h_ment for such a miscreant.  Yes, indeed, five thou__and
 f_ancs-a b_ood1y sum in those days, _ir-_vas practica1ly
 a3îured me.  But over and above mere _ucre th.ere was
 th_e certainty that in a few days' ti_e _ shou1d see the
 1i__t of gratjtude shining out of a pair o_, _userous b1ue
  b                                .
 e__es, and a __inning smi1e chasing away the l_k of
 _,ear and of sorrow from the s___,eetest face _ _ad _.een _o_
 many a day.           .             .

Recognita Standard 3.2.7AK:

 ~'es, indeed, ~w-as on the track of ltT. Aristide Fournier,
 and of one of the most important hauls of enemy goods
 "=hich had ever been made in France. ~Tot only that. I
 ha~i also before me one of the most brutish criminals it
 had ever been my misfortune to come across. A bully-, a
 fiend of cruelty. In very truth my fertiIe brain was
 s; ething w-ith plans for eventually iaying that abominable
 ruffian by the heels : hanging ~-ould be a merciful pun-
 ishment for such a miscreant. ires, indeed, five thousand
 franes-a goodly sum in those days, Sir-was practically
 as~ured me. But over and above mere lucre there was
 thP certainty that in a few days' time I should see the
 light of gratitude shining out of a pair of lustrous btue
 eyU+2022.es, and a winning smile chasing away the hk of
 fear and of sorrow from the sweetest face I had seen for
 many a day.
 Yes, indeed, l~was on the track of h~i. Aristide Fournier,
 and of one of the most important hauls of enemy goods
 w~hich had ever been made in France. lVot only that. I
 had also before mP one of the most brutish criminals it
 had ever been my misfortune to come acrass. A bully, a
 fiend of cruelty. In very truth my fertile brain was
 seething with plans for ez~entually laying that abomin_ able
 ruffian by the heels : hanging ~~.-ould be a merciful pun-
 ishment for such a miscreant. Yes, indeed, five thousand
 f:ancs-a goodly sum in those days, Sir-was practically
 assured me. But over and above mere lucre there was
 the certainty that in a few days' time I should~ see the
 Iight of gratitude shining out of a pair of iEustrous blue
 eyes, and a w inning smile chasing away the Iook of
 fear and of sorrow from the s"-eetest face ~ had seen ~'or
 rr~any a day.

OmniPage Pro 10:

     Yes, indeed, twas on the track of 11T. Aristide Fournier,
 and of one of the most important hauls of enemy goods
 which had ever been made in France. Not only that. I
 ha(i also before me one of the most brutish criminals it
 had ever been my misfortune to come across. A bully, a
 fiend of cruelty. In very truth my fertile brain was
 seething with plans for eventually laying that abominable 
 ruffian by the heels: hanging would be a merciful pun-
 ishment for such a miscreant. Yes, indeed, five thousand
 francs-a goodly sum in those days, Sir-was practically
 assured me. But over and above mere lucre there was
 the certainty that in a few days' time I should see the 
 light of gratitude shining out of a pair of lustrous blue
 eyes, and a winning smile chasing away the look of
 fear and of sorrow from the sweetest face I had seen for 
 many a day.
     Yes, indeed, fwas on the track of h-I. Aristide Fournier,
 and of one of the most important hauls of enemy goods
 which had ever been made in France. Not only that. I
 had also before me one of the most brutish criminals it
 had ever been my misfortune to come across. A bully, a
 fiend of cruelty. In very truth my fertile brain was
 seething with plans for eventually laying that abominable
 ruffian by the heels: hanging would be a merciful pun-
 ishment for such a miscreant. Yes, indeed, five thousand
 francs-a goodly sum in those days, Sir-was practically
 assured me. But over and above mere lucre there was
 the certainty that in a few days' time I should see the
 light of gratitude shining out of a pair of lustrous blue
 eyes, and a winning smile chasing away the look of
 fear and of sorrow from the sweetest face I had seen for
 many a day.

OmniPage Pro 11:

 Yes, indeed, twas on the track of AT. Aristide Fournier, 
 and of one of the most important hauls of enemy goods 
 which had ever been made in France. Not only that. I 
 had also before me one of the most brutish criminals it 
 had ever been my misfortune to come across. A bully, a 
 fiend of cruelty. In very truth my fertile brain was 
 seething with plans for eventually laying that abominable 
 ruffian by the heels: hanging would be a merciful pun-
 ishment for such a miscreant. Yes, indeed, five thousand 
 francs-a goodly sum in those days, Sir-was practically 
 assured me. But over and above mere lucre there was 
 the certainty that in a few days' time I should see the 
 light of gratitude shining out of a pair of lustrous blue 
 eyes, and a winning smile chasing away the look of 
 fear and of sorrow from the sweetest face I had seen for 
 many a day.
 Yes, indeed, fwas on the track of h-I. Aristide Fournier, 
 and of one of the most important hauls of enemy goods 
 which had ever been made in France. Not only that. I 
 had also before me one of the most brutish criminals it 
 had ever been my misfortune to come across. A bully, a 
 fiend of cruelty. In very truth my fertile brain was 
 seething with plans for eventually laying that abominable 
 ruffian by the heels: hanging would be a merciful pun-
 ishment for such a miscreant. Yes, indeed, five thousand 
 francs-a goodly sum in those days, Sir-was practically 
 assured me. But over and above mere lucre there was 
 the certainty that in a few days' time I should see the 
 light of gratitude shining out of a pair of lustrous blue 
 eyes, and a winning smile chasing away the look of 
 fear and of sorrow from the sweetest face I had seen for 
 many a day.

Textbridge Millennium Pro:

 Yes, indeed, rwas on the track of M. Aristide Fournier,
 and of one of the most important hauls of enemy goods
 which had ever been made in France. Not only that. I
 hail also before me one of the most brutish criminals it
 had ever been my misfortune to come across. A bully, a
 fiend of cruelty. In very truth my fertile brain was
 seething with plans for eventually laying that abominable
 ruffian by the heels: hanging would be a merciful pun-
 ishment for such a miscreant. Yes, indeed, five thousand
 francs-a goodly sum in those days, Sir-was practically
 assured me. But over and above mere lucre there was
 the certainty that in a few days' time I should see the
 light of gratitude shining out of a pair of lustrous blue
 eyes, and a winning smile chasing away the look of
 fear and of sorrow from the sweetest face I had seen for
 many a day.                   -  - -
  Yes, indeed, f was on the track of M. Aristide Fournier,
 and of one of the most important hauls of enemy goods
 which had ever been made in France. Not only that. I
 had also before me one of the most brutish criminals it
 had ever been my misfortune to come across. A bully, a
 fiend of cruelty. In very truth my fertile brain was
 seething with plans for eventually laying that abominable
 ruffian by the heels: hanging would be a merciful pun-
 ishment for such a miscreant. Yes, indeed, five thousand
 francs-a goodly sum in those days, Sir-was practically
 assured me. But over and above mere lucre there was
 the certainty that in a few days' time I should see the
 light of gratitude shining out of a pair of lustrous blue
 eyes, and a winning smile chasing away the look of
 fear and of sorrow from the sweetest face I had seen for
 manyaday.                          -

Digitalização 3 — Escurecimento do lombo e letras pequenas

A digitalização 3 é um parágrafo de The Egoist de George Meredith. Foi digitalizada num quarto escuro com a tampa do digitalizador aberta e o livro mantido desdobrado, plano, contra o vidro do digitalizador. Contudo, a lombada não foi suficientemente pressionada com firmeza contra o vidro e, como resultado, você pode ver que as palavras do canto superior esquerdo (que estavam perto da lombada) parecem inclinadas, um pouco distorcidas e mal iluminadas. Este problema é familiar a pessoas que digitalizam para o PG — todos ficam distraídos por vezes e não conseguem manter sempre pressão suficiente na lombada. Como vê a partir dos resultados abaixo, isso causou problemas em todos os pacotes de OCR nas palavras afectadas. Se encontrar regularmente este tipo de escurecimento do lombo, quando os caracteres perto da lombada não estão a ser reconhecidos correctamente pelo seu OCR, precisa de se certificar que o livro está virado para baixo, tão espalmado quanto possível, antes de fazer a digitalização.

Fiz duas digitalizações separadas, uma a 300 dpi e outra a 400 dpi, ambas a branco e preto. Devido ao tamanho mais reduzido e ao problema de escurecimento do lombo, a digitalização a 400 dpi deu um texto com melhor qualidade neste caso.

Eis o resultado da amostra de OCR:

Abbyy FineReader 6:

 NEITHER Clara nor Vernon appeared at the mid-day table,
 n Middleton talked with Miss Dale on classical matters,
 like a good-natured giant giving a child the jump from
 stone to stone across a brawling mountain ford, so that an
 uncdified audience might really suppose, upon seeing her
 over the difficulty, she had done something for herself. Sir
 \Villoughby was proud of her, and therefore anxious to
 soltlo her business while he was in the humour to lose her.
 He hoped to finish it by shooting a word or two at Vernon
 before dinner. Clara's petition to be set free, released from
 him, had vaguely frightened even more than it offended hia
 nrido.
 NEITHER Clara nor Vernon appeared at the mid-day table.
 Dr. Middleton talked with Miss Bale on classical matters,
 like a good-natured giant giving a child the jump from
 stone to stone across a brawling mountain ford, so that an
 unedified audience might really suppose, upon seeing her
 over the difficulty, she had done something for herself. Sir
 "VVilloughby was proud of her, and therefore anxious to
 settle her business while he was in the humour to lose her.
 He hoped to finish it by shooting a word or two at Vernon
 before dinner. Clara's petition to be set free, released from
 him, had vaguely frightened even more than it offended his
 pride.

gocr 0.3.6:

 __,,,____,_ Cl,_I._c nor Vernon a__e_Ped _t tl_le _id_da_ tab1e_
 _, _ii_(__etoiI f,,_lk(;cl with _MiSs _ale _U_1d_ abS8iG_l I_i_t_t_l.__
 i,_i,;,_ .,, _(_u_-i,L_t_ii.e(l 6iiLIblt 6'7_V. ill_ _ C 'll .  tf e__Ul__b rU_l
 gt(),ii_, tu _fj(),I(, ,_uruSS.,__ T__ Illl_ g UlOUUt_lU  o_ _ 8O .t _' t_ail
 u,,_,_ifj(;il ;,_i((ic,IGG l_i_' lt re_ y 8UE)_OB_'_ U_Oll 8eelll6  lttr
 _,__i. t_ic (li__icu1ty, SIIe t1_d iluI_e 8ol_eth_ng_ fo_ be_.Self.  _i__
 _ji___()_i___lIl)y w,,s prui_il of heT_ and k__eTefope an_iouS  to
 _(_(.__u l___i. i)i__, ii,ess wIlile he Wa8 in the hU_ouT to luse Iier_
 j__ l_()_)(_(l t() tiiIish it b_ ShOOtiltg a WOTd o__ t_O &t Verno_
 _o__(),__ (li,_iIci._  Cl__T_'S _eti_tio_ tO be Set fTee_.Te1ea8ecl fro_
 )ii))),, lIL_Ll v_b__uely f_.ighteUe  eVen _OTe kba_ lt OfEe_ded hi_
 pi_i..(l_u- .  _  ,  ,   — .___ _ _,- - -__-
  ________ Cl__i.a nop Vernon appeared &t t'h_e _id_day t__le_
 D_. _id(lle_oi_ t_lked with Miss _ale ,on _ _Ssi__l __i tt_r_'_
 iij_e _ 6ood-n___tLi_.ed 6iai_t 6_i_ing & Ghild the ___np _'_.on_
 _tune to _tone aGro_S a braWlin( __ inOU__taiß _foPd_ So t2_at a__
 u__p,(_ified ___idiei_Ge _ni62it real y 8uppO.8e_ upon _seeii_6 l_e_
 o______ the difhculty_ she had done _o_neth_n6 fop ber_elf_  _i_
 _viljoli____k)y w__s proud of heT, and the_efo_e an_iouS to
 ___.tle li__i. i)u__inesS Whike he W_S î_ the hum'ou_ to_ lose her_
 __e l_op(_d to finish it by 8hooting a wopd o_ tWo ak Verno__ _
 _eforR_ _(in_icr_  Clara's petition to _ Set _free, releaSed fro_
 )ii__, h_d va6uely frigbte_ed eve_ _ore tban it o_e_ded hiD
 pi.icle.  -.  -  -   -  -  - '

Recognita Standard 3.2.7AK:

 ~rFr~rrmx Clara nor Vernon apneared at the mid-da~'table.
 Dr. bLidrlleton talkc;d wi.th Miss Dale vn elassieal matters,
 like a ~n~a-mZtured giant gi.ving a child th© jucnp frvm
 stonc to stone across a brawling mounta,in ford, so that au
 uiicilificd .ruciicucc mil;U+2022.ht really suppasc, upon seeixig hor
 U+2022.n~er thc ciillicul.ty, she had clouo something for herself. Sir
 ~Villcm;;lrlry wvs proua of her, and therefors angiaus to
 sct.tla lrur tn~sincss while he was in the humoar to lose her.
 lle lu,hcot to iinish it by shooting a word ar two at Vernon
 bol'ore ~linncr. Clara's petition to bo set froe, released £rom
 JGGnt., hvd vagucly frighteued even more than it offended hia
 ri~le.
 p
 NEITfi~R Clara nor Vernon appeareci at the xnid-day table.
 Dr. Middleton talked with Miss Dalo on classics,l rnatters',
 like a good-natured giant giving a child the jtimp from
 stone to stone across a brawling mountain ford, so that an
 unedified audience might really suppose, upon ~ seeing her
 over the difficulty, she had done something for herself. Sir
 yillon ;hby was proud of her, and therefore anxiotis to
 scttle luer business while he w~as in the hurxiour to lose her:
 He hoped to finish it by shooting a word or two at Vernon
 before dinner. Clara's petition to be set free, released from
 jcLm, had vaguely frighteued even more than it offended his
 pride.

OmniPage Pro 10:

     NF r~rn,Px Clara nor Vernon appeared at the mid-dap table.
 Dr. Middleton talked with Miss Dale on classical matter,
 like .t good-natured giant giving a child the jump from
 stone to stone across a brawling mountain ford, so that an
 uneVified audience might really suppose, upon seeing her
 over the difficulty, she had done something for herself. Sir
 jV;llo,r;;lrl>y was proud of her, and therefore anxious to
 set.tlo lror Uusiness while he was in the humour to lose her.
 Ile. lropcol to finish it by shooting a word or two at Vernon
 bol'ore dinner. Clara's petition to beset free, released from
 )zinc, had vaguely frightened even more than it offended his
 pride.
     NEITHER Clara nor Vernon appeared at the mid-day table.
 Dr. Middleton talked with Miss Bale on classical matters',
 like a good-natured giant giving a child the jump from
 stone to stone across a brawling mountain ford, so that an
 unedified audience might really suppose, upon ~ seeing her
 over the difficulty, she had done something for herself. Sir
 yillou ;hby was proud of her, and therefore anxious to
 settle her business while he was in the humour to lose her.
 He hoped to finish it by shooting a word or two at Vernon
 before dinner. Clam's petition to be set free, released from
 him, had vaguely frightened even more than it offended his
 pride.

OmniPage Pro 11:

 NF f,rnMR Clara nor Vernon appeared at the mid-day table. 
 Dr. Middleton talked with Miss Dale on classical matters, 
 like .t good-natared giant giving a child the jump from 
 stone to stone across a brawling mountain ford, so that an 
 une(lifie(l audience might really suppose, upon seeing her 
 over the difficulty, she had done something for herself. Sir 
 jVillon;hl)y was proud of her, and therefore anxious to 
 setale leer business while he was in the humour to lose her. 
 lle hoped to finish it by shooting a word or two at Vernon
 bofore dinner. Clara's petition to beset free, released from 
 )lint, had vaguely frightened even more than it offended his 
 pride.
 -.2 ..1_ - ____
 NEITHER Clara nor Vernon appeared at the mid-day table. 
 Dr. Middleton talked with Miss Dale on classical matters', 
 like a good-natured giant giving a child the jump from 
 stone to stone across a brawling mountain ford, so that an 
 unedified audience might really suppose, upon,seeing her 
 over the difficulty, she had done something for herself. Sir 
 Willoughby was proud of her, and therefore anxious to 
 settle her business while he was in the huniour to lose her. 
 Il"e hoped to finish it by shooting a word or two at Vernon 
 before dinner. Clara's petition to be set free, released from 
 hint, had vaguely frightened even more than it offended his 
 pride. - -

TextBridge Millennium Pro:

 NErr'!'~~ Clara nor Vernon appeared at the mid.day table.
 pr. ~1id(lIeto11 talked with Miss Dale on classical matters,
 like a good-natured giant giving a child the jump from
 stone to stone across a brawling mountain ford, so that au
 ~1edifi~ tLU(llCIlCC might really suppose, upon seeing h er
 over the (hjiheulty, she had done something for herself. Sir
 wiflouighby was proud of her, and therefore anxious to
 settle her business while he was in the humour to lose her.
 lie ho1)ed to finish it by shooting a word or two at Vernon
 before dinner. Clara's petition to be set free, released from
 him, had vaguely frightened even more than it offended his
 prú~t~.
  NEITHER Clara nor Vernon appeared at the mid-day table.
 Pr. Middleton talked with Miss Dale on classical matters,
 like a good-natured giant giving a child the jump from
 stone to stone across a brawling mountain ford, so that an
 une(lified audience might really suppose, upon - seeing her
 over the difficulty, she had done something for herself. Sir
 Willoughby was proud of her, and therefore anxious to
 settle hier l)uSifleSS while he was in the humour to lose her.
 lie hoped to finish it by shooting a word or two at Vernon
 before dinner. Clara's petition to be set free, released from
 hirn~, had vaguely frightened even more than it offended his
 pri(le.

Digitalização 4 — Um caso mesmo mau!

A Digitalização 2 é um parágrafo da tradução de Pope da Odyssey de Homero. Esta é muito, muito, difícil. Tornou-se óbvio que era uma impressão barata, para começar, usando papel fino de fraca qualidade num tamanho de página de 15,2 por 11,4 cm, com letras maiúsculas com cerca de 1,5 mm de altura, um pouco maiores do que Times New Roman tamanho 8. Um texto assim tão pequeno necessita mesmo de uma digitalização a alta resolução. I livro estava a desconjuntar-se quando o comprem, a tinta estava a esbater-se e a lascar-se e nem sequer valia a pena pensar em tentar digitalizá-lo espalmado, por isso, cortei as páginas. A acrescentar um desafio extra, digitalizei a amostra com a tampa aberta num quarto a meia-luz para as digitalizações a 300 dpi e 400 dpi, mas fechei a tampa para a [[Image:Scanning FAQ Example 4 600.gif|600 dpi] para resultar na melhor qualidade que eu conseguiria obter. (Foi com agrado que reparei que o Abbyy, enquanto reconhecia a página com imagens de 300 e 400 dpi, relampejava uma sugestão de que eu deveria baixar o brilho da digitalização.)

Este livro em particular foi um dos que eu esporadicamente tentei produzir, sem resultados, num digitalizador antigo e um programa de OCR empacotado, durante um período de dois anos, em 98/99. Por fim, em 2000, foi o primeiro livro processado pelo sítio Distributed Proofreaders, de Charles Franks. O texto inicial produzido pelo OCR era muito mau, mas os leitores humanos deram-lhe a volta! Obrigado, rapazes! Hoje, apenas dois anos mais tarde, com um digitalizador melhor e um OCR melhor, podê-lo-ia ter feito por mim mesmo, como poderá ver pelo melhor dos resultados das digitalizações a 600 dpi. É assim que as coisas têm melhorado recentemente.

Um ponto à parte que deve aqui ser notado é que você poderá ver o efeito "espaço em três quartos" antes do ponto de exclamação e o ponto e vírgula que foi discutido em [V.104].

Os resultados do OCR são:

Abbyy FineReader 6:

 " Ah me ! on what inhospitable coast,
 On Tvh.it new region is Ulysses toss'd ;
 Possess'd by wild barbarians fierce in arms ;
 Or men. whose bosom tender pity warms ?
 What sounds are these that gather from the shores ?
 The voice of nymphs that haunt the sylvan bowers,
 The fair-hair'd Pryads of the shady wood ;
 Or azure daughters of the silver flood ;
 Or human voir-e? but issuing1 from the shades,
 AVhv cease I straight to learn what sound invades?"
 " Ah me ! on what inhospitable coast,
 On what new region is Ulysses toss'd ;
 Possess'd by wild barbarians fierce in arms ;
 Or men, whose bosom tender pity warms '?
 "What sounds are these that gather from the shores ?
 The voice of nymphs that haunt the sylvan bowers,
 The fair-hair'd Dryads of the shady wood ;
 Or azure daughters of the silver flood ;
 Or human voice? but issuing from the shades,
 Why cease I straight to learn what sound invades?"
 " Ah me ! on what inhospitable coast,
 On what new region is Ulysses toss'd ;
 Possess'd by wild barbarians fierce in arms ;
 Or men, whose bosom tender pity warms ?
 "What sounds are these that gather from the shores ?
 The voice of nymphs that haunt the sylvan bowers,
 The fair-hair'd*Dryads of the slrady wood ;
 Or azure daughters of the silver flood ;
 Or human voice? but issuing from the shades,
 Why cease I straight to learn what sound invades?"

gocr 0.3.6:

[As digitalizações a 300 e 400 dpi snão produziram nada de reconhecível. O resultado da digitalização a 600 dpi está em baixo.]

    _hh i_3e ! o_1 ___l_at_ i__l__sl__ it_nble CoaSt_
 On ___l_,__ _)e_v i_e_io__ i__ ___ _._____ses toss'd ;
 _(3s3gs3_d l3.__ ___iiíi l3_3__b___i_c_i3_ fie_Ce in il__S- _
 Or i11pn, __-i)c3se l_osonl te_1de_ _it____ __ai_n3__ ?
 ___l_at __o__i1ds Qre tlipse tliat g__tl_p_r fE_oi33 the shoTes ?
 '_ilie __oi__e of i)____ E1)l3l3s tl3nT 1i_n__nt the s__l__inn bo_Ye_5_
 3'l_e fni___i____ir'd _____-ads of' il_e sli__d__ i___oOd _
 Op az(_pe da_____litc__s of _tlie sil __?r t1ood ;
 Or l___i31_nn ___)i___? l3__t i3____ii_6 fi_oi11 tlie __hiade__ _
 __'!3.__ _ea___e _ s_rai__li.t to l_ar_i1- i_ — li__t so_nd-in__ad_S___

Recognita Standard 3.2.7AK:

 .: lh nt"'. on w-hat inlu,;y:t, I,:e co;;~t,
 On ~cli^t ne~- re~ion i.. 1= 1-.-:.:e~ tm:'d ;
 Possea'd 1n- wil~l L;,rba~:c, .~ fierce in arm~ ;
 Or u.~u. w-Ln.e bossum tender pit~- warna'?
 ~l-u:lt .<,:~;;::;3s are tll~ce that ~atl:er from the shnre~ ?
 'I'l.e -;;o'.re :,; nwtthil: tW ,t l:aa;nt the s~-l:c 1llJOR'er5,
 'lhe :a,:~-h ~;r'd~It.wa~i~ ot' tl:e ~Il;;dv vood;
 Or az.lre dau~~l.ts~: oY tl:c U+2022.:iv-~~r floo;:3 ;
 C?r humnn ~-<:i: e'? l,~:tt i~~; from tl:cU+2022. ~had~~,
 11-lts- cea~e I ctrai rlit to learn ~s-l:, t socud incades %"
 " ~h me ! ou "-Mat iuMospita~le coast,
 On ~i-lmt ne~c reyion is L 1~-~ses to~s'd ;
 Pos:e;s'd 1"~ w-iMl lrvrbaria:ns fiet~ce in arms ;
 Or m~ n, "-hose hosom tender pit~- warm5 ?
 Marcellohat ~ounds are tlmse tMat ~;atMer from t:he shores ?
 ~t'I~e ~-oi~~e of n~-Inhhs t.hat liaunt the s~-l~~a n howers
 .
 Tlie fair-hnir'd D~ vads ot tl:e shad~- "-ood ;
 Or aznre dau~liters of tMe sil~-~r fiood ;
 Or lmman ~-oi:~e'? but iauin~ frotn the shades, a
 lVly cea.~e I straibht to learn "-Mat souud in~ad°s?"
 " Ah me ! on what inhospitable coast
 On ~~-hat new r e~ion is L;1 ~-sses toss'd ~
 ,
 Possess'd 1J~- "-ilil I:OII'uai'la ils fierce in arms_ U+2022.
 Or men, whose hosom tender pit~l ~varn~s ?
 ~'G'l~at somnds are these tliat ~atl~er from the shores ?
 ~I'Iie v oice of n~-mpl~S that ~munt the sy Ivan bowers,
 Tlie fair -hair'd DMarcello-ads of tl~e slmdy wood ;
 Or azure daylltcrs of tlle silver flood ;
 Or lm:nan voice? uut issL~ing from the shades,
 ~~'lm cea~e I strai~ht to Iearn ~~-lmt so~nd inv ades ?"

OmniPage Pro 10:

 On "M.^t new reion is 1=1;-a:e~ to-s'd ;
 P"::e:~'d hw "ild Larba.:an~ fierce in arms ;
 Or inn. "-hnse bo.,om tender pity warms
 What <m-,n ds are thFSe that gather from the shores?
 '1-l.e vo_,e o2 u~vnhit: thm hn,,-,nt The sylvan bowers,
 The is ;r-ha;r'd h.-;-ads of the liz-Ay iNood
 Or azure dau_ht;- of tl:c o=1 cr flooj ;
 Or hnnmn wire? l,11t i — rii:g from the shadP3,
 Al-ly cease I straiAlit to learn what sound invades?"
     'Wh me ! on what inhospitable coast,
 On what new region is L fusses toss'd ;
 Possess'd br wild barbaric ns fierce in arms ;
 Or men, whose bosom tender pith- warms
 AN-hat sounds are these that gather from the shores ?
 The voice of nymphs that Haunt the sylvan bowers,
 The fair-hair'd IWvads of the shady -wood ;
 Or azure daughters of the silver flood ;
 Or human voice? bat iauina from the shades,
 Why cease I straight to learn what sound invades?"
     " Ah me! on what inhospitable coast,
 On what new region is Ll ysses toss'd ;
 Possess'd bv -wild barbarians fierce in arms ;
 Or men, whose bosom tender pity warnis ?
 AVlia± sounds are these that gatller from the shores
 The voice of nYI11pliS that haunt the -sylvan bowers,
 The fair -hair'd D.-yads of the shady wood ;
 Or azure daughters of the silver flood ;
 Or human voice? lout issuing from the shades,
 Why cease I straight to learn what sound invades?"

OmniPage Pro 11:

 .` lh in-' on what inhospital,le co-st, 
 On xclznt near region is t 1:-sse~ toss'(: ; 
 Possess'd bY Mild barbarians fierce in aims ; 
 Or inn. whose boson tender pity warms
 What <m-,n ds are tlipse that gather from the shores ? 
 '_I-I.e 1-o=,- of nv:npii? that haunt the sylvan bowers, 
 She ra;r-ha;r'd 1):, ads of the shad- wood ;
 Or az.ire dau_lit~- of tl:e silo-:-r flood ;
 Or human voice? l,,tt i?snina from the shadpq, 
 Al-lry cease I straiAit to learn shat sound invades?"
 ''' :Ah me ! on what inhospitable coast, 
 On iyhat new region is Ulysses toss'd ; 
 Possess'd br wild barbarimis fierce in arms ; 
 Or men, whose bosom tender pity warms 
 AN-hat sounds are tliese that gather from the shores ? 
 The voice of nymphs that haunt the sylvan bowers, 
 The fair-hair'd D~ yads of the shady -wood
 ;
 Or azure dau.L-hters of the silver flood ;
 Or human voice? but issuing from the shades, 
 Why cease I straight to learn what sound invades?"
 " Ah me! on what inhospitable coast, 
 On what new region is Ulysses toss'd ; 
 Possess'd by -wild barbarians fierce in arms ; 
 Or n1en, whose bosom tender pity warnis ? 
 AVliat sounds are these that gather from the shores 
 The voice of nyniplis that haunt the sylvan bowers, 
 The fair-hair'd Dryads of the shady Wood ;
 Or azure daughters of the silver flood ;
 Or human voice? but issuing from the shades, 
 Why cease I straight to learn what sound invades?"

TextBridge Millennium Pro:

     no on what inhe~ptaEie coast,
 On what new realun is hivs,e' to5sd
 ,s~s Ä-~d liv wild lie il)~m.ihI fir see in al-rn~
 Or u~,-n. w'linse bo,uuiu tender pity warnls
 Wl at ~ are t1ie~e that ~atler from the shores ?
 'n.e a oro of imvntpirs tint he~nt the sad van bowers,
 'flie tah'-ha~r'd D~vahs ct the shady wood
 1)1' az Ire dauul~t ~ of tl,e shvr flood
 Or liunian vi i 'I ? h'tt is- eng from the shades,
 \VIiv cea-~e I straight to learn w hat sound invades 1"
   Ah me on what inhospitable coast,
 On what new region is U vases toss'd
 Possess'd by wild barbarians fierce in arms
 Or men, whose bosom tender pity warms ~
 What sounds are these that gather from the shores?
 The voi'e of nymphs that haunt the sylvan bowers,
 The fair-baird Prvads of tl~e shady wood
 Or azure daughters of the silver flood
 Or human vuiae? but issuing fi'om the shades,
 Why cease I straigl~t to learn what sound invades?"
   Ah me on what inhospitable coast,
 On what new region is Ulysses toss'd
 Possess'd by wild barbarians fierce in arms
 Or men, whose bosom tender pity warms?
 What sounds are these that gather from the shores?
 rfhe voice of nymphs that haunt the sylvan bowers,
 The fair-hair'd Dtyads of the shady wood;
 Or azure daughters of 'the silver flood
 Or human voice? but issuing from the shades,
 Why cease I straigl~t to learn what sOund invades?"

Conclusão

Pequenos erros na digitalização, como deixar entrar muita luz, definir mal as definições do digitalizador para a página, ou não pressionar o papel suficientemente espalmado, podem fazer grande diferença na qualidade final do texto que você terá de corrigir.

Por vezes, independentemente do que você fizer com o seu digitalizador, os problemas com o papel ou a impressão irão fazer com que seja difícil para o seu pacote de OCR dar um bom resultado.

Geralmente, maior é melhor dentro de um campo de 300dpi-600dpi mas você apenas precisa de uma maior resolução com material mais difícil.

Diferentes pacotes de OCR produzirão textos amplamente diferentes a partir da mesma imagem. Fornecida uma imagem realmente boa, a maioria dos programas de OCR funcionarão aceitavelmente, mas quando você tem material de qualidade inferior para trabalhar, o buraco entre pacotes de OCR é claramente revelado.

S.18. Recebi um pacote de OCR incluído no meu digitalizador. Serve?

Isso depende de quão bem o seu pacote actua nas digitalizações que você efectivamente faz e o quanto você valoriza o seu tempo vs. dinheiro. A maioria dos digitalizadores é empacotada com programas de OCR, mas esses pacotes de OCR são frequentemente versões mais velhas ou com o "cérebro danificado", com as suas funcionalidades diminuídas deliberadamente. É improvável que você obtenha uma versão actual, topo de gama, de um pacote de OCR atirada de graça.

Poderá ter de pagar um extra para um OCR melhor, mas isso significa que despende menos tempo a fazer correcções. A questão é quão melhor quer que o seu OCR seja.

Guarde as imagens da FAQ "Why am I getting a lot of mistakes in my OCRed text?" [S.17] e tente processá-las com o OCR que você tem. Compare a qualidade do texto produzido com a qualidade das amostras. Isto deve dar-lhe uma ideia de como o seu OCR se compara com os outros.

Tente umas poucas de páginas do seu livro com o seu OCR. Quantos erros vê em cada página? Acha-o aceitável?

S.19. Quero incluir algumas imagens com uma versão HTML. Como as devo digitalizar?

Não vemos frequentemente impressões a cores nos nossos livros mas, se você tem uma, então digitalize-a a cores. Ou então tente tanto a escala de cinza como a P&B e veja qual lhe dá a melhor imagem.

Normalmente, é melhor digitalizar as imagens numa resolução mais elevada do que a que você irá usar e, então, utilizar um pacote de manipulação de imagem para as reduzir [H.10] para um tamanho apropriado para o seu ficheiro de HTML. Uma digitalização inicial a 600dpi costuma ser boa. Os programas de manipulação de imagem também lhe permitirão "limpar" as imagens, aumentando o contraste, remover o ruído, ou outras filtragens.

S.20. Quero incluir algumas imagens numa versão HTML. Que tipo de imagem devo usar?

As imagens GIF, JPEG e PNG são suportadas pelos navegadores actuais e você deve ficar-se por essas a não ser que tenha uma razão específica para não o fazer.

O GIF e PNG tendem a ser mais eficientes — fornecem melhor qualidade em um dado tamanho de ficheiro — para simples desenhos; o JPEG é normalmente melhor para imagens fotográficas.

S.21. O PG armazenará as imagens das páginas digitalizadas do meu livro?

Sim. Desde Julho de 2004, estamos a começar a oferecer espaço de arquivo para as imagens de página dos livros postados no PG.

Ainda que as imagens de página não possam ser pesquisadas ou convertidas para outros formatos de texto para leitura, têm algum valor — para confirmar possíveis erros na transcrição, para manter imagens que podem não ter sido preservadas no HTML, para confirmar números de página citados, para reimpressão, ou simplesmente, em geral, para qualquer pessoa que queira informação pormenorizadas sobre a fonte em papel. Este não é a nossa finalidade nuclear e as imagens de página devem ser vistas como um suplemente ao texto em vez de uma característica principal. Contudo, o espaço em disco e a largura de banda são agora suficientes para que seja prático preservá-las, ainda que pra as relativamente poucas pessoas que possam fazer uso delas.

Contudo, temos de ter cuidado na nossa utilização do espaço e largura de banda, Usar 40 HB por página é razoável, dados os recursos de hoje em dia; usar 140 KB por página não o é. Portanto, insistimos apenas em imagens o mais comprimidas possível e a preto e branco, para páginas normais, e a melhor rácio tamanho/qualidade que possamos para as figuras.

As nossas directrizes actuais acerca da submissão de imagens de página são:

  1. O PG aceita agora imagens de página de livros postados, As imagens de página serão postadas apenas como um suplemento a um texto electrónico postado pela forma normal — não postaremos imagens de página sem o texto puro.
  2. As imagens de página são uma opção; elas não são nem serão exigidas para postar um texto.
  3. Todas as imagens de página devem ser suficientemente boas para serem razoavelmente trabalhadas com os pacotes de OCR, até 600 dpi, e devem ser armazenadas como TIFF, com compressão CCITT-4 (também conhecida como ITU-G4 ou Fax Group 4), a preto e branco. Isto é importante, para que mantenhamos o tamanho global do ficheiro baixo, a um nível sustentável. Com esta compressão, uma página típica a 600dpi pode ser armazenada por cerca de 40KB. A nossa capacidade para postar estas imagens depende dos tamanhos de ficheiro se manterem convenientemente razoáveis. Páginas tais como ilustrações a cores ou fotografias em escala de cinza que não possam ser razoavelmente armazenadas apenas a preto e branco devem ser armazenadas a TIFF ou JPEG com a melhor compressão que você conseguir para essa imagem. (Note: O Irfanview para o Windows faz isto lindamente individualmente ou em séries. O ImageMagick v 6.x: convert myimage.png -compress group4 myimage.tif ) [P.1]
  4. Cada imagem de página deve estar num ficheiro separado e nomeada com o número de página dentro do conjunto, p.ex.: 001.tif, 002.tif, etc. As imagens separadas, que não de páginas, tais como capas ou imagens a cores digitalizadas separadamente das páginas, devem ter nomes convenientes como "cover.jpg" ou "072-image.tif". Todas as imagens de página do livro devem ser zipadas num ficheiro, para serem nomeadas NUMERODOFICHEIRO-page-images, p. ex.: 12345-page-images.zip para o texto electrónico #12345, e armazenadas na directoria principal para esse texto electrónico. Ir-se-á descomprimir para uma subdirectoria ./page-images, mas nós não postaremos páginas separadas nessa directoria, uma vez que isso iria duplicar o espaço utilizado e acreditamos que as pessoas que querem consultar as imagens querê-las-ão, provavelmente, todas. Por isso, pelo menos por agora, se você quer as imagens, deve descarregar o ficheiro ZIP.

As imagens de página submetidas para o Distributed Proofreaders [B.2] são guardadas automaticamente e, ainda que não estejam publicamente disponíveis hoje, está-lo-ão provavelmente no futuro.

Para armazenar imagens de página de resolução elevada ou figuras que podemos razoavelmente postar actualmente, você poderá ponderar o Internet Archive.