PT-PG PergFreq de HTML

Do Project Gutenberg, o primeiro produtor de livros electrónicos (ou livros eletrônicos) grátis.

Jump to: navigation, search

Contents

H.1. Posso enviar uma versão em HTML do meu texto?

Sim.

H.2. Porque devo fazer uma versão em HTML?

Bem, você pode fazer uma simplesmente porque quer mas em alguns textos existem razões especiais para o fazer.

Se quer preservar as imagens que acompanham o texto, fazer uma versão HTML significa que você poderá especificar onde e como essas imagens aparecem.

Se existir alguma informação particularmente significativa no esquema do texto que não possa ser expresso em ASCII, como caracteres especiais ou tabelas complexas ou tipos de letra, o HTML pode oferecer uma alternativa em formato aberto.

H.3. Posso enviar uma versão em HTML sem uma versão em ASCII puro?

Pode submetê-las, mas a Equipa de Postagem irá então pensar se vale a pena nós também fazermos uma versão em ASCII, ou talvez em ISO-8859 ou Unicode. Queremos mesmo que os nossos textos sejam visíveis por todas as pessoas, sob quaisquer circunstâncias, e não queremos começar a postar textos que sejam de algum modo inacessíveis a alguém.

Veja também a FAQ [G.17] "Why is PG so set on using Plain Vanilla ASCII?"

H.4. Quais são as regras do PG para os textos em HTML?

1. A única regra absoluta é que o HTML deve ser válido de acordo com um dos padrões de HTML do W3C e, se utilizada, a CSS também deve ser válida.

Você pode verificar se o seu HTML é válido no Validador de HTML do W3C em http://validator.w3.org/

Você pode verificar se a sua CSS é válida no Validador de CSS do W3C em http://jigsaw.w3.org/css-validator/

Para uma correcção mais conveniente e amigável, embora menos oficial, do seu HTML deverá utilizar o programa Tidy de Dave Raggett em http://tidy.sourceforge.net , que não só mostra quaisquer desordens no seu código HTML, como também tem alguns modos nítidos para o limpar e padronizar a formatação.

Depois disso, temos alguns requisitos e recomendações. A conformidade com os requisitos pode ser posta de parte se existir alguma boa razão para fazer uma excepção nesse caso.

2. Requisito: Nomes de ficheiro e extensões

Todos os nomes de ficheiro (e, se existente, de subdirectoria) e extensões devem estar em minúsculas e devem usar apenas as letras de "a" a "z", os dígitos de "0" a "9", o hífen "-", o caracter traço baixo "_" e caracter ponto ".", que deve ser utilizado apenas uma vez em cada nome de ficheiro, para indicar a extensão, como image.jpg . Sim, nós sabemos que isso não é estritamente necessário mas não queremos ter de corrigir cada ficheiro que chegue com "image.png" referido no HTML acompanhado por um ficheiro IMAGE.PNG . Isto aplica-se a todos os ficheiros ligados a partir do ficheiro principal em HTML, sejam subdirectorias, imagens, outros ficheiros de HTML ou CSS.

Todas as imagens, se existentes devem estar numa subdirectoria chamada /images.

Ainda que o 8.3 não seja um requisito para os nomes de ficheiro, os nomes de ficheiro devem manter-se razoavelmente curtos, jamais excedendo os 32 caracteres.

3. Requisito: Acessibilidade

Quando forem utilizados estilos, seja com CSS ou HTML, você não deve impor preferências pessoas que possam interferir com a capacidade dos leitores para fazerem a leitura ou apreciarem o texto. Isto é um princípio-guia.

As Directrizes de Acessibilidade do W3C em http://www.w3.org/TR/WCAG10/full-checklist.html fornecem uma lista para páginas da Internet em geral e isso é parcialmente aplicável aqui — é certamente uma boa ideia estar familiarizado com estas directrizes. Contudo, lidamos com um caso especial ao fazermos livros electrónicos: enquanto que o W3C faz certas recomendações de conteúdos, nós não temos qualquer controlo sobre o conteúdo propriamente dito; enquanto o W3C recomenda a utilização das tecnologias mais recentes, isso não tem sentido no nosso contexto, em que o texto pode ficar inalterado durante décadas; enquanto o W3C fala de sítios da Rede em geral, nós fazemos um tipo específico de páginas de HTML.

Listar todas as possíveis implicações que isto possa ter não é prático mas, especificamente, você deverá tentar:

  1. Assegure-se que o seu texto está bem montado, é perceptível e legível em todos os tamanhos de letra.
  2. Assegure-se, se usa CSS, que o seu HTML é legível mesmo quando a CSS é removida.
  3. Assegure-se que as imagens têm um atributo "alt" com significado, para que a descrição da imagem esteja disponível para aqueles que não a conseguem ver, e que as tabelas têm um atributo "summary".

deve evitar:

  1. Forçar tamanhos de letra absolutos em pontos (pt); em vez disso, deve utilizar, por exemplo, "em" ou "%" para indicar texto maior ou menos na CSS, ou "", "", ou "-1", "+1" numa etiqueta de fonte do HTML.
  2. Forçar fontes e famílias de fontes absolutas ou famílias de fontes genéricas.
  3. Forçar cores de fundo que não o branco ou cores de texto que não o preto.
  4. A utilização d emolduras, texto a piscar, janelas inesperadas, autoredireccionamentos ou auto-actualizações.
  5. A utilização de tabelas para outras coisas que não dados tabulares. Muitas páginas da Rede comerciais usam tabelas para todo o seu esquema, mas nós devemos usar tabelas apenas quando estivermos a mostrar tabelas reais de informação.
  6. Criar hiperligações para qualquer coisa fora do livro electrónico propriamente dito, excepto na Linha de Créditos que liga ao sítio do fornecedor de imagens ou texto para o livro electrónico.

Como sempre, apesar das regras gerais, podem existir casos em que, numa pequena parte do texto, estas restrições não sejam de aplicar. Por exemplo, pode ser apropriado usar a família de fonte genética "cursive" ao mostrar uma letra, ou uma cor diferente para uma inserção pequena ou um cabeçalho.

4. Requisito: Não utilizar conjuntos de instruções

Não queremos que os nossos leitores estejam preocupados com códigos maliciosos, ou simplesmente defeituosos, por isso não queremos postar nenhuma forma de script no ficheiro de HTML, incluindo Javascript.

5. Requisito: HTML e texto puro

O Project Gutenberg não publica HTML bem formatado, sujeito a padrões. Contudo, insistimos que a versão em texto puro deve estar disponível para todos os documentos em HTML que publicamos (mesmo que as imagens ou a formatação estejam ausentes) excepto quando o ASCII não possa, razoavelmente, ser de todo utilizado, por exemplo no árabe ou textos de matemática.

6. Requisito: Formato de arquivo para postagem

Se o livro em HTML contém mais do que um ficheiro (incluindo imagens), crie um arquivo ZIP (preferencialmente) ou TAR que contenha todos os ficheiros do livro para carregamento.

7. Recomendação: Simplicidade

Torne o seu HTML tão simples quanto possível, O HTML é um padrão em evolução e que poderá estar completamente obsoleto a longo prazo. A utilização de características avançadas pode significar que a sua versão pode tornar-se obsoleta ou ilegível muito mais rapidamente.

8. Recomendação: Imagens

As imagens incluídas com o seu HTML devem estar num formato que os navegadores de Rede consigam ler: GIF, JPEG ou PNG. As imagens devem ser editadas para uma alta qualidade num tamanho relativamente pequeno. Tome a melhor decisão que conseguir no que se refere ao tamanho da imagem e à sua localização no texto. Cada imagem incluída deve estar ligada (referida) no HTML.

9. Recomendação: Tamanhos das linhas

Se for razoável fazê-lo, tente embrulhar os parágrafos de texto em cerca da margem normal do PG de 70 caracteres. Idealmente, o seu HTML deve ficar tão idêntico quanto possível com a sua versão de texto, excepto no que diz respeito às etiquetas e entidades do HTML. As pessoas que abrirem o HTML nem todas estarão a utilizar navegadores, as pessoas precisarão de fazer correcções, nem todos os editores conseguem lidar com linhas muito longas, e mesmo com os editores que conseguem lidar com linhas longas, é mais fácil trabalhar com linhas curtas. Para mais, é muito desejável que os seus ficheiros de texto e HTML correspondam, tanto quanto possível, linha por linha para facilitar a manutenção — reembrulhar o HTML apenas dificulta a comparação e correcção.

10. Recomendação: Ficheiro único de HTML

Normalmente, todos os HTML e CSS para o livro devem ser fornecidos num único ficheiro, com todas as imagens como ficheiros separados numa subdirectoria /images. Podem existir casos em que seja apropriado dividir o HTML em múltiplos ficheiros — por exemplo, quando é muito grande para caber num navegador normal —e, em tais casos, também pode ser apropriado fornecer a CSS como um ficheiro separado ligado a partir de cada um dos ficheiros de HTML.

Quando tiver de dividir um livro electrónico em HTML em múltiplos ficheiros, aplicam-se os requisitos de nomenclatura para os ficheiros, listados no ponto 2.

H.5. Posso utilizar Javascript ou outra linguagem com instruções no meu HTML?

Não.

Não queremos que os nossos leitores tenham de se preocupar com potenciais códigos maliciosos ou simplesmente defeituosos.

H.6. Devo colocar toda a minha edição em HTML numa única página, ou separá-la por várias páginas interligadas?

Para um romance típico, uma página ou ficheiro de HTML será o apropriado, mas quando um único ficheiro de HTML chega aos cerca de 2 megabytes, pode valera pena ponderar uma divisão dada a dificuldade de o carregar em alguns navegadores.

Em alguns outros casos, quando o conteúdo exige estilos diferentes em páginas diferentes, ou páginas diferentes precisam de conjuntos de caracteres diferentes, ou a página, com imagens, fica simplesmente muito pesada, você pode precisar de dividir o HTML mesmo que o HTML propriamente dito não seja, tecnicamente, muito grande.

H.7. Como posso verificar se não dei erros ao codificar o meu HTML?

Existem dois tipos de erros que você pode fazer ao codificar o HTML: pode produzir HTML inválido ou pode produzir HTML que não faz aquilo que você quer.

Verificar HTML inválido é linear. O sítio W3C <http://validator.w3.org> irá validar formalmente o seu ficheiro e indicar quaisquer erros e este é o padrão oficial. Contudo, não é sempre conveniente utilizá-lo, especialmente quando você está num ciclo de corrigir-e-testar-novamente. Para isto, deve experimentar o programa Tidy <http://tidy.sourceforge.net>, que corre no seu computador, avisa-o de erros e também tem outras funções úteis, o Tidy está disponível para quase todos os sistemas operativos existem vários utilitários do Windows que incluem o Tidy. As ligações na página principal do Tidy guiá-lo-ão até à versão adequada. O Tidy é rápido e amigável, comparado com a validação na Rede, mas não é a última palavra. O Validados W3C pode encontrar erros formais, tais como erros DOCTYPE nas etiquetas ou entidades de HTML, que o Tidy pode não encontrar. a melhor solução é completar os seus testes de HTNL utilizando o Tidy e então, quando o Tidy não encontra nada de que se queixar submeta-o ao <http://validator.w3.org> para ter o selo oficial de aprovação. Por favor corra estas confirmações antes de submeter o seu HTML; geralmente podemos corrigi-lo por si mas pode exigir-nos montes de trabalho.

Produzir HTML que faz efectivamente aquilo que você que é igualmente importante. Se converteu o livro electrónico a partir de texto, pode ter criado inconsistências ou fechado uma etiqueta de itálico no local errado, ou utilizado a etiqueta em alguns pontos. A única forma de confirmá-lo é lendo o HTML no seu navegador.

H.8. Posso enviar um HTML ou outro formato do texto produzido por outra pessoa?

Talvez.

Esta pergunta tem várias complicações. Primeiro, você deve entender que é bastante possível, até provável, que o seu ficheiro de HTML seja eventualmente reescrito por informação melhor.

O valor de um ficheiro de HTML, em oposição a um ficheiro de texto puro, reside na sua capacidade para captar elementos do original que tenham sido perdidos no texto puro. Um ficheiro de texto puro, que utilize conjuntos de caracteres estendidos, como ISO-8859 [V.76] ou Unicode [V.77] e _traços baixos_ pra os itálicos, consegue captar toda a intenção do autor na maioria dos casos. Algumas vezes, as imagens e outras características importantes do original não podem ser captadas num texto puro sozinho, mas podem ser captadas no HTML ou outras marcações.

Quando o Michael Hart deixou de postar livros, em Setembro de 2001, tínhamos formatos HTML de cerca de 1,6% de todos os nossos livros electrónicos. No final de 2002, isso cresceu para aproximadamente 11% de todos os nossos livros electrónicos. Na Primavera de 2004, aumentou ainda mais para cerca de 28% de todos os nossos livros electrónicos, Se você tem uma cópia desobstruível de um livro postado já existente, com características extra não incluídas no texto puro original, encorajá-lo-íamos e fazer uma nova edição, ou versão, ou formato, corrigindo quaisquer erros do original e adicionando qualquer nova informação não incluída lá.

Se, por outro lado, você apenas quer fazer uma "conversão de formato cega" — fazendo a sua melhor suposição quanto ao que o esquema de HTML, ou outro formato, deveria ser para um livro que nunca viu, com base no trabalho do produtor original — a sua melhor aposta é entrar em contacto com o produtor original e perguntar-lhe se este lhe pode fornecer mais material com o qual trabalhar. De outro modo, você estará, quanto muito, a reorganizar a informação, mais do que a contribuir com algo novo.

Uma conversão de formato cega pode ser feita em qualquer coisa entre 2 minutos [R.33] a uma hora. Para nós, não faz, simplesmente, sentido continuar a postar estes ficheiros quando eles não contêm nada de novo e, especialmente, quando duas pessoas podem querer converter o mesmo texto. é provável que, algures dentro dos próprios anos, iniciemos um projecto de conversão a larga escala, para acrescentar alguma forma de marcação a todos os ficheiros de texto existentes, para facilidade de serviço, e ter um imbróglio de estilos de marcação com os quais lidar nessa altura também não ajudará.

H.9. Que tamanho podem ter as imagens num ficheiro de HTML?

As imagens devem ser tão grandes quanto necessário, e não maiores do que isso.

Desculpe, mas não existe um número claro que possamos dar aqui. Os desenhadores de páginas da Rede suam gotas de sangue para poupar mais 20K numa página; por isso você também o deverá fazer. Se você for um produtor de HTML experiente, sabe estas coisas; se não for, tome como directriz que deverá, geralmente, ter em vista manter as suas imagens numa faixa de 40 a 60K de tamanho, com incursões ocasionais no território de 80-100K. Isso é normalmente grande o suficiente para uma imagem nítida, a não ser que esteja a reproduzir obras de arte.

H.10. As imagens que digitalizei são muito grandes para serem incluídas no HTML. O que posso fazer?

Isto é um problema comum, quando as imagens de um livro ocupam uma página inteira ou metade. As suas imagens devem ter um tamanho apropriado para descarga, e 2 megabytes de digitalização de alta qualidade por imagem não é mesmo um tamanho apropriado para a maioria dos textos do PG!

Deve reduzir o tamanho, e talvez a qualidade, da digitalização original para fins de visualização simplificada. Existem montes de programas de manipulação de imagem para fazer isto. Para o Windows, pode ver o programa livre Irfanview, e tanto para o *nix como para o Windows existe o ImageMagick [P.1]. Procure as palavras "resize" e "resample" em Help.

Para além de serem simples conversores, que fazem o suficiente para este fim, você pode também manipular as imagens em pacotes completos de criação de imagens e edição como os Paint Shop Pro, Adobe Photoshop e The Gimp [P.1].

Os diferentes métodos de codificação de imagem podem fazer uma enorme diferença no tamanho do ficheiro. Qualquer um dos pacotes mencionados consegue codificar as imagens como GIF, JPEG ou PNG e, em especial para desenhos a branco e preto, podem codificar em tamanhos muito diferentes. Por isso, por exemplo, uma JPEG de 60K pode ser guardada como uma GIF de 30K uma vez que a codificação GIF funciona melhor para aquela imagem em particular. Tente com as suas imagens e veja o que funciona melhor.

De um modo geral, em 2004, é melhor guardar as imagens em JPEG (.jpg) ou em PNG (.png). Tudo o que funcionou bem como GIF funcionará, provavelmente, igualmente bem, ou melhor, como PNG, por isso a escolha principal é entre PNG e JPEG.

O JPEG tende a funcionar melhor — isto é, tendo em conta a qualidade da imagem vs. tamanho do ficheiro — para imagens que se parecem com fotografias, com um fundo sombreado (i.e., sem ser um branco ou preto puros), enquanto o PNG é preferível para desenhos nítidos a preto com um fundo branco. A razão é que a "compressão com perdas" do JPEG pode poupar muito tamanho de ficheiro ao remover pequenos pixéis pretos e brancos individuais no sombreado, nos quais o olho humano não reparará especialmente, um pouco do mesmo modo que os ouvidos humanos não reparam nas frequências perdidas nas gravações digitais.

Se a sua imagem é simplesmente adequada para um tratamento JPEG, é muito provável que você obtenha um ficheiro .jpg muito bom com cerca de 50k de tamanho.

Uma vez que a maioria das pessoas verão essas imagens num navegados num monitor com uma resolução abaixo ou à volta de 1000 pixéis de comprimento, deverá fazer as suas imagens, principalmente, não muito mais largas que 600 pixéis. Se tem uma imagem com 2000 ou 3000 pixéis de largura resultante de uma digitalização original, precisa de pensar em redimensioná-la.

Quando estiver a manipular imagens, trabalhe sempre a partir do seu original. Não converta o seu original para um JPEG para depois o diminuir e converter para PNG. Dependendo do formato, as imagens podem perder definição à medida que são convertidas (pesquise por "compressão com perdas" no seu motor de pesquisa favorito para descobrir mais acerca disto) e perdem definitivamente definição à medida que são redimensionadas a você acaba com um efeito "cópia imperfeita de uma cópia imperfeita de uma . . ." Quando estiver a fazer a fazer experiências, peque no seu original, redimensione e Salve Como PNG, então regresse ao seu original, redimensione, Guarde Como JPG e por aí em diante.

Também pode utilizar um optimizador de imagem. Estes são programas especialistas que tenta fazer os ficheiros de imagem mais pequenos sem sacrificar a resolução ou o detalhe.

H.11. Posso incluir imagens decorativas que criei ou encontrei?

Não.

Por favor, inclua apenas as imagens que tirou do livro. Se quer fazer uma edição do livro para o seu próprio sítio, pode, claro, usar o que gostar aí mas para os fins do PG, queremos o livro, todo o livro, e nada mais que o livro.

H.12. Como posso fazer uma versão de texto puro a partir de um ficheiro em HTML?

Pode editar o HTML à mão, claro, mas existem várias maneiras mais simples para converter.

Pode ver o HTML num navegador, Seleccionar Todo o texto e simplesmente Copiar e Colar no seu editor. Isto é mais fácil, mas não manipula tão bem a formatação, como tabelas.

Pode utilizar o navegador Lynx [P.1] para converter o seu texto com o comando

lynx -dump myfile.html > myfile.txt

O HTMSTRIP para MS-DOS [P.1] de Bruce Guthrie é muito configurável.

<http://www.w3.org/Tools/html2things.html> tem uma lista de outros conversores de HTML para texto puro.

H.13. Como posso fazer uma versão HTML a partir do meu ficheiro de texto puro?

Isto não é um curso de HTML mas, para a maioria dos livros, você não precisará, na verdade, de um curso em HTML. Fazer um formato HTML da maioria dos livros é muito fácil e não demora muito tempo, assim que você domine o HTML básico. Partamos do princípio que você tem o seu ficheiro completo de texto puro do PG preparado e caminhemos pelos passos normalmente necessários para fazer uma versão de HTML. Faremos isto por aproximação sucessiva, fazendo as coisas maiores em primeiro ligar e tratando depois progressivamente com os detalhas.

Existem por aí montes de editores de HTML especializados mas você não precisa, na verdade, de nenhum deles. O mesmo editor que você utilizou para criar o seu texto também criará o seu HTML. O HTML é apenas texto, com dois tipos de instruções especiais acrescentadas: etiquetas e entidades.

Uma etiqueta é uma instrução para o navegador, normalmente para mostrar algo de acordo com regras específicas. As etiquetas revelam-se dentro de parênteses angulares: por exemplo,

é a instrução para começar um novo parágrafo. Uma entidade é um caracter especial nomeado que pode não estar disponível no seu conjunto de caracteres. As entidades revelam-se começando com um símbolo de e comercial "&" e acabando com um ponto e vírgula ";" : por exemplo &mdash; é a representação para um travessão. Estou a marcar um texto curto inventado enquanto escrevo estes passos, vagamente baseado na página de exemplo da questão [V.121]. Você pode ver as mudanças feitas em cada estádio olhando para os ficheiros

Ver Fonte (texto antes de começar)
htmstep1.htm Ver Fonte (depois de acrescentar o cabeçalho e rodapé de HTML)
htmstep2.htm Ver Fonte (depois de acrescentar as marcas de parágrafo)
htmstep3.htm Ver Fonte (depois de marcar os títulos principais)
htmstep4.htm Ver Fonte (depois de acrescentar quebras de linha especiais e avanços)
htmstep5.htm Ver Fonte (depois de acrescentar itálicos e negrito)
htmstep6.htm Ver Fonte (depois de acrescentar acentos e caracteres não-ASCII)
htmstep7.htm Ver Fonte (depois de acrescentar uma imagem)
htmstep8.htm Ver Fonte (mostrando algumas técnicas extra)

Antes de começar, certifique-se que consegue ver estes ficheiros tanto no seu navegador como no eu editor. No seu editor, deve ver os códigos de HTML; no seu navegador, deve ver o texto tal como se destina a ser visto.

Nota para as pessoas que já sabem HTML: sim, este exemplo omite montes de formas possíveis de fazer as coisas e montes de refinamentos. Já sabe como fazer o que quer &mdash salte adiante e dê espaço aos iniciados para que aprendam em paz! :-)

Passo 1. Acrescente a informação do cabeçalho e rodapé do HTML

Acrescente as linhas seguintes no início do seu ficheiro de texto:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
<title>The Project Gutenberg eBook of Meu Livro, by N. A. Autor</title>
</head>
<body>

Vamos explicar isto um de cada vez

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">

diz que o seu ficheiro está em HTML 4.01 Transitional, que é a última versão, permitindo um leque mais largo de etiquetas e entidades.

<html>

revela o início do HTML

<head>

revela o início da informação de cabeçalho de HTML.

<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">

diz que os caracteres são texto, usando a codificação ISO-8859-1, Se precisar de usar um conjunto de caracteres diferente, deve mudar ISO-8859-1 para o que tenciona utilizar. ISO-8859-1 é bom para montes de livros do PG em Inglês que usam palavras em Francês ou Alemão.

<title>The Project Gutenberg eBook of Meu Livro, by N. A. Autor</title>

deverá obviamente mudar isto para o título e autor reais que estiver a produzir. O

</head>

revela o fim da informação de cabeçalho de HTML e

<body>

revela o início do texto real propriamente dito - o corpo do livro.

Mesmo no final do ficheiro, deve acrescentar estas duas linhas

</body>
</html>

estas revelam o fim do corpo do livro e o fim do HTML.

Por esta altura, você tem, mesmo, um ficheiro HTML válido! OK, se o vir num navegador, não se parecerá nada com aquilo que é suposto parecer-se mas é HTML. Guarde-o com um nome como MYFILE1.HTM ou STEP1.HTM e obtenha uma cópia do Tidy para o seu sistema DOS, Unix, Mac ou Windows a partir de <http://tidy.sourceforge.net>. Corra o Tidy no seu ficheiro, dizendo-lhe que procure erros (tidy -e se correndo a partir de uma linha de comandos; se estiver a usar uma versão GUI, deve existir uma opção no menu ou caixa para mostrar apenas os erros). O Tidy diz-lhe que não existem erros. Upppaaa!

Se ele disser efectivamente que existem erros, trate deles agora, antes de continuar. Assegure-se, em cada passo, que eliminou todos os erros; é muito mais fácil agora do que mais tarde. Também, quando tiver terminado cada passo, guarde o seu ficheiro com um número no seu nome para que, se se deparar com problemas mais tarde e ficar confundido, possa, pelo menos, voltar à versão corrigida no fim do passo anterior.

Os erros mais prováveis que poderá ter nesta altura relacionam-se com os caracteres "<", ">", ou "&". Estes são caracteres usados pelo HTML para indicar etiquetas e entidades, Se estes caracteres forem usados no texto do seu ficheiro (e é provável que o e comercial o seja) deverá substituí-los por entidades, para que o HTML saiba que são para ser mostrados como caracteres e não interpretados como comandos.

Substitua

&  por &amp;
<  por  &lt;
>  por  &gt;

Há um exemplo disto no ficheiro htmstep1.htm

Passo 2. Acrescente marcas de parágrafo.

Para os romances e prosa em geral, os parágrafos são a unidade lógica principal e de exposição. Os parágrafos são marcados em HTML com o sinal <p> no início e </p> no final. Você não precisa, realmente, do </p> non final ,as acrescentá-los é um bom hábito que pode ganhar. Precisa efectivamente, mesmo, do <p> no princípio.

O tamanho das linhas dentro de um par <p> </p> é irrelevante; o navegador no qual o texto é visto irá ignorar espaços extra e finais de linha e irá embrulhar o texto para se encaixar no monitor. Isto é mau para poesia e tabelas mas nos discutiremos isso mais tarde. Para este passo, tudo o que você precisa de saber é que pode deixar o texto exactamente como está e, simplesmente, acrescentar as marcas de parágrafo.

Ponha um <p> no início da linha antes da primeira letra de cada parágrafo e um </p> logo após a última letra ou pontuação de cada parágrafo. Se conseguir fazer macros no seu editor, isto levará apenas um minuto; de outra forma, isto poderá ser algo entediante mas pelo menos é simples. Para este passo, coloque as marcas de parágrafo em volta de tudo o que tenha uma linha em branco antes, mesmo em poesia ou títulos de capítulo. Voltaremos mais tarde para mudar isso.

Agora guarde o seu texto com qualquer coisa como MYFILE2.HTM ou STEP2.HTM. Novamente, corra o Tidy para procurar erros e corrija-os antes de continuar.

Se olhar agora para o ficheiro htmstep2.htm no seu navegador, verá que começa a tomar forma. Veja-o no seu editor e verá as marcas de parágrafo.

Passo 3. Acrescente marcas para títulos.

Queremos indicar ao leitor que certas linhas são para capítulos ou outros títulos. O HTML fornece as etiquetas <h1>, <h2>, e por aí em diante, para isto. O <h1> é para o título maior e normalmente, reservá-lo-á para o título do livro e usará <h2> para os títulos de capítulo. Se os achar demasiado grandes, pode escolher <h2> para os títulos principais e <h3> para os capítulos. Independentemente de utilizar uma ou outra destas etiquetas de título, deve sempre fechá-la com a sua etiqueta de fechamento equivalente. Portanto, um título de capítulo poderá parecer-se com:

<h2>Capítulo XI</h2>

Uma vez que não existirão muitos títulos e que a maior parte dos títulos são apenas de uma linha, isto não costuma ser difícil. Olhe para o ficheiro htmstep3.htm para ver como a nossa amostra está a melhorar e, se você está a ir trabalhando ao mesmo tempo que eu, não se esqueça de guardar o ficheiro sob um novo nome e verificá-lo.

No nosso exemplo, mascámos algumas linhas com marcas de parágrafo onde queremos agora colocar títulos por isso teremos de mudar esses <p> para <h2> uma vez que não precisamos ou queremos marcar uma linha com ambos.

Passo 4. Alinhar versos, tabelas de conteúdos e outras listas.

A etiqueta de HTML <br> diz ao navegador para forçar uma quebra de linha sem começar um novo parágrafo. Usamos isto quando não queremos o texto todo embrulhado um no outro, mas também não o queremos separados por linhas em branco, por exemplo, nos versos ou tabelas de conteúdos.

Na nossa amostram acrescentamos a etiqueta <br> no final de cada linha na tabela de conteúdos e no final de cada linha de verso. Se estivermos a trabalhar num livro inteiro de poesia, aplicar-se-á o mesmo princípio, mas estaríamos a utilizar a etiqueta <br> muito mais vezes.

Onde quisermos avançar uma linha de poesia, podemos usar   no início da linha. Normalmente, apesar dos muitos espaços que você possa deixar entre as palavras, o HTML condensa-os em um espaço por isso os avanços normais não funcionam. Mas a entidade "espaço sem quebras" fará com que o navegador mostre um espaço para cada caracter, por isso você poderá avançar tanto quando necessitar.

O ficheiro htmstep4.htm mostra o efeito: agora está um texto em HTML inteiramente legível!

Passo 5. Acrescente de volta os itálicos e negrito.

A etiqueta de HTML <i> diz ao navegador para começar a mostrar itálicos e a </i> diz-lhe para parar. Similarmente, a etiqueta <b> diz-lhe para mostrar negritos e a </b> masca o fim do texto a negrito. Veja htmstep5.htm para as mudanças.

Passo 6. Restaure os acentos e caracteres especiais.

Desde que declarámos que o nosso ficheiro de HTML usasse ISO-8859-1 logo no início, podemos usar qualquer um dos caracteres acentuados comuns para as línguas do Europeu Ocidental, mas podemos também usar entidades de HTML. Por exemplo, para o â em "flâneur" podemos usar tanto o caracter ISO-8859 directamente, como o nome da entidade de HTML â ou o número â.

Existe uma contrapartida entre caracteres e entidades: as entidades não o limitam a nenhum conjunto de caracteres em particular, mas os caracteres são directamente legíveis quando olhando para a fonte do HTML.

Dentro das entidades, também existe uma contrapartida entre ois nomes de entidade e os números: os navegadores mais antigos podem não reconhecer alguns dos nomes de entidade, mas as entidades fazem mesmo o texto funcionar em múltiplos conjuntos de caracteres, Aquele que escolher é inteiramente consigo mas é melhor ser consistente; se gosta de entidades use-as em todo o lado. As entidades podem ser representadas pelos seus nomes — por exemplo, — — ou pelo seu número, derivado do seu número de ISO-10646 (veja Unicode) — por exemplo, —.

Existem outras entidades especiais de caracteres qie você pode escolher, ou substituir os equivalentes em ASCII no texto principal. Aqui ficam algumas das habituais:

Eu já vi

&amp;    &#38;   e comercial     substitui    "&"
&lt;     &#60;   inferior     substitui    "<"
&gt;     &#62;   superior  substitui    ">"
&nbsp;   &#160;  espaço         substitui um espaço quando você quer avançar

e estas são também muito úteis para muitos textos do PG:

&mdash;  &#8212; travessão       substitui    "--"
&deg;    &#176;  grau        substitui    "deg." ou "degrees"
&pound;  &#163;  Libra Britânica substitui    "L" ou "l" ou "pounds"

Existem muitas outras. <http://www.w3.org/TR/html4/sgml/entities.html> tem uma lista mais completa. Por favor, note que você não tem de utilizar estas entidades no seu HTML; se está satisfeito com que apareça no texto "500 pounds",, não é preciso transformá-lo em £500.

Fiz algumas mudanças de entidade em htmstep6.htm.

Passo 7. Ligue as Imagens ao seu texto.

Primeiro, você precisa de ter as suas imagens preparadas, Já deve ter redimensionado a sua imagem para o tamanho em que quer que ela seja vista. Também deve tê-la guardado como uma imagem GIF, JPG ou PNG, uma vez que estes são os formatos mais suportados pelos navegadores actuais.

Se a sua imagem tiver o nome front.gif e for uma imagem do frontispício do livro, você deve acrescentar a linha

<img src="front.gif" alt="Frontispiece">

ao seu HTML no sítio em que quer que ele seja mostrado.

O texto "alt" dá um rótulo à imagem e aparece se a imagem não conseguir ser mostrada ou no caso de um navegador para deficientes visuais.

Não tem de acrescentar imagens ao seu ficheiro HTML, a não ser que queira. Em muitos livros mais velhos, não existem imagens de todo a serem acrescentadas.

O meu HTML final está agora no htmstep7.htm. Você precisa de ter a imagem front.gif na mesma directoria de forma a vê-la. Quanto o seu texto em HTML for postado, as imagens serão descomprimidas juntamente com ele, para que futuros leitores as possam ver.

Passo 8. É a sua vez!

Isto é o suficiente para fazer um formato de HTML razoável para a maioria dos textos do PG, mas não abrange tudo o que pode ser feito em HTML. Se chegou até aqui, recomendo os tutoriais do W3C.

<http://www.w3.org/MarkUp/Guide/>

e

<http://www.w3.org/MarkUp/Guide/Advanced.html>

que abarca o caminho que acabámos de percorrer e vai um poucochinho mais além.

Aqui ficam mais algumas coisas que você pode querer saber, mas não fique doido a adicionar etiquetas apenas porque consegue! Use-as apenas quando realmente precisa delas. O ficheiro htmstep8.htm mostra algumas destas técnicas. Pessoalmente, acho que isto é um pouco excessivo e prefiro o efeito do htmstep7, com os títulos de capítulo alinhados à esquerda, mas isso é uma questão de gosto.

Assim que estiver habituado ao HTML básico necessário para a maioria dos livros electrónicos do PG, será provavelmente capaz de converter um em menos de uma hora.

Como forço um espaço maior entre parágrafos específicos?

Use uma etiqueta <br> extra.

Como é que centro o texto, as imagens ou os títulos?

Ponha as etiquetas <center> e </center> à volta daquilo que quer centrar, como <center><h2>Capítulo 12</h2></center>

Como é que aumento ou diminuo o tamanho do texto?

Ponha as etiquetas <big> e </big>, ou <small> e </small> à volta dele.

Como é que disponho informação tabular?

A forma mais simples de fazer isto é com as etiquetas <pre> e </pre>. Estas farão com que o que quer que esteja dentro delas seja mostrado como texto puro, tal como estava no original, pelo que os espaços separam as entradas tal como faziam na versão de texto. Também pode usar isto para a poesia embora, normalmente, não vá precisar. Isto não é inteiramente satisfatório, mas funcionará.

fazer uma tabela completamente em HTML exige que você use as etiquetas <table>, <tr> ("table row", linha), e <td> ("table detail", detalhe da tabela), entre outras, e uma exposição completa das tabelas está para além do escopo destas PergFreq.

Brevemente, você começa uma tabela com a etiqueta <table>.

<table>
</table>

Para cada linha que quer numa tabela, você abre e fecha a etiqueta de linha de tabela <tr>, como:

<table>
  <tr>
  </tr>
  <tr>
  </tr>
</table>

e depois, para cada célula dentro da linha, especifica uma etiqueta <td> e os conteúdos dessa célula:

<table>
  <tr>
    <td>Esta é a célula Superior Esquerda</td>
    <td>Esta é a célula Superior Direita</td>
  </tr>
  <tr>
    <td>Esta é a célula Inferior Esquerda</td>
    <td>Esta é a célula Inferior Direita</td>
  </tr>
</table>

Isto apenas toca na superfície do assunto das tabelas. Contudo, existem muitos guias disponíveis na Rede e são fáceis de encontrar assim que você souber que etiquetas está a procurar. É fornecida uma breve discussão sobre tabelas pelo W3C como parte das especificações de HTML 4.01 em <http://www.w3.org/TR/html4/struct/tables.html#h-11.5> e o tutorial em <http://www.w3.org/MarkUp/Guide/Advanced.html> também mostra como fazer tabelas.

Passo 9. Alguns problemas comuns

Quando está apenas a começar a codificar em HTML, pode parecer que os erros estão a aparecer-lhe de todos os lados. O Tidy pode cuspir uma corrente de queixas que você não reconhece ou compreende. Se servir de consolo, isto é normal!

Pegue simplesmente na lista de erros uma linha de cada vez, começando pelo princípio. Frequentemente, um erro real, como não fechar uma etiqueta, pode causar muitos erros, uma vez que uma etiqueta não fechada pode fazer com que muitas etiquetas subsequentes sejam reportadas como erros.

os erros comuns incluem:

  1. Erros tipográficos simples nas etiquetas, como <h2Capítulo 3</h2> em vez de <h2>Capítulo 3</h2>
  2. Etiquetas não fechadas, como esquecer-se de acrescentar o </h2> na amostra acima, ou esquecer-se da barra na etiqueta de fechamento pelo que escreve <i>itálicos<i> em vez de <i>itálicos</i>.
  3. Não aninhar as etiquetas correctamente. Habitue-se a pensar nas etiquetas como parênteses; a primeira aberta deve ser a última fechada. Por exemplo, deverá escrever:


<center><p>Isto está centrado.</p></center>

em vez de

<p><center>Isto está centrado.</p></center>
Uma opção para fazer uma versão HTML é usar o GutenMark <http://www.sandroid.org/GutenMark/> para criar o HTML básico directamente a partir do texto e então editar o HTML resultante para acrescentar as características que você queira. Se estiver a ter muitos problemas com a sua conversão principal, vale a pena tentar isto.