PT-PG PergFreq Formatos dos Ficheiros
Do Project Gutenberg, o primeiro produtor de livros electrónicos (ou livros eletrônicos) grátis.
Que formatos publica o Project Gutenberg?
Em princípio, não existem formatos que não publiquemos mas, na prática, preferimos formatos que sejam abertos e editáveis.
Um formato aberto é aquele cuja estrutura esteja publicamente definida e documentada e não oneradas por restrições de patentes, segredos comerciais ou protecção contra cópia (também conhecida como "GDD"). Todas as pessoas podem escrever um leitor ou criador para um formato aberto e, daqui a 500 anos, qualquer pessoa interessada ainda será capaz de escrever um programa para mostrar o ficheiro. Os formatos fechados, por contraste, estarão ilegíveis, quase de certeza, dentro de apenas algumas décadas, quando as empresas que agora os promovem desaparecerem ou perderem interesse ou decidirem parar de as apoiarem porque querem vender um substituto.
Ser capaz de editar um ficheiro é também importante. Nós fazemos constantemente correcções às nossas edições e é importante para nós que consigamos actualizar os nossos ficheiros com facilidade. Se acrescentar uma palavra numa frase envolver uma remarcação completa de todo o texto e uma reconstrução completa do ficheiro, temos de perguntar aos voluntários se aquele formato é mesmo necessário para esse texto. Para além disso, também deve ser permitido que as pessoas que reutilizam os nossos ficheiros os copiem e reformatem livremente e os formatos não editáveis restringem a sua capacidade para fazer isto de várias formas.
O que são e como faço ou uso:
[Note: São listados aqui tanto conjuntos de caracteres como formatos. Os conjuntos de caracteres referem-se aos caracteres que você utiliza; os formatos descrevem como esses caracteres são juntos. Para formatos que não de texto, como ficheiros de música, não existe nenhum equivalente exacto a um conjunto de caracteres.]
ASCII (Conjunto de Caracteres)
ASCII (Código-Padrão Americano para Troca de Informação - "American Standard Code for Information Interchange") é um conjunto de caracteres comuns, incluindo quase tudo o que você consegue escrever num teclado de língua Inglesa. Inclui as letras A-Z, a-z, espaço, números, pontuação e alguns símbolos básicos. Todos os caracteres na versão inglesa deste documento são caracteres ASCII, e cada caracter é identificado por um número de 0 a 127 internamente no computador.
Você pode ver ou editar um texto em ASCII usando praticamente qualquer editor ou visualizador de texto do Mundo.
Big-5 (Conjunto de Caracteres)
Big-5 é um conjunto de 13.494 caracteres tradicionais Chineses. Precisará de usar um editor ou visualizador de texto que suporta este conjunto de caracteres.
Codepage 437, 850, 1252, etc. (Conjuntos de Caracteres)
Estes códigos de página são conjuntos de caracteres específicos da Microsoft que permitem mostrar caracteres acentuados e outros símbolos. Para ver um texto que usa um destes conjuntos, precisará de utilizar uma aplicação da Microsoft que os suporte. Muitos dos tipos de letra fornecidos pelo Word para o Windows mostrarão e editarão correctamente o CP-1252. Para os Codepages 437 e 850, você pode ter de abrir uma Linha de Comandos e usar um editor do DOS como o EDIT. Um formulário de pesquisa <http://www.microsoft.com> deverá revelar informação acerca da página de código na qual você está interessado, ou pode ler a revista excelente em <http://aspell.com/charsets/codepages.html>. Para os utilizadores de Unix, o iconv e o recode fornecem facilidades de tradução de um conjunto de caracteres para outro e suportam muitas ou todas páginas de código da MS.
DVI
DVI significa DeVice Independent, e é utilizado frequentemente para armazenar texto e instruções para o mostrar, envolvendo símbolos matemáticos complexos e expressões, embora possa ser utilizado para qualquer conteúdo. Dado um ficheiro DVI, você precisa de um visualizador para o reproduzir no dispositivo específico que esteja a utilizar. O DVI é usado especificamente como o formato de saída padrão para o TeX, discutido abaixo.
HTML/HTM (Formato)
A Linguagem de Marcação de Hipertexto ("HyperText Markup Language") define o formato padrão para as páginas da Rede. Você deve ser capaz de os ver em qualquer navegador de Rede, e editá-los com qualquer editor de texto um um editor de HTML especializado. <http://www.w3.org> é a referência decisiva.
ISO-8859/ISO-Latin (Conjuntos de Caracteres)
ISO-8859 é uma série de conjuntos de caracteres usados para representar os caracteres acentuados mais frequentemente utilizados em línguas Europeias. Existem o ISO-8859-1, ISO-8859, e por aí em diante. ISO-Latin é simplesmente outro nome para a mesma coisa. Pode ler a revista em <http://aspell.com/charsets/iso8859.html>.
LIT (Formato para livros electrónicos com base nos PDA)
Este é um formato proprietário, fechado, para ficheiros que apenas podem ser mostrados pelo Microsoft Reader. Pesquise em <http://www.microsoft.com> para mais informações. Não é possível editar ou corrigir ficheiros neste formato; não é possível exportar ficheiros a partir deste formato; têm de ser feitos noutro formato e convertidos.
MacRoman (Conjunto de Caracteres)
O MacRoman é um conjunto de caracteres de 8 bits específico da Apple Mac que permite mostrar caracteres acentuados e outros símbolos. Para ver um texto que usa MacRoman, terá de utilizar uma aplicação que o suporte e existem algumas fora da cerca da Apple. Contudo, o iconv e o recode são programas que fazem conversões entre muitos conjuntos de caracteres e o MacRoman é suportado por ambos.
MID/MIDI (Formato para música)
Interface Digital para Instrumento Musical ("Musical Instrument Digital Interface") é uma linguagem de descrição musical, incluindo não só formatos de ficheiro mas também definições de interfaces. Um ficheiro MIDI contém instruções para enviar mensagens para um instrumento musical e recriar os sons. <http://www.midi.org/> tem muito mais acerca disto.
MP3 (Formato para qualquer ficheiro de áudio)
MPEG-1, Level 3, foi definido pelo Grupo de Especialistas de Imagens em Movimento ("Moving Pictures Expert Group") como um meio para codificar sons. Existem muitos, muitos, tocadores de MP3 para todas as plataformas e podem ser facilmente encontradas numa pesquisa na Rede. A página oficial do MPEG é <http://www.chiariglione.org/mpeg/> e podem ser compradas cópias das especificações na ISO em <http://www.iso.ch>
MPEG/MPG (Formato para imagens em movimento)
O Grupo de Especialistas de Imagens em Movimento ("Moving Pictures Expert Group") lançou uma série de formatos para codificar vídeo e áudio. Os formatos MPEG (pronuncia-se éme-peg) estão publicados e são largamente utilizados. A página oficial do MPEG é <http://www.chiariglione.org/mpeg/> mas você encontrará informações acerca dos formatos MPEG, e programas para tocar os ficheiros MPEG, em todo o lado, na Rede. Também pode comprar as especificações pela <http://www.iso.ch>.
MUS (Formato para partituras)
O MUS da Coda Music <http://www.codamusic.com/> é um formato proprietário, fechado, para editar e reexecutar partituras. Contudo, postamos efectivamente ficheiros de música neste formato devido às suas muitas características. Esperamos ser capazes de postar também em mais formatos abertos a dada altura no futuro mas, de momento, não existe nenhum formato aberto com aptidões semelhantes. Pode descobrir mais acerca disto em <http://www.gutenberg.net/music/music_helpex.html#what-software>
PDB (Formato para livros electrónicos com base nos PDA)
O formato Base de Dados Palm ("Palm Data Base") pode ser efectivamente utilizado para outros fins que não os livros electrónicos e existem muitas variantes possíveis de formatos para os leitores com base nos Palm, todas utilizando a extensão PDB nos PC, e nem todas são inteiramente compatíveis. Algumas são proprietárias e pode não ser possível editá-las directamente ou exportar ficheiros a partir destes formatos; têm de ser feitas noutro formato e convertidas. Algumas podem ser convertidas de volta para texto. As mais comuns, contudo, são as variantes do formato "Palm-DOC", que é um formato aberto e pode ser editado no próprio Palm.
PDF (Formato para livros electrónicos)
O Formato de Documento Portátil ("Portable Document Format") é um formato para armazenar textos, contendo muitos tipos de letra e gráficos. Está protegido por direitos autorais pela Adobe <http://www.adobe.com> mas está bem e publicamente documentado. É referido por vezes como uma espécie de Postscript compilado (veja PS abaixo). É legível usando o Adobe Acrobat Reader. Não é possível editar ficheiros neste formato.
PRC (Formato para livros electrónicos com base nos PDA)
É um formato proprietário para ficheiros que podem ser exibidos apenas pelo MobiPocket Reader. Veja <http://www.mobipocket.com> para mais informações. Não é possível editar ou corrigir ficheiros neste formato; não é possível exportar ficheiros a partir deste formato; têm de ser feitos noutro formato e convertidos.
PS (Formato para texto e gráficos)
O Postscript é tecnicamente uma linguagem de programação, não apenas um formato. Tem declarações condicionais, procedimentos e controlo do curso do programa. Contudo, é frequentemente referido como um formato. A Adobe <http://www.adobe.com> detém os direitos autorais sobre as especificações do Postscript (já foram publicados três "níveis") mas o Postscript está bem e publicamente documentado e têm um amplo suporte, não apenas na impressão, mas também na exibição no monitor também. Para além da versão oficial da Adobe, você pode também apresentar os ficheiros do Postscript com o Ghostscript, um pacote de Software Livre. O Postscript pode ser editado directamente mas qualquer edição complexa pode apresentar dificuldades.
RTF (Formato para texto)
O Formato de Texto Rico ("Rich Text Format") era originalmente uma especificação da Microsoft, mas é um formato aberto que é utilizado por muitos processadores de texto para trocar texto e informação de formato de uma forma independente de aplicações. Quase todos os processadores de texto actuais lerão e editarão um ficheiro RTF e, como o HTML, pode também ser editado como texto puro.
TXT
TXT é uma extensão genérica usada para qualquer ficheiro de texto puro ou plano, independentemente do conjunto de caracteres. Portanto, ainda que a maioria dos nossos ficheiros .TXT contenha ASCII, alguns contêm ISO-8859 ou Big-5 ou Unicode.
TeX (Formato para composição tipográfica e matemática)
O TeX (pronunciado "teq"-- o "X" é, na verdade, a letra grega khi) é um formato em domínio público criado por Donald Knuth para composição tipográfica embora possa também ser usado para impressão e visualização normais. é a maneira normal para lidar com textos matemáticos e outros documentos que contenham muitos símbolos técnicos uma vez que tem um suporte mesmo bom para eles. o TeX consiste principalmente em texto puro, com instruções sobre como deve ser mostrado. É compilado em formato DVI (ver acima) que pode ser exibido em qualquer dispositivo, como uma impressora ou monitor, por um programa que esteja consciente das capacidades do dispositivo. Mais habitualmente, o TeX é compilado em formatos PDF para visualização. A Comprehensive TeX Archive Network <http://www.ctan.org/> é o melhor lugar onde começar a procurar programas relacionados com o TeX para a sua plataforma.
Unicode/UTF-8, UTF-16, UTF-32 (Conjunto de caracteres)
O Unicode pretende ser um conjunto de caracteres único que consiga lidar com todos os caracteres de todas as línguas que alguma vez existiram ou existirão. Está de acordo com o padrão ISO-10646 para os caracteres mas, além do mais, impõem regras de imlementação. UTF-8, UTF-16, UTF-32 e suas variantes são formas de implementar o Unicode usando regras diferentes para transformar códigos de pontos abstractos em bytes. O Unicode está ganhar terreno firmemente, com pelo menos um suporte em cada sistema operativo mais importante, mas ainda não estamos perto do ponto em que qualquer pessoa possa simplesmente abrir um texto baseado no Unicode, lê-lo e editá-lo. Geralmente, quando nós postamos em Unicode, usamos o formato da transformação UTF-8, uma vez que é o mais geralmente suportado. Espreite < http://www.unicode.org > para mais informações.
XML (Formato para … bem, quase tudo :-)
A Linguagem de Marcação eXtensível ("eXtensible Markup Language") parece-se um pouco com o HTML mas, ao passo que etiquetas como <p> têm um significado padrão no HTML, o XML permite a qualquer pessoa definir o seu próprio conjunto de etiquetas e significados usando um ficheiro de Definição do Tipo de Documento ("Document Type Definition ") (DTD).Acrescente a isso um ficheiro CSS (Folha de Estilos em Cascata, " Cascading Style Sheets") e programas de conversão e poderá "automagicamente" fazer também outros formatos. Em princípio, isto parece ideal para o armazenamento e processamento de textos electrónicos, uma vez que uma DTD e CSS e XSL convenientes, juntamente com os programas certos, poderá tornar possível produzir qualquer formato de livro electrónico automaticamente a partir de um XML original. Alguns voluntários do PG procuraram, e estão à procura, de converter o arquivo inteiro utilizando uma DTD satisfatória; contudo, entretanto nos não estamos efectivamente a produzir muito XML, uma vez que a maioria dos voluntários não estão a trabalhar com isso e ninguém quer começar a produzir muitos textos em XML até que tenhamos acordado nos padrões. <http://www.w3.org/XML/> é a fonte decisiva para mais informação acerca de XML.