E-books e seus formatos: FB2 e FB3 - história, prós, contras e princípios de trabalho

No artigo anterior falamos sobre recursos do formato DjVu. Hoje decidimos focar no formato FictionBook2, mais conhecido como FB2, e seu “sucessor” FB3.

E-books e seus formatos: FB2 e FB3 - história, prós, contras e princípios de trabalho
/flickr/ Judit Klein / CC

A aparência do formato

Em meados dos anos 90, os entusiastas começamos digitalizar livros soviéticos. Eles traduziram e preservaram literatura em uma ampla variedade de formatos. Uma das primeiras bibliotecas em Runet - Biblioteca de Maxim Moshkov - utilizou um arquivo de texto formatado (TXT).

A escolha foi feita a seu favor devido à sua resistência à corrupção de bytes e versatilidade - o TXT abre em qualquer sistema operacional. No entanto, ele dificultou processamento de informações de texto armazenadas. Por exemplo, para passar para a milésima linha, as 999 linhas anteriores tiveram que ser processadas. Livros também armazenado em documentos Word e PDF - este último era difícil de converter para outros formatos, e computadores fracos abriam e exibido Documentos PDF com atrasos.

HTML também foi usado para “armazenar” literatura eletrônica. Facilitou a indexação, a conversão para outros formatos e a criação de documentos (marcação de texto), mas introduziu suas próprias deficiências. Um dos mais significativos foi “imprecisão» padrão: permitia certas liberdades na hora de escrever tags. Alguns deles tiveram que ser fechados, outros (por exemplo, ) - não houve necessidade de fechá-lo. As próprias tags podem ter uma ordem de aninhamento arbitrária.

E embora esse trabalho com arquivos não fosse incentivado - tais documentos eram considerados incorretos - o padrão exigia que os leitores tentassem exibir o conteúdo. Foi aí que surgiram as dificuldades, pois em cada aplicação o processo de “adivinhação” foi implementado à sua maneira. Ao mesmo tempo, os dispositivos e aplicativos de leitura disponíveis no mercado naquela época compreendido um ou dois formatos especializados. Se um livro estivesse disponível em um formato, ele teria que ser reformatado para ser lido. Pretendia-se resolver todas essas deficiências Livro de ficção2, ou FB2, que assumiu a “penteação” inicial do texto e da conversão.

Observe que o formato teve sua primeira versão - Livro de ficção1 - no entanto, foi apenas de natureza experimental, não durou muito, atualmente não é suportado e não é compatível com versões anteriores. Portanto, FictionBook geralmente significa seu “sucessor” - o formato FB2.

O FB2 foi criado por um grupo de desenvolvedores liderados por Dmitry Gribov, que é o diretor técnico da empresa de litros, e Mikhail Matsnev, criador do Haali Reader. O formato é baseado em XML, que regulamenta o trabalho com tags não fechadas e aninhadas de forma mais estrita do que HTML. Um documento XML é acompanhado pelo chamado Esquema XML. Um esquema XML é um arquivo especial que contém todas as tags e descreve as regras para seu uso (sequência, aninhamento, obrigatório e opcional, etc.). No FictionBook, o diagrama está no arquivo FictionBook2.xsd. Um exemplo de esquema XML pode ser encontrado em link (é usado pela loja de e-books de litros).

Estrutura do documento FB2

Texto no documento mantido em tags especiais - elementos de tipos de parágrafo: , E . Há também um elemento , que não possui conteúdo e é utilizado para inserir lacunas.

Todos os documentos começam com uma tag raiz , abaixo do qual pode aparecer , , E .

Marcação contém folhas de estilo para facilitar a conversão para outros formatos. EM mentira codificada usando base64 dados que podem ser necessários para renderizar o documento.

Elemento contém todas as informações necessárias sobre o livro: gênero da obra, lista de autores (nome completo, e-mail e site), título, bloco com palavras-chave, anotação. Também pode conter informações sobre alterações feitas no documento e informações sobre a editora do livro, caso tenha sido publicado em papel.

Esta é a aparência de parte do bloco na entrada do FictionBook para trabalho "A Study in Scarlet", de Arthur Conan Doyle, retirado de Projeto Gutenberg:

<?xml version="1.0" encoding="iso-8859-1"?>
 <FictionBook 
  >
  <description>
    <title-info>
      <genre match="100">detective</genre>
      <author>
        <first-name>Arthur</first-name>
        <middle-name>Conan</middle-name>
        <last-name>Doyle</last-name>
      </author>
      <book-title>A Study in Scarlet</book-title>
      <annotation>
      </annotation>
      <date value="1887-01-01">1887</date>
    </title-info>
  </description>

O principal componente de um documento FictionBook é . Ele contém o texto do próprio livro. Pode haver várias dessas tags em todo o documento - blocos adicionais são usados ​​para armazenar notas de rodapé, comentários e notas.

FictionBook também fornece várias tags para trabalhar com hiperlinks. Eles são baseados na especificação XLink, desenvolvido pelo consórcio o W3C (Consórcio Mundial da Internet) especificamente para criar links entre diferentes recursos em documentos XML.

Vantagens do formato

O padrão FB2 inclui apenas o conjunto mínimo de tags exigido (suficiente para “projetar” ficção), o que simplifica seu processamento pelos leitores. Além disso, no caso de operação direta do leitor com formato FB, o usuário tem a oportunidade de personalizar quase todos os parâmetros de exibição.

A estrutura rígida do documento permite automatizar o processo de conversão do formato FB para qualquer outro. A mesma estrutura permite trabalhar com elementos individuais de documentos - configurar filtros por autores de livros, título, gênero, etc. Por esse motivo, o formato FB2 ganhou popularidade no Runet, tornando-se o padrão padrão nas bibliotecas e bibliotecas eletrônicas russas. nos países da CEI.

Desvantagens do formato

A simplicidade do formato FB2 é sua vantagem e desvantagem ao mesmo tempo. Isto limita a funcionalidade de layout de texto complexo (por exemplo, notas nas margens). Não possui gráficos vetoriais nem suporte para listas numeradas. Por esta razão o formato não muito adequado para livros didáticos, livros de referência e literatura técnica (o nome do formato até fala sobre isso - livro de ficção, ou “livro de ficção”).

Ao mesmo tempo, para exibir informações mínimas sobre o livro - título, autor e capa - o programa precisa processar quase todo o documento XML. Isso ocorre porque os metadados vêm no início do texto e as imagens no final.

FB3 - desenvolvimento de formato

Devido ao aumento dos requisitos para formatação de textos de livros (e para mitigar algumas das deficiências do FB2), Gribov começou a trabalhar no formato FB3. O desenvolvimento parou mais tarde, mas em 2014 foi retomado.

Segundo os autores, eles estudaram as reais necessidades de publicação de literatura técnica, consultaram livros didáticos, livros de referência, manuais e traçaram um conjunto mais específico de tags que permitiriam a exibição de qualquer livro.

Na nova especificação, o formato FictionBook é um arquivo zip no qual metadados, imagens e texto são armazenados como arquivos separados. Os requisitos para o formato do arquivo zip e as convenções para sua organização são especificados no padrão ECMA-376, que define o Open XML.

Foram feitas uma série de melhorias relacionadas à formatação (espaçamento, sublinhado) e um novo objeto foi adicionado - um “bloco” - que formata um fragmento arbitrário de um livro na forma de um quadrilátero e pode ser incorporado ao texto com wraparound. Agora há suporte para listas numeradas e com marcadores.

O FB3 é distribuído sob licença gratuita e é de código aberto, portanto, todos os utilitários estão disponíveis para editores e usuários: conversores, editores em nuvem, leitores. Atual versão formatar, leitor и o editor pode ser encontrado no repositório GitHub do projeto.

Em geral, o FictionBook3 ainda é menos difundido que seu irmão mais velho, mas diversas bibliotecas eletrônicas já oferecem livros nesse formato. E a Litros anunciou há alguns anos a intenção de transferir todo o seu catálogo para um novo formato. Alguns leitores já suportam todas as funcionalidades necessárias do FB3. Por exemplo, todos os modelos modernos de leitores ONYX podem trabalhar com este formato imediatamente, por exemplo, Darwin 3 ou Cleópatra 3.

E-books e seus formatos: FB2 e FB3 - história, prós, contras e princípios de trabalho
/ ÔNIX BOOX Cleópatra 3

A distribuição mais ampla do FictionBook3 criará um ecossistema orientado para trabalhar de forma completa e eficaz com texto em qualquer dispositivo com recursos limitados: preto e branco ou tela pequena, pouca memória, etc. De acordo com os desenvolvedores, um livro, uma vez apresentado, será o mais conveniente possível em qualquer ambiente.

PS Chamamos sua atenção para várias análises de leitores ONYX BOOX:



Fonte: habr.com

Adicionar um comentário