Libros electrónicos e os seus formatos: FB2 e FB3 - historia, pros, contras e principios de traballo

No artigo anterior falamos características do formato DjVu. Hoxe decidimos centrarnos no formato FictionBook2, máis coñecido como FB2, e no seu "sucesor" FB3.

Libros electrónicos e os seus formatos: FB2 e FB3 - historia, pros, contras e principios de traballo
/flickr/ Judit Klein / CC

A aparencia do formato

A mediados dos 90, entusiastas comezou dixitalizar libros soviéticos. Traducían e conservaban literatura nunha gran variedade de formatos. Unha das primeiras bibliotecas de Runet - Biblioteca de Maxim Moshkov - utilizou un ficheiro de texto formateado (TXT).

A elección foi feita ao seu favor debido á súa resistencia á corrupción dos bytes e á súa versatilidade: TXT abre en calquera sistema operativo. Porén, el púxoo difícil procesamento da información de texto almacenada. Por exemplo, para pasar á milésima liña, houbo que procesar 999 liñas anteriores. Libros tamén almacenado en documentos de Word e PDF - este último era difícil de converter a outros formatos e abríanse ordenadores débiles e mostrado Documentos PDF con atrasos.

Tamén se utilizou HTML para "almacenar" literatura electrónica. Facilitou a indexación, a conversión a outros formatos e a creación de documentos (etiquetado de texto), pero introduciu as súas propias deficiencias. Un dos máis significativos foi “vaguidade» estándar: permitía certas liberdades á hora de escribir etiquetas. Algúns deles tiveron que ser pechados, outros (por exemplo, ) - non houbo que pechalo. As propias etiquetas poden ter unha orde de anidación arbitraria.

E aínda que non se fomentaba ese traballo con ficheiros -eses documentos eran considerados incorrectos-, o estándar esixía que os lectores tentasen mostrar o contido. Aquí é onde xurdiron as dificultades, xa que en cada aplicación o proceso de “adiviñar” se implementaba ao seu xeito. Ao mesmo tempo, os dispositivos de lectura e aplicacións dispoñibles no mercado nese momento entendido un ou dous formatos especializados. Se un libro estaba dispoñible nun só formato, había que reformatear para poder ser lido. Pretendíase solucionar todas estas deficiencias Libro de ficción 2, ou FB2, que asumiu o "peiteado" inicial do texto e a conversión.

Teña en conta que o formato tivo a súa primeira versión - Libro de ficción 1 - porén, só foi de natureza experimental, non durou moito, actualmente non está soportado e non é compatible con versións anteriores. Polo tanto, FictionBook a miúdo significa o seu "sucesor": o formato FB2.

FB2 foi creado por un grupo de desenvolvedores liderado por Dmitri Gribov, que é o director técnico da empresa de litros, e Mikhail Matsnev, o creador do Haali Reader. O formato baséase en XML, que regula o traballo con etiquetas non pechadas e aniñadas de forma máis estrita que HTML. Un documento XML vai acompañado do chamado esquema XML. Un esquema XML é un ficheiro especial que contén todas as etiquetas e describe as regras para o seu uso (secuencia, anidación, obrigatoria e opcional, etc.). En FictionBook, o diagrama está no ficheiro FictionBook2.xsd. Pódese atopar un exemplo de esquema XML en Ligazón (utilízao a tenda de libros electrónicos de litros).

Estrutura do documento FB2

Texto no documento almacenados en etiquetas especiais - elementos dos tipos de parágrafo: , E . Tamén hai un elemento , que non ten contido e serve para inserir ocos.

Todos os documentos comezan cunha etiqueta raíz , debaixo do cal pode aparecer , , E .

Etiquetar contén follas de estilo para facilitar a conversión a outros formatos. EN lie codificado usando base 64 datos que poden ser necesarios para render o documento.

Elemento contén toda a información necesaria sobre o libro: xénero da obra, lista de autores (nome completo, enderezo de correo electrónico e páxina web), título, bloque con palabras clave, anotación. Tamén pode conter información sobre os cambios realizados no documento e información sobre a editorial do libro se este foi publicado en papel.

Así se ve unha parte do bloque na entrada FictionBook para obras "A Study in Scarlet" de Arthur Conan Doyle, tomado de Proxecto Gutenberg:

<?xml version="1.0" encoding="iso-8859-1"?>
 <FictionBook 
  >
  <description>
    <title-info>
      <genre match="100">detective</genre>
      <author>
        <first-name>Arthur</first-name>
        <middle-name>Conan</middle-name>
        <last-name>Doyle</last-name>
      </author>
      <book-title>A Study in Scarlet</book-title>
      <annotation>
      </annotation>
      <date value="1887-01-01">1887</date>
    </title-info>
  </description>

O compoñente clave dun documento de FictionBook é . Contén o propio texto do libro. Pode haber varias destas etiquetas ao longo do documento; utilízanse bloques adicionais para almacenar notas ao pé, comentarios e notas.

FictionBook tamén ofrece varias etiquetas para traballar con hipervínculos. Están baseados na especificación XLink, desenvolvido polo consorcio W3C específicamente para crear enlaces entre diferentes recursos en documentos XML.

Vantaxes do formato

O estándar FB2 inclúe só o conxunto mínimo de etiquetas necesario (suficiente para "deseñar" ficción), o que simplifica o seu procesamento polos lectores. Ademais, no caso do funcionamento directo do lector co formato FB, o usuario ten a oportunidade de personalizar case todos os parámetros de visualización.

A estrutura estrita do documento permítelle automatizar o proceso de conversión do formato FB a calquera outro. A mesma estrutura fai posible traballar con elementos individuais dos documentos: configurar filtros por autores de libros, títulos, xéneros, etc. Por este motivo, o formato FB2 gañou popularidade en Runet, converténdose no estándar predeterminado nas bibliotecas e bibliotecas electrónicas rusas. nos países da CEI.

Desvantaxes do formato

A sinxeleza do formato FB2 é a súa vantaxe e desvantaxe ao mesmo tempo. Isto limita a funcionalidade do deseño de texto complexo (por exemplo, notas nas marxes). Non ten gráficos vectoriales nin soporte para listas numeradas. Por este motivo o formato non moi axeitado para libros de texto, libros de consulta e literatura técnica (o nome do formato fala incluso diso - libro de ficción ou "libro de ficción").

Ao mesmo tempo, para mostrar información mínima sobre o libro (título, autor e portada), o programa necesita procesar case todo o documento XML. Isto ocorre porque os metadatos veñen ao principio do texto e as imaxes ao final.

FB3 - Desenvolvemento de formatos

Debido ao aumento dos requisitos para dar formato aos textos dos libros (e co fin de mitigar algunhas das deficiencias de FB2), Gribov comezou a traballar no formato FB3. O desenvolvemento despois parouse, pero en 2014 foi retomado.

Segundo os autores, estudaron as necesidades reais á hora de publicar literatura técnica, miraron libros de texto, libros de consulta, manuais e perfilaron un conxunto máis específico de etiquetas que permitirían mostrar calquera libro.

Na nova especificación, o formato FictionBook é un arquivo zip no que se almacenan metadatos, imaxes e texto como ficheiros separados. Os requisitos para o formato de ficheiro zip e as convencións para a súa organización están especificados na norma ECMA-376, que define Open XML.

Realizáronse unha serie de melloras relacionadas co formato (espazo, subliñado) e engadiuse un novo obxecto -un "bloque"- que formatea un fragmento arbitrario dun libro en forma de cuadrilátero e que se pode incrustar no texto cun envolvente. Agora hai soporte para listas numeradas e con viñetas.

FB3 distribúese baixo unha licenza gratuíta e é de código aberto, polo que todas as utilidades están dispoñibles para editores e usuarios: conversores, editores na nube, lectores. Actual versión formato, lector и o editor pódese atopar no repositorio de GitHub do proxecto.

En xeral, FictionBook3 aínda está menos estendido que o seu irmán maior, pero varias bibliotecas electrónicas xa ofrecen libros neste formato. E hai un par de anos litros anunciaron a súa intención de trasladar todo o seu catálogo a un novo formato. Algúns lectores xa admiten todas as funcións de FB3 necesarias. Por exemplo, todos os modelos modernos de lectores ONYX poden funcionar con este formato fóra da caixa, por exemplo, Darwin 3 ou Cleopatra 3.

Libros electrónicos e os seus formatos: FB2 e FB3 - historia, pros, contras e principios de traballo
/ ONYX BOOX Cleopatra 3

A distribución máis ampla de FictionBook3 creará un ecosistema orientado para traballar de forma completa e eficaz con texto en calquera dispositivo con recursos limitados: pantalla en branco e negro ou pequena, memoria pouca, etc. Segundo os desenvolvedores, un libro unha vez disposto será o máis cómodo posible en calquera ambiente.

PS Traemos á súa atención varias críticas de lectores de ONYX BOOX:



Fonte: www.habr.com

Engadir un comentario