Les livres électroniques et leurs formats : FB2 et FB3 - histoire, avantages, inconvénients et principes de travail

Dans l'article précédent, nous avons parlé fonctionnalités du format DjVu. Aujourd'hui, nous avons décidé de nous concentrer sur le format FictionBook2, plus connu sous le nom de FB2, et son « successeur » FB3.

Les livres électroniques et leurs formats : FB2 et FB3 - histoire, avantages, inconvénients et principes de travail
/flickr/ Judit Klein / CC

L'apparition du format

Au milieu des années 90, les passionnés nous avons commencé numériser des livres soviétiques. Ils traduisaient et préservaient la littérature dans une grande variété de formats. L'une des premières bibliothèques de Runet - Bibliothèque de Maxim Moshkov - utilisé un fichier texte formaté (TXT).

Le choix a été fait en sa faveur en raison de sa résistance à la corruption d'octets et de sa polyvalence - TXT s'ouvre sur n'importe quel système d'exploitation. Cependant, il a rendu les choses difficiles traitement des informations textuelles stockées. Par exemple, pour passer à la millième ligne, il a fallu traiter 999 lignes la précédant. Des livres aussi stocké dans les documents Word et PDF - ce dernier était difficile à convertir vers d'autres formats, et des ordinateurs faibles ouvraient et affiché Documents PDF avec des retards.

HTML était également utilisé pour « stocker » la littérature électronique. Il a facilité l'indexation, la conversion vers d'autres formats et la création de documents (balisage du texte), mais il a introduit ses propres lacunes. L’un des plus significatifs était «imprécision» standard : il permettait certaines libertés lors de l'écriture des balises. Certains d'entre eux ont dû être fermés, d'autres (par exemple, ) - il n'était pas nécessaire de le fermer. Les balises elles-mêmes peuvent avoir un ordre d'imbrication arbitraire.

Et bien qu'un tel travail avec des fichiers n'ait pas été encouragé - ces documents étaient considérés comme incorrects - la norme exigeait que les lecteurs tentent d'afficher le contenu. C'est là que des difficultés sont apparues, puisque dans chaque application le processus de « deviner » a été mis en œuvre à sa manière. Parallèlement, les appareils et applications de lecture disponibles sur le marché à cette époque compris un ou deux formats spécialisés. Si un livre était disponible dans un format, il devait être reformaté pour pouvoir être lu. Il était prévu de résoudre toutes ces lacunes FictionLivre2, ou FB2, qui a pris en charge le « peignage » initial du texte et la conversion.

Notez que le format a eu sa première version - FictionLivre1 - cependant, il n'était que de nature expérimentale, n'a pas duré longtemps, n'est actuellement pas pris en charge et n'est pas rétrocompatible. Par conséquent, FictionBook désigne le plus souvent son « successeur » - le format FB2.

FB2 a été créé par un groupe de développeurs dirigé par Dmitri Gribov, qui est le directeur technique de la société litres, et Mikhail Matsnev, le créateur de Haali Reader. Le format est basé sur XML, qui réglemente le travail avec des balises non fermées et imbriquées plus strictement que HTML. Un document XML est accompagné d'un soi-disant schéma XML. Un schéma XML est un fichier spécial qui contient toutes les balises et décrit les règles de leur utilisation (séquence, imbrication, obligatoire et facultative, etc.). Dans FictionBook, le diagramme se trouve dans le fichier FictionBook2.xsd. Un exemple de schéma XML peut être trouvé à l'adresse lien (il est utilisé par la librairie litres e-book).

Structure des documents FB2

Texte dans le document gardé dans des balises spéciales - éléments de types de paragraphes : , Et . Il y a aussi un élément , qui n'a pas de contenu et est utilisé pour insérer des espaces.

Tous les documents commencent par une balise racine , en dessous duquel peut apparaître , , Et .

Étiqueter contient des feuilles de style pour faciliter la conversion vers d’autres formats. DANS mensonge codé en utilisant base64 données qui peuvent être nécessaires au rendu du document.

Élément contient toutes les informations nécessaires sur le livre : genre de l'œuvre, liste des auteurs (nom complet, adresse email et site internet), titre, bloc avec mots-clés, annotation. Il peut également contenir des informations sur les modifications apportées au document et des informations sur l'éditeur du livre s'il a été publié sur papier.

Voici à quoi ressemble une partie du bloc dans l'entrée FictionBook pour travaille "Une étude en écarlate" d'Arthur Conan Doyle, tiré de Projet Gutenberg:

<?xml version="1.0" encoding="iso-8859-1"?>
 <FictionBook 
  >
  <description>
    <title-info>
      <genre match="100">detective</genre>
      <author>
        <first-name>Arthur</first-name>
        <middle-name>Conan</middle-name>
        <last-name>Doyle</last-name>
      </author>
      <book-title>A Study in Scarlet</book-title>
      <annotation>
      </annotation>
      <date value="1887-01-01">1887</date>
    </title-info>
  </description>

L'élément clé d'un document FictionBook est . Il contient le texte du livre lui-même. Il peut y avoir plusieurs de ces balises dans tout le document - des blocs supplémentaires sont utilisés pour stocker les notes de bas de page, les commentaires et les notes.

FictionBook fournit également plusieurs balises pour travailler avec des hyperliens. Ils sont basés sur la spécification XLink, développé par le consortium W3C spécifiquement pour créer des liens entre différentes ressources dans des documents XML.

Avantages du format

La norme FB2 n'inclut que l'ensemble minimum de balises requis (suffisant pour « concevoir » de la fiction), ce qui simplifie son traitement par les lecteurs. De plus, en cas de fonctionnement direct du lecteur au format FB, l'utilisateur a la possibilité de personnaliser presque tous les paramètres d'affichage.

La structure stricte du document vous permet d'automatiser le processus de conversion du format FB vers un autre. La même structure permet de travailler avec des éléments individuels de documents - définissez des filtres par auteurs de livres, titres, genres, etc. Pour cette raison, le format FB2 a gagné en popularité dans Runet, devenant la norme par défaut dans les bibliothèques et bibliothèques électroniques russes. dans les pays de la CEI.

Inconvénients du format

La simplicité du format FB2 est à la fois son avantage et son inconvénient. Cela limite la fonctionnalité de mise en page de texte complexe (par exemple, des notes dans les marges). Il n'a pas de graphiques vectoriels ni de prise en charge des listes numérotées. C'est pour cette raison que le format pas très adapté pour les manuels scolaires, les ouvrages de référence et la littérature technique (le nom du format en parle même - livre de fiction, ou « livre de fiction »).

Dans le même temps, afin d'afficher un minimum d'informations sur le livre - titre, auteur et couverture - le programme doit traiter la quasi-totalité du document XML. En effet, les métadonnées apparaissent au début du texte et les images à la fin.

FB3 - développement de formats

En raison des exigences accrues en matière de formatage des textes de livres (et afin d'atténuer certaines des lacunes du FB2), Gribov a commencé à travailler sur le format FB3. Le développement s'est arrêté par la suite, mais en 2014, il a été a repris.

Selon les auteurs, ils ont étudié les besoins réels lors de la publication de littérature technique, examiné des manuels scolaires, des ouvrages de référence, des manuels et ont défini un ensemble plus spécifique de balises qui permettraient d'afficher n'importe quel livre.

Dans la nouvelle spécification, le format FictionBook est une archive zip dans laquelle les métadonnées, les images et le texte sont stockés sous forme de fichiers séparés. Les exigences relatives au format de fichier zip et les conventions pour son organisation sont spécifiées dans la norme ECMA-376, qui définit Open XML.

Un certain nombre d'améliorations ont été apportées au formatage (espacement, soulignement) et un nouvel objet a été ajouté - un « bloc » - qui formate un fragment arbitraire d'un livre sous la forme d'un quadrilatère et peut être intégré dans le texte avec un retour à la ligne. Les listes numérotées et à puces sont désormais prises en charge.

FB3 est distribué sous licence gratuite et est open source, tous les utilitaires sont donc à la disposition des éditeurs et des utilisateurs : convertisseurs, éditeurs cloud, lecteurs. Actuel version format, lecteur и редактор peut être trouvé dans le référentiel GitHub du projet.

De manière générale, FictionBook3 est encore moins répandu que son grand frère, mais plusieurs bibliothèques électroniques proposent déjà des livres dans ce format. Et il y a quelques années, Litres a annoncé son intention de transférer l'intégralité de son catalogue vers un nouveau format. Certains lecteurs prennent déjà en charge toutes les fonctionnalités FB3 nécessaires. Par exemple, tous les modèles modernes de lecteurs ONYX peuvent fonctionner immédiatement avec ce format, par exemple, Darwin 3 ou Cléopâtre 3.

Les livres électroniques et leurs formats : FB2 et FB3 - histoire, avantages, inconvénients et principes de travail
/ ONYX BOOX Cléopâtre 3

Une distribution plus large de FictionBook3 créera un écosystème orienté pour travailler pleinement et efficacement avec du texte sur n'importe quel appareil aux ressources limitées : écran noir et blanc ou petit écran, mémoire faible, etc. Selon les développeurs, un livre une fois mis en page sera aussi pratique que possible dans n'importe quel environnement.

PS Nous attirons votre attention sur plusieurs avis de lecteurs ONYX BOOX :



Source: habr.com

Ajouter un commentaire