E-knihy a jejich formáty: FB2 a FB3 - historie, klady, zápory a principy práce

V předchozím článku jsme si povídali funkce formátu DjVu. Dnes jsme se rozhodli zaměřit na formát FictionBook2, lépe známý jako FB2, a jeho „nástupce“ FB3.

E-knihy a jejich formáty: FB2 a FB3 - historie, klady, zápory a principy práce
/flickr/ Judit Kleinová / CC

Vzhled formátu

V polovině 90. let nadšenci začali jsme digitalizovat sovětské knihy. Překládali a uchovávali literaturu v nejrůznějších formátech. Jedna z prvních knihoven v Runet - Knihovna Maxima Moshkova - použil formátovaný textový soubor (TXT).

Volba byla učiněna v jeho prospěch kvůli odolnosti vůči poškození bajtů a všestrannosti - TXT se otevírá na jakémkoli operačním systému. Nicméně on to ztížilo zpracování uložených textových informací. Například pro přesun na tisící řádek bylo nutné zpracovat 999 řádků, které mu předcházely. Knihy také uloženy v dokumentech aplikace Word a PDF - druhý byl obtížně převoditelný do jiných formátů a slabé počítače se otevíraly a zobrazeno PDF dokumenty se zpožděním.

HTML se také používalo k „ukládání“ elektronické literatury. Usnadnil indexování, převod do jiných formátů a tvorbu dokumentů (označování textu), ale přinesl své vlastní nedostatky. Jedním z nejvýznamnějších bylo „vágnost» standard: umožňoval určité svobody při psaní značek. Některé z nich musely být uzavřeny, jiné (např. ) - nebylo potřeba zavírat. Samotné značky mohou mít libovolné pořadí vnoření.

A přestože taková práce se soubory nebyla podporována – takové dokumenty byly považovány za nesprávné – norma vyžadovala, aby se čtenáři pokusili obsah zobrazit. Zde se objevily potíže, protože v každé aplikaci byl proces „hádání“ implementován svým vlastním způsobem. Zároveň čtecí zařízení a aplikace dostupné v té době na trhu pochopil jeden nebo dva specializované formáty. Pokud byla kniha dostupná v jednom formátu, musela být přeformátována, aby ji bylo možné číst. Cílem bylo vyřešit všechny tyto nedostatky FictionBook2, nebo FB2, který převzal prvotní „česání“ textu a konverzi.

Všimněte si, že formát měl svou první verzi - FictionBook1 - měl však pouze experimentální charakter, neměl dlouhého trvání, v současnosti není podporován a není zpětně kompatibilní. FictionBook proto nejčastěji znamená svého „nástupce“ - formát FB2.

FB2 vytvořila skupina vývojářů pod vedením Dmitrij Gribov, který je technickým ředitelem společnosti litrů, a Michail Matsnev, tvůrce Haali Reader. Formát je založen na XML, které reguluje práci s neuzavřenými a vnořenými značkami přísněji než HTML. Dokument XML je doprovázen takzvaným schématem XML. Schéma XML je speciální soubor, který obsahuje všechny značky a popisuje pravidla pro jejich použití (sekvence, vnoření, povinné a volitelné atd.). Ve FictionBook je diagram v souboru FictionBook2.xsd. Příklad schématu XML lze nalézt na odkaz (používá ho obchod s e-knihami litrů).

Struktura dokumentu FB2

Text v dokumentu udržováno ve speciálních značkách - prvky typů odstavců: , A . Existuje také prvek , která nemá žádný obsah a slouží k vkládání mezer.

Všechny dokumenty začínají kořenovou značkou , pod kterým se může objevit , , A .

Štítek obsahuje šablony stylů pro usnadnění převodu do jiných formátů. V lež zakódovaný pomocí base64 data, která mohou být potřebná k vykreslení dokumentu.

Živel obsahuje všechny potřebné informace o knize: žánr díla, seznam autorů (celé jméno, emailová adresa a webové stránky), název, blok s klíčovými slovy, anotace. Může také obsahovat informace o změnách provedených v dokumentu a informace o vydavateli knihy, pokud byla vydána na papíře.

Takto vypadá část bloku v položce FictionBook pro funguje "Studie v šarlatové" od Arthura Conana Doyla, převzato z Projekt Gutenberg:

<?xml version="1.0" encoding="iso-8859-1"?>
 <FictionBook 
  >
  <description>
    <title-info>
      <genre match="100">detective</genre>
      <author>
        <first-name>Arthur</first-name>
        <middle-name>Conan</middle-name>
        <last-name>Doyle</last-name>
      </author>
      <book-title>A Study in Scarlet</book-title>
      <annotation>
      </annotation>
      <date value="1887-01-01">1887</date>
    </title-info>
  </description>

Klíčovou součástí dokumentu FictionBook je . Obsahuje samotný text knihy. Těchto značek může být v dokumentu několik – další bloky se používají k ukládání poznámek pod čarou, komentářů a poznámek.

FictionBook také poskytuje několik značek pro práci s hypertextovými odkazy. Vycházejí ze specifikace XLink, vyvinuté konsorciem W3C speciálně pro vytváření odkazů mezi různými zdroji v dokumentech XML.

Výhody formátu

Standard FB2 obsahuje pouze minimální požadovanou sadu tagů (stačí na „design“ fikci), což zjednodušuje jeho zpracování čtenáři. Navíc v případě přímého provozu čtečky s formátem FB má uživatel možnost přizpůsobit si téměř všechny parametry zobrazení.

Přísná struktura dokumentu umožňuje automatizovat proces převodu z formátu FB na jakýkoli jiný. Stejná struktura umožňuje práci s jednotlivými prvky dokumentů – nastavení filtrů podle autorů knihy, názvu, žánru atd. Z tohoto důvodu si formát FB2 získal v Runetu na popularitě a stal se výchozím standardem v ruských elektronických knihovnách a knihovnách v zemích SNS.

Nevýhody formátu

Jednoduchost formátu FB2 je jeho výhodou i nevýhodou zároveň. To omezuje funkčnost pro rozvržení složitého textu (například poznámky na okrajích). Nemá vektorovou grafiku ani podporu číslovaných seznamů. Z tohoto důvodu formát nepříliš vhodné pro učebnice, příručky a odbornou literaturu (o tom mluví i název formátu - beletrista, nebo „fikční kniha“).

Zároveň, aby se zobrazily minimální informace o knize – název, autor a obálka – potřebuje program zpracovat téměř celý XML dokument. Metadata jsou totiž na začátku textu a obrázky na konci.

FB3 - vývoj formátu

Kvůli zvýšeným požadavkům na formátování textů knih (a za účelem zmírnění některých nedostatků FB2) začal Gribov pracovat na formátu FB3. Vývoj se později zastavil, ale v roce 2014 ano obnoveno.

Autoři podle svých slov nastudovali skutečné potřeby při vydávání technické literatury, podívali se na učebnice, příručky, příručky a nastínili konkrétnější sadu značek, které by umožnily zobrazit jakoukoli knihu.

V nové specifikaci je formát FictionBook archiv zip, ve kterém jsou metadata, obrázky a text uloženy jako samostatné soubory. Požadavky na formát souboru zip a konvence pro jeho organizaci jsou specifikovány ve standardu ECMA-376, který definuje Open XML.

Byla provedena řada vylepšení týkajících se formátování (mezery, podtržení) a byl přidán nový objekt – „blok“ – který zformátuje libovolný fragment knihy ve formě čtyřúhelníku a lze jej vložit do textu s obalem. Nyní existuje podpora pro číslované seznamy a seznamy s odrážkami.

FB3 je distribuován pod bezplatnou licencí a je open source, takže vydavatelům a uživatelům jsou k dispozici všechny nástroje: konvertory, cloudové editory, čtečky. Aktuální verze formát, čtenář и редактор lze nalézt v úložišti projektu GitHub.

Obecně je FictionBook3 stále méně rozšířený než jeho starší bratr, ale několik elektronických knihoven již knihy v tomto formátu nabízí. A litry před pár lety oznámily svůj záměr převést celý svůj katalog do nového formátu. Některé čtečky již podporují všechny potřebné funkce FB3. S tímto formátem již po vybalení umí pracovat například všechny moderní modely čteček ONYX, např. Darwin 3 nebo Kleopatra 3.

E-knihy a jejich formáty: FB2 a FB3 - historie, klady, zápory a principy práce
/ ONYX BOOX Kleopatra 3

Širší distribuce FictionBook3 vytvoří ekosystém orientované plně a efektivně pracovat s textem na jakémkoli zařízení s omezenými zdroji: černobílý nebo malý displej, málo paměti atd. Podle vývojářů bude rozložená kniha maximálně pohodlná v jakémkoli prostředí.

PS Upozorňujeme na několik recenzí čteček ONYX BOOX:



Zdroj: www.habr.com

Přidat komentář