E-bøger og deres formater: FB2 og FB3 - historie, fordele, ulemper og principper for arbejdet

I den forrige artikel talte vi om funktioner i DjVu-formatet. I dag besluttede vi at fokusere på FictionBook2-formatet, bedre kendt som FB2, og dets "efterfølger" FB3.

E-bøger og deres formater: FB2 og FB3 - historie, fordele, ulemper og principper for arbejdet
/flickr/ Judit Klein / CC

Formatets udseende

I midten af ​​90'erne, entusiaster Vi startede digitalisere sovjetiske bøger. De oversatte og bevarede litteratur i en bred vifte af formater. Et af de første biblioteker i Runet - Maxim Moshkovs bibliotek - brugte en formateret tekstfil (TXT).

Valget blev truffet til dens fordel på grund af dets modstand mod byte-korruption og alsidighed - TXT åbner på ethvert operativsystem. Dog han gjorde det svært behandling af gemt tekstinformation. For eksempel, for at flytte til den tusinde linje, skulle 999 linjer forud for den behandles. Bøger også gemt i Word-dokumenter og PDF - sidstnævnte var svært at konvertere til andre formater, og svage computere åbnede og vises PDF-dokumenter med forsinkelser.

HTML blev også brugt til at "lagre" elektronisk litteratur. Det gjorde indeksering, konvertering til andre formater og dokumentoprettelse (tagging af tekst) lettere, men det introducerede sine egne mangler. En af de mest betydningsfulde var "vaghed» standard: det tillod visse friheder ved skrivning af tags. Nogle af dem skulle lukkes, andre (f.eks. ) - der var ingen grund til at lukke den. Selve mærkerne kunne have en vilkårlig indlejringsrækkefølge.

Og selv om et sådant arbejde med filer ikke blev opfordret - sådanne dokumenter blev betragtet som forkerte - krævede standarden, at læserne forsøgte at vise indholdet. Det var her, der opstod vanskeligheder, da processen med at "gætte" i hver applikation blev implementeret på sin egen måde. Samtidig er de læseapparater og applikationer, der er tilgængelige på markedet på det tidspunkt forstået et eller to specialiserede formater. Hvis en bog var tilgængelig i ét format, skulle den omformateres for at kunne læses. Det var meningen at løse alle disse mangler Skønlitteraturbog 2, eller FB2, som overtog den indledende "kæmning" af teksten og konverteringen.

Bemærk, at formatet havde sin første version - Skønlitteraturbog 1 - Den var dog kun af eksperimentel karakter, varede ikke længe, ​​understøttes ikke i øjeblikket og er ikke bagudkompatibel. Derfor betyder FictionBook oftest sin "efterfølger" - FB2-formatet.

FB2 blev skabt af en gruppe udviklere ledet af Dmitry Gribov, der er teknisk direktør for literfirmaet, og Mikhail Matsnev, skaberen af ​​Haali Reader. Formatet er baseret på XML, som regulerer arbejde med ulukkede og indlejrede tags mere stringent end HTML. Et XML-dokument er ledsaget af et såkaldt XML-skema. Et XML-skema er en speciel fil, der indeholder alle tags og beskriver reglerne for deres brug (sekvens, indlejring, obligatorisk og valgfri osv.). I FictionBook er diagrammet i filen FictionBook2.xsd. Et eksempel på XML-skema kan findes på link (den bruges af liters e-bogsforretning).

FB2 dokument struktur

Tekst i dokument er gemt i specielle tags - elementer af afsnitstyper: , Og . Der er også et element , som ikke har noget indhold og bruges til at indsætte huller.

Alle dokumenter starter med et root-tag , som kan vises nedenfor , , Og .

Tag indeholder typografiark for at lette konvertering til andre formater. I ligge kodet vha base64 data, der kan være nødvendige for at gengive dokumentet.

Element indeholder alle nødvendige oplysninger om bogen: værkets genre, liste over forfattere (fulde navn, e-mailadresse og hjemmeside), titel, blok med nøgleord, annotering. Den kan også indeholde oplysninger om ændringer i dokumentet og oplysninger om udgiveren af ​​bogen, hvis den er udgivet på papir.

Sådan ser en del af blokken ud i FictionBook-posten for arbejder "A Study in Scarlet" af Arthur Conan Doyle, taget fra Projekt Gutenberg:

<?xml version="1.0" encoding="iso-8859-1"?>
 <FictionBook 
  >
  <description>
    <title-info>
      <genre match="100">detective</genre>
      <author>
        <first-name>Arthur</first-name>
        <middle-name>Conan</middle-name>
        <last-name>Doyle</last-name>
      </author>
      <book-title>A Study in Scarlet</book-title>
      <annotation>
      </annotation>
      <date value="1887-01-01">1887</date>
    </title-info>
  </description>

Nøglekomponenten i et FictionBook-dokument er . Den indeholder selve bogens tekst. Der kan være flere af disse tags i hele dokumentet - yderligere blokke bruges til at gemme fodnoter, kommentarer og noter.

FictionBook indeholder også flere tags til at arbejde med hyperlinks. De er baseret på specifikationen XLink, udviklet af konsortiet W3C specifikt til at skabe links mellem forskellige ressourcer i XML-dokumenter.

Fordele ved formatet

FB2-standarden inkluderer kun det mindst nødvendige sæt tags (tilstrækkeligt til at "designe" fiktion), hvilket forenkler behandlingen af ​​læserne. Desuden, i tilfælde af direkte betjening af læseren med FB-formatet, har brugeren mulighed for at tilpasse næsten alle visningsparametre.

Den strenge struktur af dokumentet giver dig mulighed for at automatisere konverteringsprocessen fra FB-format til et hvilket som helst andet. Den samme struktur gør det muligt at arbejde med individuelle elementer i dokumenter - opsætning af filtre efter bogforfattere, titel, genre osv. Af denne grund har FB2-formatet vundet popularitet i Runet og er blevet standardstandarden i russiske elektroniske biblioteker og biblioteker i SNG-landene.

Ulemper ved formatet

Enkelheden ved FB2-formatet er dets fordel og ulempe på samme tid. Dette begrænser funktionaliteten for kompleks tekstlayout (f.eks. noter i margenerne). Den har ikke vektorgrafik eller understøttelse af nummererede lister. Af denne grund formatet ikke særlig velegnet for lærebøger, opslagsbøger og teknisk litteratur (navnet på formatet taler endda om dette - skønlitterær bog eller "fiktionsbog").

Samtidig skal programmet behandle næsten hele XML-dokumentet for at vise minimal information om bogen - titel, forfatter og omslag. Det skyldes, at metadata kommer i begyndelsen af ​​teksten, og billeder kommer i slutningen.

FB3 - formatudvikling

På grund af øgede krav til formatering af bogtekster (og for at afbøde nogle af manglerne ved FB2), begyndte Gribov arbejdet med FB3-formatet. Udviklingen stoppede senere, men i 2014 blev det genoptaget.

Ifølge forfatterne undersøgte de de reelle behov, når de udgav teknisk litteratur, kiggede på lærebøger, opslagsbøger, manualer og skitserede et mere specifikt sæt tags, der ville gøre det muligt at vise enhver bog.

I den nye specifikation er FictionBook-formatet et zip-arkiv, hvor metadata, billeder og tekst gemmes som separate filer. Krav til zip-filformatet og konventioner for dets organisation er specificeret i standarden ECMA-376, som definerer Open XML.

Der blev foretaget en række forbedringer i forhold til formatering (mellemrum, understregning), og der blev tilføjet et nyt objekt - en "blok" - som formaterer et vilkårligt fragment af en bog i form af en firkant og kan indlejres i tekst med en wraparound. Der er nu understøttelse af nummererede og punktopstillede lister.

FB3 distribueres under en gratis licens og er open source, så alle hjælpeprogrammer er tilgængelige for udgivere og brugere: konvertere, cloud-redaktører, læsere. Nuværende versionen format, læser и редактор kan findes i projektets GitHub repository.

Generelt er FictionBook3 stadig mindre udbredt end sin ældre bror, men flere elektroniske biblioteker tilbyder allerede bøger i dette format. Og liters annoncerede for et par år siden, at de havde til hensigt at overføre hele deres katalog til et nyt format. Nogle læsere understøtter allerede al den nødvendige FB3-funktionalitet. For eksempel kan alle moderne modeller af ONYX-læsere arbejde med dette format ud af kassen, f.eks. Darwin 3 eller Kleopatra 3.

E-bøger og deres formater: FB2 og FB3 - historie, fordele, ulemper og principper for arbejdet
/ ONYX BOOX Cleopatra 3

En bredere distribution af FictionBook3 vil skabe et økosystem orienteret at arbejde fuldt ud og effektivt med tekst på enhver enhed med begrænsede ressourcer: sort-hvid eller lille skærm, lav hukommelse osv. Ifølge udviklerne vil en bog, når den først er lagt ud, være så praktisk som muligt i ethvert miljø.

PS Vi gør dig opmærksom på flere anmeldelser af ONYX BOOX-læsere:



Kilde: www.habr.com

Tilføj en kommentar