E-books e seus formatos: DjVu - sua história, prós, contras e características

No início dos anos 70, o escritor americano Michael Hart conseguiu obter acesso ilimitado a um computador Xerox Sigma 5 instalado na Universidade de Illinois. Para aproveitar bem os recursos da máquina, decidiu criar o primeiro livro eletrônico, reimprimindo a Declaração de Independência dos Estados Unidos.

Hoje, a literatura digital se difundiu, em grande parte graças ao desenvolvimento de dispositivos portáteis (smartphones, e-readers, laptops). Isso levou ao surgimento de um grande número de formatos de e-books. Vamos tentar entender suas características e contar a história dos mais populares deles - começaremos pelo formato DjVu.

E-books e seus formatos: DjVu - sua história, prós, contras e características
/flickr/ Lane Pearman / CC

O surgimento do formato

DjVu foi desenvolvido em 1996 pela AT&T Labs com um propósito: fornecer aos desenvolvedores web uma ferramenta para distribuição de imagens de alta resolução pela Internet.

O fato é que naquela época 90% de toda a informação ainda está foi armazenado em papel, e muitos dos documentos importantes tinham imagens e fotografias coloridas. Para manter a legibilidade do texto e a qualidade das imagens, foi necessário fazer digitalizações em alta resolução.

Os formatos clássicos da web - JPEG, GIF e PNG - possibilitaram trabalhar com essas imagens, mas à custa do volume. No caso do JPEG, para que o texto foi lido na tela do monitor tive que digitalizar o documento com resolução de 300 dpi. Uma página colorida da revista ocupava cerca de 500 KB. Baixar arquivos desse tamanho da Internet era um processo bastante trabalhoso naquela época.

A alternativa era digitalizar documentos em papel utilizando tecnologias OCR, mas há 20 anos a sua precisão estava longe do ideal - após o processamento, o resultado final tinha de ser seriamente editado à mão. Ao mesmo tempo, gráficos e imagens permaneceram “exagerados”. E mesmo que fosse possível incorporar uma imagem digitalizada em um documento de texto, alguns detalhes visuais foram perdidos, por exemplo, a cor do papel, sua textura, e estes são componentes importantes de documentos históricos.

Para resolver esses problemas, a AT&T desenvolveu o DjVu. Tornou possível compactar documentos coloridos digitalizados com resolução de 300 dpi para 40–60 KB, com tamanho original de 25 MB. DjVu reduziu o tamanho das páginas em preto e branco para 10–30 KB.

Como DjVu compacta documentos

DjVu pode trabalhar tanto com documentos em papel digitalizados quanto com outros formatos digitais, como PDF. Como funciona o DjVu é tecnologia que divide a imagem em três componentes: primeiro plano, fundo e máscara preto e branco (bit).

A máscara é salva na resolução do arquivo original e contém imagem de texto e outros detalhes claros - linhas finas e diagramas - bem como imagens contrastantes.

Ele tem resolução de 300 dpi para manter linhas finas e contornos de letras nítidos e é compactado usando o algoritmo JB2, que é uma variação do algoritmo JBIG2 da AT&T para envio de fax. Recurso do JB2 é o que ele faz é procurar caracteres duplicados na página e salvar sua imagem apenas uma vez. Assim, em documentos de múltiplas páginas, a cada poucas páginas consecutivas partilham um “dicionário” comum.

O fundo contém a textura da página e das ilustrações, e sua resolução é inferior à da máscara. O fundo sem perdas é salvo em 100 dpi.

Primeiro plano mantém informações de cor sobre a máscara, e sua resolução costuma ser ainda mais reduzida, já que na maioria dos casos a cor do texto é preta e a mesma para um caractere impresso. Usado para compactar o primeiro e o segundo plano compressão wavelet.

O estágio final da criação de um documento DjVu é a codificação de entropia, quando um codificador aritmético adaptativo transforma sequências de caracteres idênticos em um valor binário.

Vantagens do formato

A tarefa do DjVu era salvar “propriedades” de um documento em papel em formato digital, permitindo que até mesmo computadores fracos trabalhem com tais documentos. Portanto, o software para visualização de arquivos DjVu tem a capacidade de “renderização rápida”. Graças a ela em memória carregando apenas aquela parte da página do DjVu que deve ser exibida na tela.

Isso também possibilita a visualização de arquivos “não baixados”, ou seja, páginas individuais de um documento DjVu de várias páginas. Neste caso, utiliza-se o desenho progressivo dos detalhes da imagem, quando os componentes parecem “aparecer” à medida que o arquivo é baixado (como no JPEG).

Há 20 anos, quando este formato foi introduzido, a página era carregada em três etapas: primeiro era carregado o componente de texto, depois de alguns segundos eram carregadas as primeiras versões das imagens e do fundo. Depois, a página inteira do livro “apareceu”.

A presença de uma estrutura de três níveis também permite pesquisar livros digitalizados (já que existe uma camada de texto especial). Isso acabou sendo conveniente ao trabalhar com literatura técnica e livros de referência, então DjVu se tornou a base para diversas bibliotecas de livros científicos. Por exemplo, em 2002 ele foi escolhido Arquivo da Internet como um dos formatos (junto com TIFF e PDF) para um projeto de preservação de livros digitalizados de fontes abertas.

Desvantagens do formato

No entanto, como todas as tecnologias, o DjVu tem suas desvantagens. Por exemplo, ao codificar digitalizações de livros no formato DjVu, alguns caracteres do documento podem ser substituídos por outros de aparência semelhante. Isso acontece com mais frequência com as letras “i” e “n”, e é por isso que esse problema recebido nomeie "problema yin". Não depende do idioma do texto e afeta, entre outras coisas, números e outros pequenos caracteres repetidos.

Sua causa são erros de classificação de caracteres no codificador JB2. Ele “divide” as varreduras em grupos de 10 a 20 peças e forma um dicionário de símbolos comuns para cada grupo. O dicionário contém exemplos de letras e números comuns com páginas e coordenadas de sua aparência. Ao visualizar um livro DjVu, os caracteres do dicionário são inseridos nos lugares certos.

Isso permite reduzir o tamanho do arquivo DjVu, no entanto, se as exibições de duas letras forem visualmente semelhantes, o codificador pode confundi-las ou confundi-las com a mesma coisa. Às vezes, isso causa danos às fórmulas de um documento técnico. Para resolver esse problema, você pode abandonar os algoritmos de compactação, mas isso aumentará o tamanho da cópia digital do livro.

Outra desvantagem do formato é que ele não é suportado por padrão em muitos sistemas operacionais modernos (incluindo os móveis). Portanto, para trabalhar com ele você precisa instalar terceiros programa, como DjVuReader, WinDjView, Evince, etc. No entanto, aqui gostaria de observar que alguns leitores eletrônicos (por exemplo, ONYX BOOX) suportam o formato DjVu “pronto para uso” - uma vez que os aplicativos necessários já estão instalados lá.

A propósito, falamos sobre o que mais os aplicativos para leitores baseados em Android podem fazer em um dos anteriores materiais.

E-books e seus formatos: DjVu - sua história, prós, contras e características
Leitor ÔNIX BOOX Chronos

Outro problema de formato surge ao trabalhar com documentos DjVu em telas pequenas de dispositivos móveis - smartphones, tablets, leitores. Às vezes, os arquivos DjVu são apresentados na forma de uma digitalização de um livro, e a literatura profissional e os documentos de trabalho geralmente estão no formato A4, então você tem que “mover” a imagem em busca de informações.

No entanto, notamos que este problema também pode ser resolvido. A maneira mais fácil, claro, é procurar um documento em um formato diferente - mas se essa opção não for possível (por exemplo, você precisa trabalhar com uma grande quantidade de literatura técnica em DjVu), então você pode usar leitores eletrônicos com grande diagonal de 9,7 a 13,3 polegadas, especialmente “adaptado” para trabalhar com tais documentos.

Por exemplo, na linha ONYX BOOX tais dispositivos são Chronos и MAX 2 (aliás, preparamos uma review desse modelo de leitor, e em breve publicaremos em nosso blog), e também Note, que possui tela E Ink Mobius Carta com diagonal de 10,3 polegadas e resolução aumentada. Esses dispositivos permitem examinar com calma todos os detalhes das ilustrações em seu tamanho original e são adequados para quem costuma ler literatura educacional ou técnica. Para visualizar arquivos DjVu e PDF usado NEO Reader, que permite ajustar o contraste e a espessura das fontes digitalizadas.

Apesar das deficiências do formato, hoje o DjVu continua sendo um dos formatos mais populares para “preservar” obras literárias. Isto se deve em grande parte ao fato de ele é aberto, e algumas limitações tecnológicas hoje permitem que tecnologias e desenvolvimentos modernos o contornem.

Nos materiais a seguir continuaremos a contar a história do surgimento dos formatos de e-books e as características de seu trabalho.

PS Vários conjuntos de leitores ONYX BOOX:



Fonte: habr.com

Adicionar um comentário