E-books และรูปแบบ: DjVu - ประวัติ ข้อดี ข้อเสีย และฟีเจอร์ต่างๆ

ในช่วงต้นทศวรรษที่ 70 Michael Hart นักเขียนชาวอเมริกันได้จัดการ ได้รับ เข้าถึงคอมพิวเตอร์ Xerox Sigma 5 ที่ติดตั้งที่มหาวิทยาลัยอิลลินอยส์ได้ไม่จำกัด เพื่อใช้ทรัพยากรของเครื่องให้เกิดประโยชน์สูงสุด เขาจึงตัดสินใจสร้างหนังสืออิเล็กทรอนิกส์เล่มแรก โดยพิมพ์ซ้ำคำประกาศอิสรภาพของสหรัฐอเมริกา

ปัจจุบัน วรรณกรรมดิจิทัลแพร่หลายมากขึ้น ต้องขอบคุณการพัฒนาอุปกรณ์พกพา (สมาร์ทโฟน เครื่องอ่านอีเล็คทรอนิกส์ แล็ปท็อป) สิ่งนี้นำไปสู่การเกิดขึ้นของรูปแบบ e-book จำนวนมาก ลองทำความเข้าใจคุณสมบัติของพวกเขาและบอกเล่าประวัติความเป็นมาของสิ่งที่ได้รับความนิยมมากที่สุด - เริ่มจากรูปแบบ DjVu กันก่อน

E-books และรูปแบบ: DjVu - ประวัติ ข้อดี ข้อเสีย และฟีเจอร์ต่างๆ
/flickr/ เลน เพียร์แมน / CC

การเกิดขึ้นของรูปแบบ

DjVu ได้รับการพัฒนาในปี 1996 โดย AT&T Labs โดยมีวัตถุประสงค์เดียวคือเพื่อให้นักพัฒนาเว็บมีเครื่องมือในการเผยแพร่ภาพที่มีความละเอียดสูงผ่านทางอินเทอร์เน็ต

ความจริงก็คือ ณ เวลานั้น 90% ของข้อมูลทั้งหมดยังคงอยู่ ถูกเก็บไว้ บนกระดาษและเอกสารสำคัญหลายฉบับก็มีภาพสีและรูปถ่าย เพื่อรักษาความสามารถในการอ่านข้อความและคุณภาพของรูปภาพ จึงจำเป็นต้องทำการสแกนที่มีความละเอียดสูง

รูปแบบเว็บคลาสสิก - JPEG, GIF และ PNG - ทำให้สามารถทำงานกับรูปภาพดังกล่าวได้ แต่ต้องแลกกับปริมาณ ในกรณีของ JPEG ดังนั้นข้อความ ถูกอ่าน บนหน้าจอมอนิเตอร์ ฉันต้องสแกนเอกสารด้วยความละเอียด 300 dpi หน้าสีของนิตยสารใช้พื้นที่ประมาณ 500 KB การดาวน์โหลดไฟล์ขนาดนี้จากอินเทอร์เน็ตเป็นกระบวนการที่ต้องใช้แรงงานมากในขณะนั้น

ทางเลือกอื่นคือการแปลงเอกสารกระดาษให้เป็นดิจิทัลโดยใช้เทคโนโลยี OCR แต่เมื่อ 20 ปีที่แล้วความแม่นยำยังห่างไกลจากอุดมคติ หลังจากประมวลผลแล้ว ผลลัพธ์สุดท้ายจะต้องได้รับการแก้ไขด้วยมืออย่างจริงจัง ในขณะเดียวกัน กราฟิกและรูปภาพก็ยังคง "เกินมาตรฐาน" และแม้ว่าจะเป็นไปได้ที่จะฝังภาพที่สแกนลงในเอกสารข้อความ แต่รายละเอียดภาพบางส่วนก็หายไป เช่น สีของกระดาษ พื้นผิว และสิ่งเหล่านี้เป็นองค์ประกอบสำคัญของเอกสารทางประวัติศาสตร์

เพื่อแก้ไขปัญหาเหล่านี้ AT&T ได้พัฒนา DjVu ทำให้สามารถบีบอัดเอกสารสีที่สแกนด้วยความละเอียด 300 dpi ถึง 40–60 KB โดยมีขนาดต้นฉบับ 25 MB DjVu ลดขนาดหน้าขาวดำเหลือ 10–30 KB

DjVu บีบอัดเอกสารอย่างไร

DjVu สามารถทำงานกับทั้งเอกสารกระดาษที่สแกนและรูปแบบดิจิทัลอื่น ๆ เช่น PDF DjVu ทำงานอย่างไร เป็น เทคโนโลยีที่แบ่งภาพออกเป็น XNUMX ส่วน ได้แก่ เบื้องหน้า พื้นหลัง และมาสก์ขาวดำ (บิต)

หน้ากากจะถูกบันทึกตามความละเอียดของไฟล์ต้นฉบับและ มี รูปภาพข้อความและรายละเอียดที่ชัดเจนอื่นๆ - เส้นและไดอะแกรมที่ละเอียด - รวมถึงรูปภาพที่ตัดกัน

มีความละเอียด 300 dpi เพื่อให้เส้นละเอียดและโครงร่างตัวอักษรคมชัด และถูกบีบอัดโดยใช้อัลกอริธึม JB2 ซึ่งเป็นรูปแบบหนึ่งของอัลกอริธึม JBIG2 ของ AT&T สำหรับการส่งแฟกซ์ ฟีเจอร์ของ JB2 เป็น สิ่งที่ทำคือค้นหาอักขระที่ซ้ำกันบนเพจและบันทึกรูปภาพเพียงครั้งเดียว ดังนั้นในเอกสารที่มีหลายหน้า ทุก ๆ สองสามหน้าติดต่อกันจะมี "พจนานุกรม" ร่วมกัน

พื้นหลังประกอบด้วยพื้นผิวของหน้าและภาพประกอบ และมีความละเอียดต่ำกว่าของมาสก์ พื้นหลังแบบไม่สูญเสียจะถูกบันทึกที่ 100 dpi

เบื้องหน้า ร้านค้า ข้อมูลสีเกี่ยวกับมาสก์และความละเอียดของมันมักจะลดลงไปอีก เนื่องจากในกรณีส่วนใหญ่สีข้อความจะเป็นสีดำและเหมือนกันสำหรับอักขระที่พิมพ์หนึ่งตัว ใช้ในการบีบอัดพื้นหน้าและพื้นหลัง การบีบอัดเวฟเล็ต.

ขั้นตอนสุดท้ายของการสร้างเอกสาร DjVu คือการเข้ารหัสเอนโทรปี เมื่อตัวเข้ารหัสทางคณิตศาสตร์ที่ปรับเปลี่ยนได้จะเปลี่ยนลำดับของอักขระที่เหมือนกันให้เป็นค่าไบนารี่

ข้อดีของรูปแบบ

งานของ DjVu คือ รักษา “คุณสมบัติ” ของเอกสารกระดาษในรูปแบบดิจิทัล ช่วยให้แม้แต่คอมพิวเตอร์ที่อ่อนแอก็สามารถทำงานกับเอกสารดังกล่าวได้ ดังนั้นซอฟต์แวร์สำหรับการดูไฟล์ DjVu จึงมีความสามารถในการ "เรนเดอร์อย่างรวดเร็ว" ขอบคุณเธอในความทรงจำ กำลังโหลด เฉพาะส่วนของหน้า DjVu ที่ควรแสดงบนหน้าจอ

นอกจากนี้ยังทำให้สามารถดูไฟล์ "ที่ไม่ได้ดาวน์โหลด" ซึ่งก็คือแต่ละหน้าของเอกสาร DjVu แบบหลายหน้าได้ ในกรณีนี้ จะใช้การวาดรายละเอียดของภาพแบบโปรเกรสซีฟ เมื่อส่วนประกอบต่างๆ ดูเหมือน “ปรากฏขึ้น” ขณะดาวน์โหลดไฟล์ (เช่นในรูปแบบ JPEG)

เมื่อ 20 ปีที่แล้ว เมื่อมีการเปิดตัวรูปแบบนี้ หน้าเว็บถูกโหลดในสามขั้นตอน: ขั้นแรกโหลดส่วนประกอบข้อความ หลังจากนั้นไม่กี่วินาที รูปภาพและพื้นหลังเวอร์ชันแรกก็ถูกโหลด หลังจากนั้นหนังสือทั้งหน้าก็ “ปรากฏขึ้น”

การมีอยู่ของโครงสร้างสามระดับยังช่วยให้คุณค้นหาหนังสือที่สแกนได้ (เนื่องจากมีเลเยอร์ข้อความพิเศษ) สิ่งนี้กลายเป็นเรื่องสะดวกเมื่อทำงานกับวรรณกรรมด้านเทคนิคและหนังสืออ้างอิง ดังนั้น DjVu จึงกลายเป็นพื้นฐานสำหรับห้องสมุดหนังสือวิทยาศาสตร์หลายแห่ง ตัวอย่างเช่นในปี 2002 เขาได้รับเลือก คลังอินเทอร์เน็ต เป็นหนึ่งในรูปแบบ (พร้อมกับ TIFF และ PDF) สำหรับโครงการเพื่อเก็บรักษาหนังสือที่สแกนจากโอเพ่นซอร์ส

ข้อเสียของรูปแบบ

อย่างไรก็ตาม เช่นเดียวกับเทคโนโลยีอื่นๆ DjVu ก็มีข้อเสียเช่นกัน ตัวอย่างเช่น เมื่อเข้ารหัสการสแกนหนังสือเป็นรูปแบบ DjVu อักขระบางตัวในเอกสารอาจถูกแทนที่ด้วยอักขระอื่นที่มีลักษณะคล้ายกัน สิ่งนี้มักเกิดขึ้นกับตัวอักษร "i" และ "n" ซึ่งเป็นสาเหตุของปัญหานี้ ที่ได้รับ ชื่อ "ปัญหาหยิน" มันไม่ได้ขึ้นอยู่กับภาษาของข้อความและผลกระทบ เหนือสิ่งอื่นใด ตัวเลขและอักขระเล็กๆ ที่ซ้ำกันอื่นๆ

สาเหตุคือข้อผิดพลาดในการจำแนกอักขระในตัวเข้ารหัส JB2 โดยจะ "แยก" สแกนเป็นกลุ่มๆ ละ 10-20 ชิ้นและสร้างพจนานุกรมสัญลักษณ์ทั่วไปสำหรับแต่ละกลุ่ม พจนานุกรมประกอบด้วยตัวอย่างตัวอักษรและตัวเลขทั่วไปพร้อมหน้าและพิกัดของลักษณะที่ปรากฏ เมื่อคุณดูหนังสือ DjVu ตัวอักษรจากพจนานุกรมจะถูกแทรกในตำแหน่งที่ถูกต้อง

วิธีนี้ช่วยให้คุณลดขนาดของไฟล์ DjVu ได้ อย่างไรก็ตาม หากการแสดงตัวอักษรสองตัวมีความคล้ายคลึงกัน ตัวเข้ารหัสอาจทำให้สับสนหรือเข้าใจผิดว่าเหมือนกันได้ บางครั้งสิ่งนี้อาจนำไปสู่ความเสียหายต่อสูตรในเอกสารทางเทคนิค เพื่อแก้ปัญหานี้ คุณสามารถละทิ้งอัลกอริธึมการบีบอัดได้ แต่จะเพิ่มขนาดของสำเนาดิจิทัลของหนังสือ

ข้อเสียอีกประการหนึ่งของรูปแบบนี้คือไม่รองรับค่าเริ่มต้นในระบบปฏิบัติการสมัยใหม่หลายระบบ (รวมถึงอุปกรณ์พกพาด้วย) ดังนั้นในการทำงานกับมันคุณต้องติดตั้งบุคคลที่สาม โครงการเช่น DjVuReader, WinDjView, Evince เป็นต้น อย่างไรก็ตาม ในที่นี้ ฉันอยากจะทราบว่าเครื่องอ่านอิเล็กทรอนิกส์บางตัว (เช่น ONYX BOOX) รองรับรูปแบบ DjVu “นอกกรอบ” - เนื่องจากมีการติดตั้งแอปพลิเคชันที่จำเป็นไว้ที่นั่นแล้ว

โดยวิธีการที่เราพูดคุยเกี่ยวกับสิ่งที่แอปพลิเคชันสำหรับผู้อ่านที่ใช้ Android สามารถทำได้ในก่อนหน้านี้ วัสดุ.

E-books และรูปแบบ: DjVu - ประวัติ ข้อดี ข้อเสีย และฟีเจอร์ต่างๆ
ผู้อ่าน โอนิกซ์ บูกซ์ โครโนส

ปัญหารูปแบบอื่นปรากฏขึ้นเมื่อทำงานกับเอกสาร DjVu บนหน้าจอขนาดเล็กของอุปกรณ์มือถือ - สมาร์ทโฟน แท็บเล็ต เครื่องอ่าน บางครั้งไฟล์ DjVu จะถูกนำเสนอในรูปแบบของการสแกนการแพร่กระจายหนังสือ และวรรณกรรมระดับมืออาชีพและเอกสารการทำงานมักจะอยู่ในรูปแบบ A4 ดังนั้นคุณต้อง "ย้าย" รูปภาพเพื่อค้นหาข้อมูล

อย่างไรก็ตาม เราทราบว่าปัญหานี้สามารถแก้ไขได้เช่นกัน วิธีที่ง่ายที่สุดคือการค้นหาเอกสารในรูปแบบอื่น - แต่ถ้าตัวเลือกนี้เป็นไปไม่ได้ (เช่นคุณต้องทำงานกับวรรณกรรมทางเทคนิคจำนวนมากใน DjVu) คุณสามารถใช้เครื่องอ่านอิเล็กทรอนิกส์ได้ ด้วยเส้นทแยงมุมขนาดใหญ่ตั้งแต่ 9,7 ถึง 13,3 นิ้ว ซึ่ง "ปรับแต่ง" เป็นพิเศษสำหรับการทำงานกับเอกสารดังกล่าว

เช่นในสาย ONYX BOOX อุปกรณ์ดังกล่าวได้แก่ โครโนส и MAX 2 (ยังไงก็ตามเราได้เตรียมการทบทวนโมเดลผู้อ่านนี้แล้วและจะเผยแพร่ในบล็อกของเราในไม่ช้า) และด้วย หมายเหตุซึ่งมีหน้าจอ E Ink Mobius Carta เส้นทแยงมุม 10,3 นิ้ว และความละเอียดที่เพิ่มขึ้น อุปกรณ์ดังกล่าวช่วยให้คุณตรวจสอบรายละเอียดทั้งหมดของภาพประกอบในขนาดดั้งเดิมได้อย่างใจเย็นและเหมาะสำหรับผู้ที่ต้องอ่านวรรณกรรมทางการศึกษาหรือทางเทคนิคบ่อยครั้ง วิธีดูไฟล์ DjVu และ PDF เคย NEO Reader ซึ่งช่วยให้คุณปรับความคมชัดและความหนาของแบบอักษรดิจิทัลได้

แม้จะมีข้อบกพร่องของรูปแบบ แต่ในปัจจุบัน DjVu ยังคงเป็นหนึ่งในรูปแบบที่ได้รับความนิยมมากที่สุดสำหรับ "การอนุรักษ์" งานวรรณกรรม นี่เป็นสาเหตุหลักมาจากการที่เขา เป็น เปิดกว้าง และข้อจำกัดทางเทคโนโลยีบางประการในปัจจุบันทำให้เทคโนโลยีและการพัฒนาสมัยใหม่สามารถข้ามไปได้

ในเนื้อหาต่อไปนี้ เราจะเล่าเรื่องราวเกี่ยวกับประวัติความเป็นมาของรูปแบบ e-book และคุณลักษณะของงานต่อไป

ป.ล. เครื่องอ่าน ONYX BOOX หลายชุด:



ที่มา: will.com

เพิ่มความคิดเห็น