| |
|
DjVU คืออะไร
DjVU สามารถออกเสียงได้ว่า "déjà vu" หรือ “เดจาวู” เป็นเทคโนโลยีใหม่เพื่อการบีบไฟล์เอกสารจำพวกรูปภาพ โดยถูกพัฒนาขึ้นจากห้องทดลองของบริษัท AT&T ประเทศสหรัฐอเมริกาตั้งแต่ปี 1996 (จริงๆก็ไม่ใหม่แล้วนะครับ) วัตถุประสงค์แรกของการพัฒนาเทคโนโลยีนี้คือ ต้องการแก้ไขปัญหาข้างต้นที่เกริ่นมาอย่างตรงจุด DjVU อนุญาตให้การส่งผ่านข้อมูลไฟล์ภาพที่มีความละเอียดสูงๆที่ได้จากการสแกนเอกสาร หรือเอกสารดิจิตอลชนิดอื่นๆ โดยเฉพาะเอกสารที่ประกอบไปด้วยข้อมูลอักขระ ลายเส้น และรูปภาพก็ได้ ผ่านข้ามเครือข่ายอินเทอร์เน็ตได้อย่างรวดเร็ว |
DjVU ช่วยให้นักพัฒนาเนื้อหาบนเว็ป ทำการสแกนหน้าเอกสารสีของหนังสือด้วยความความละเอียดสูง รวมไปถึง นิตยสาร, แคตตาล็อก, คู่มือ, หนังสือพิมพ์, เอกสารทางประวัติศาสตร์ หรือเอกสารโบราณ และนำขึ้นมาให้สามารถใช้งานได้บนเว็บ ข้อมูลที่ถูกฝังทิ้งไว้ก่อนหน้านี้ และไม่คิดว่าจะสามารถเอาขึ้นมาไว้บนเว็ปได้แล้ว ขณะนี้คุณสามารถพัฒนาบริการใหม่ๆให้กับกลุ่มผู้ชม หรือกุล่มลูกค้าของท่านได้ด้วยเทคโนโลยีที่ DjVU ทีให้ใช้งาน
|
|
เทคโนโลยีของการบีบอัดไฟล์
DjVu แบ่งภาพหนึ่งภาพให้ออกมาเป็นภาพที่แตกต่างกัน แล้วจึงทำการบีบอัดแต่ละภาพที่ถูกแยกออกมานั้น เพื่อสุดท้ายจะนำมาใช้สร้างไฟล์ DjVu ไฟล์รูปภาพโดยแรกเริ่มจะถูกแยกเป็นสามภาพส่วน ตามลำดับดังนี้ ภาพส่วนพื้นหลัง ภาพส่วนพื้น และภาพส่วนหน้ากาก สำหรับภาพส่วนพื้นหลังและภาพส่วนพื้นมักจะมีความละเอียดของภาพสีที่ค่อนข้างต่ำ (เช่น 100dpi) และภาพส่วนหน้ากากมักจะมีความละเอียดภาพที่สูง(เช่น 300dpi) และมีลักษณะเป็น 2 ระดับ คือขาวกับดำ หรือข้อมูลสีที่มีความแตกต่างกันค่อนข้างมากนั้นเอง ซึ่งปกติแล้วข้อมูลประเภทข้อความจะถูกเก็บไว้ที่ส่วนนี้ ภาพส่วนพื้นหลังและภาพส่วนพื้น จะถูกบีบอัดโดยการใช้วิธีการบีบอัดแบบฐานเวฟ ซึ่งมีชื่อว่า IW44 และภาพส่วนหน้ากากจะถูกบีบอัดโดยใช้วิธีการที่เรียกว่า JB2 (คล้ายกับ JBIG2) วิธีการเข้ารหัสแบบ JB2 นั้นจะทำการระบุรูปทรงที่มีความคล้ายคลึงกันที่ปรากฎบนหน้าเอกสาร ตัวอย่างเช่น การเกิดขึ้นอย่างหลายๆครั้งของอักขระที่มีความสอดคล้องหรือเหมือนกัน ทั้งรูปแบบ ขนาด หรือชนิดของแบบอักขระ มันจะแยกการบีบอัด bitmap ของรูปร่างที่ไม่มีการซ้ำกันของอักขระ และเข้ารหัสตำแหน่งของสถานที่ที่รูปทรงเหล่านั้นปรากฎบนหน้าเอกสาร ดังนั้น แทนที่จะบีบอัดตัวอักษร"e"หลายครั้ง ตัววิธีการก็จะบีบอัดตัวอักษร"e"นี้เพียงครั้งเดียว (ดังเช่น การบีบอัดภาพบิตของภาพ ) แล้วจากนั้นจึงบันทึกข้อมูลของตำแหน่งที่ตัวอักษร e ตัวอื่นๆที่ปรากฏบนหน้าเอกสารเอาไว้ ในกรณีอื่นๆ รูปทรงเหล่านี้อาจจะถูกแมปไปเป็นรหัสแบบ ASCII ก็ได้ (ทั้งด้วยมือหรืออาจเกิดจากระบบการจดจำตัวอักษร) และเก็บไว้ในไฟล์ DjVu ถ้าการเชื่อมโยงข้อมูลอัขระนี้ยังอยู่ มันก็เป็นไปได้ที่จะเลือกและคัดลอกข้อความออกไปใช้งานได้
|
 |
| |
ภาพใช้ประกอบการอธิบายเทคโนโลยีการบีบอัดที่แยกข้อมูลภายในไฟล์เอกสารภาพออกเป็นชั้นๆเท่านั้น |
| |
ท่านทราบหรือไม่ว่า
DjVu ได้รับการส่งเสริมให้เป็นทางเลือกกับ PDF เนื่องจากขนาดไฟล์ที่ให้เล็กกว่า PDF สำหรับเอกสารส่วนใหญ่ที่มาจากการสแกน นักพัฒนา DjVu ได้ให้รายงานว่า หน้านิตยสารสีได้ถูกบีบอัดลงได้ถึง 40-70 kB หน้าเอกสารชนิดขาวดำสามารถบีบอัดเอกสารประเภทเชิงเทคนิค (ที่มีลายเส้นและตัวอักขระผสมกัน) ลงไปได้ถึงที่ 15-40 KB และต้นฉบับเอกสารโบราณก็บีบอัดลงได้ประมาณ 100 KB ซึ่งเมื่อหากเปรียบเทียบกับภาพที่ได้จาก JPEG ความพึงพอใจมักจะต้องมีขนาดไฟล์ที่ประมาณ 500 KB เฉกเช่นเดียวกับไฟล์ PDF DjVu สามารถบรรจุข้อความที่ได้จากขั้นตอนการทำ OCR โดยสร้างเป็นชั้นเฉพาะเอาไว้ เพื่อทำให้ง่ายต่อการตัดและวาง และสะดวกต่อการค้นหาข้อความในเอกสารอีกด้วย |