|
|
|
 |
OCR เอกสารกันไปทำไม
ในแต่ละวัน ภาคธุรกิจต่างๆได้สร้างเอกสารใหม่ขึ้นมาอย่างมากมาย ซึ่งมีแนวโน้มว่ายังคงจะมีมากขึ้นๆ และต้องการพื้นที่เพื่อการจัดเก็บเอกสารเหล่านี้ โชคดีที่เครื่องคอมพิวเตอร์ในปัจจุบันสามารถแก้ปัญหานี้ได้ โดยการแปลงเอกสารกระดาษให้เป็นไฟล์อิเล็กทรอนิกส์ ซึ่งสามารถเก็บไว้ในสื่ออิเล็กทรอนิกส์ขนาดกะทัดรัด และเข้าถึงข้อมูลได้ในระดับไม่กี่วินาที |
| แต่เอกสารกระดาษยังคงยึดพื้นที่ และเป็นส่วนหนึ่งของชีวิตประจำวันในสำนักงานของเราไปซะแล้ว บ่อยครั้งที่เราต้องการแปลงข่าวสารที่อยู่ในรูปของกระดาษให้เป็นรูปแบบดิจิทัล (เช่นแปลงเป็นแบบฟอร์มอิเล็กทรอนิกส์) เอกสารข้อตกลง หรือเอกสารสัญญา การทำสำเนาดิจิตอล มันแน่นอนว่า คุณสามารถสแกนเอกสารของคุณ แต่สแกนเนอร์ทำได้เพียงผลิตไฟล์รูปภาพ (image) ซึ่งเป็นเพียงวิธีการจับข้อมูลอักขระที่ถูกพิมพ์ไว้บนเอกสารกระดาษ ที่ซึ่งไม่สามารถทำการแก้ไขข้อความ โดยใช้โปรแกรมแก้ไขข้อความทั่วๆไป เช่น Notepad เป็นต้นได้ แล้วอะไรคือเครื่องมือที่จำเป็นต้องใช้เพื่อแยกข้อมูลจำพวกอักษร/อักขระออกมาจากฟอร์มเอกสารที่เป็นรูปภาพ และ จากนั้นก็นำมาสร้างเป็นไฟล์อิเล็กทรอนิกส์ชิ้นใหม่ที่เสมือนถูกทำซ้ำมาจากเอกสารต้นฉบับดังกล่าว |
เครื่องมือที่ว่า มีตัวตนอยู่ และมักจะถูกเรียกว่า ซอฟต์แวร์เพื่อการรู้จำตัวอักษร หรือ OCR Software โปรแกรมจำพวก OCR นี้ อนุญาตให้คอมพิวเตอร์เกิดความสามารถในการอ่านข้อมูลที่ผ่านการสแกนแล้ว โดยสามารถแยกข้อมูลชนิดข้อความออกจากข้อมูลชนิดรูปภาพ และองค์ประกอบรูปแบบประเภทอื่นๆได้ สามารถเรียนรู้ และวิเคราะห์ข้อมูลชนิดตารางได้ และอื่นๆ หลังจากกระบวนการการรู้จำข้อมูลเสร็จสมบูรณ์ คอมพิวเตอร์จะประกอบข้อมูลใหม่ทั้งเอกสาร ที่มีรูปร่างหน้าตาของโครงสร้างเอกสารจะคล้ายกับเอกสารต้นฉบับเลยทีเดียว! แถมยังเอื้อให้สามารถเกิดการแก้ไขรูปแบบ ตัวอักษร ขนาดของข้อมูลภายในเอกสารที่ถูกสร้างใหม่นี้ได้ด้วย ซึ่งวิธีการนี้ส่งผลให้เกิดความสะดวกมากกว่าวิธีการดั่งเดิมที่ต้องพิมพ์ข้อมูลลงไปในเอกสารใหม่ ด้วยมือ |
| |
เพื่อให้เห็นภาพของ พลังความสามารถของเจ้า OCR นี้ ให้เราดูที่ตัวอย่างจริง โดยจินตนาการถึง สถานีตำรวจ ที่มีบันทึกข้อมูลทางอาญาทั้งหมดเก็บไว้ในตู้เอกสารขนาดใหญ่มาก ถึงแม้ว่าการสแกนเอกสารนับล้านแผ่น จะมีต้นทุนราคาที่ค่อนข้างแพง และใช้เวลาเป็นอย่างมาก แต่ประโยชน์ที่ได้จากการสแกนเอกสารนี้กลับมีอย่างมหาศาล เมื่อนำระบบ OCR มาทำการแปลงหน้าผ่านการสแกนแล้ว ให้กลายเป็นข้อความซึ่งคอมพิวเตอร์สามารถอ่าน และเข้าใจได้ ยกตัวอย่างเช่น พนักงานสืบสวน สามารถค้นหาข้อมูลประวัติอาญากรรมทั้งหมดได้ภายในไม่กี่วินาที ซึ่งในทางกลับกัน หากต้องค้นหาระเบียนข้อมูลข้างต้นด้วยตนเอง ด้วยวิธีดั่งเดิม คือค้นหาตามแฟ้มเอกสาร อาจจะไม่ยากเกินไปนัก แต่ละนึกดูว่า หากพนักงานสืบสวนต้องค้นหาทุกระเบียนอาญากรรมที่เกิดขึ้นในระยะเวลา 8.00 ถึง 8.30 เข้าจะทำอย่างไร และนี่ก็เป็นเพียงตัวอย่างที่ไปสะกิดผิวของคุ้มพลังแห่งการ ค้นหาชุดข้อมูลอักษรทั้งหมด และนี่ก็เหตุผลเดียวที่หลายๆ บริษัท หลายๆสถาบัน ได้มีการใช้จ่ายหลายล้านเหรียญดอลลาร์เพื่อทำ OCR ให้กับข้อมูลเดิมของตนเอง |
| |
| |
หนึ่งในโปรแกรมประเภท OCR ที่ได้รับความนิยมมากที่สุด ที่มีจำหน่ายอยู่ในตลาดปัจจุบันก็คือ "ABBYY FineReader" ซึ่งไม่เพียงแต่ความแม่นยำด้านการแปลงอักขระที่ถูกพิมพ์มาที่ได้รับการยอมรับ ยังมีเรื่องของการรักษา หรือคงไว้ซึ่งรูปแบบของตัวอักขระที่ปรากฎในเอกสารผลลัพธ์ ถูกทำให้เหมือนกับเอกสารต้นฉบับได้ด้วย ไม่ว่าจะเป็น ตำแหน่งที่ถูกจัดวางได้ใกล้เคียงกับเอกสารต้นฉบับ ตารางที่สร้างได้อย่างแม่นยำ ซึ่งเป็นความสามารถที่เหนือกว่าคู่แข่งรายอื่นๆ โปรแกรม FineReader ง่ายต่อการใช้งาน และน่าเชื่อถือ ซึ่งทำให้กลายเป็นที่ยอมรับในตลาดของซอฟต์แวร์ OCR จากลูกค้าสำนักงานทั่วๆไป จนถึงองค์กรขนาดใหญ่ และลูกค้าประเภทส่วนบุคคลก็มีใช้งานโปรแกรมนี้กันอย่างแพร่หลายทั่วโลก |
| |
|