Recognition สิ่งที่ขาดไม่ได้ใน Input Management

          หากกล่าวถึงรถยนต์ เราจะไม่สามารถเรียกว่ารถยนต์ได้หากขาดเครื่องยนตร์ ซื่งเป็นส่วนสำคัญในการขับเคลื่อนให้รถยนต์เคลื่อนที่ได้ ใน Input management software ก็เช่นกัน จะต้องมีความสามารถที่เรียกว่า Recognition ประกอบอยู่เสมอ แล้ว Recognition หมายความถึงอะไรบ้าง เรามาดูกันครับ

          Recognition ตามที่ผมเคยแปลแบบตรงๆ ไปแล้วว่า “เป็นตัวที่ทำให้ระบบรู้จักเอกสาร” โดยรู้จักในแง่ของการพยายามอ่านข้อความบนรูปให้ออกมาเป็นข้อความอิเล็กทรอนิกส์ เพื่อให้นำไปแก้ไข, เก็บในฐานข้อมูล รวมไปถึงทำการค้นหาได้ โดยมีหลายเทคโนโลยีที่สามารถนำมาช่วยให้สามารถอ่านข้อความได้หลายประเภท เช่น ข้อความจากการพิมพ์ จากการเขียน

Optical character recognition (OCR)

          เป็นเทคโนโลยีในการแปลงรูปภาพที่มีข้อความจากการพิมพ์ผ่านเครื่องพิมพ์ดีด หรือผ่านทางปริ้นเตอร์ให้กลายเป็นข้อความอิเล็กทรอนิกส์ ส่วนใหญ่จะใช้กับเอกสารที่เป็นแบบฟอร์มที่ใช้กันในสำนักงาน เช่น ใบสมัคร, ใบแจ้งหนี้, ใบกำกับภาษี, ใบส่งของ, bank statements, สมุดบัญชีธนาคาร, บัตรประชาชน หรือใช้กับ นามบัตรก็ได้เช่นกัน

recognition1

โดยอัลกอริธึ่มที่ใช้ในการแปลงนี้ ส่วนใหญ่ใช้อยู่ 2 วิธีคือ

  1. Template Matching เป็นการนำรูปภาพที่ต้องการอ่านไปเปรียบเทียบกับรูปภาพตัวอย่าง (Template) ซึ่งรูปตัวอย่างนี้จะเก็บค่าและกำหนดคุณลักษณะที่สำคัญต่างๆ ที่สามารถแยกความแตกต่างของแต่ละตัวอักษรไว้ ก่อนที่จะเปรียบเทียบจะต้องผ่านขั้นตอนการตัดแบ่งภาพตัวอักษรออกมาให้ได้ แล้วนำภาพอักษรทุกภาพส่งเข้าไปทำการเปรียบเทียบกับภาพตัวอย่างอักษร การจะใช้งานอัลกอริธึ่มนี้ได้ จะต้องเตรียมภาพตัวอย่างอักษรหลายๆแบบ มาเตรียมไว้กก่อน เพื่อให้สามารถอ่านเอกสารได้หลายชนิดหลายฟอนต์ วิธีนี้เป็นที่นิยมมาก เพราะให้ผลค่อนข้างแม่นยำ แต่ก็มีข้อเสียคือจะช้า ยิ่งมีภาพตัวอย่างอักษรมากก็ยิ่งช้ามาก จึงมีผู้คิดค้นนำวิธีทางโครงข่างประสาทเทียม (Neural Network) เข้ามาใช้เปรียบเทียบตัวอักษร โดยจะอาศัยการทำงานที่จำลองมาจากการทำงานของสมองมนุษย์ จะอาศัยการรู้จำของแบบตัวอักษรหลายๆ รูปแบบ เมื่อนำรูปภาพเข้ามา โปรแกรมจะสามารถวิเคราะห์และตัดสินใจได้ว่าเป็นตัวอักษรใดได้อย่างรวดเร็ว โดยจะมีข้อมูลประกอบเป็นค่าระดับความเชื่อมั่นของการอ่าน (Confidence level) โดยจะมีค่าตั้งแต่ 0 –  100%
  2. Structural Analysis เป็นวิธีการอาศัยหลักการทางโครงสร้างของตัวอักษร โดยในขั้นตอนการรู้จำลักษณะของตัวอักษรต่างๆ นั้น จะตรวจสอบหรือวิเคราะห์กฎการเขียนอักษรตามโครงสร้าง ซึ่งจะใช้การคำนวนทางคณิตศาสตร์ ข้อดีของวิธีการนี้คือ ใช้ได้กับแบบตัวอักษรที่หลากหลาย แต่ก็มีข้อเสียคือจะมีความแม่นยำน้อยกว่าแบบเปรียบเทียบ

Handprint character recognition (HCR)

          เป็นเทคโนโลยีในการแปลงรูปภาพที่มีข้อความจากการเขียนให้กลายเป็นข้อความอิเล็กทรอนิกส์ จะใช้อัลการิธึ่มเช่นเดียวกับ OCR แต่จะมีความแตกต่างทางโครงสร้างตัวอักษร เพราะลายมือจะมีความโค้งมากว่าอักษรพิมพ์ ส่วนใหญ่แล้วมักจะใช้กับเอกสาร แบบฟอร์มสมัครใช้บริการต่างๆ ที่จะต้องใช้คนเขียนเอง ซึ่งจะใช้ได้ดีกับแบบฟอร์มที่มีการระบุตำแหน่งที่ชัดเจนบนเอกสาร

recognition2

Intelligent character recognition (ICR)

          เป็นเทคโนลยีที่ต่อยอดออกมาจาก OCR และ HCR โดยจะเพิ่มความแม่นยำในการอ่าน ด้วยการใช้การเปรียบเทียบกับข้อมูลคำศัพท์, ข้อมูลหลัก (Master Data) รวมไปถึงใช้รูปแบบของข้อมูลมาช่วยในการพิจารณา เช่น ถ้าข้อมูลที่อ่านเป็น email เราสามารถบอกโปรแกรมได้ว่าข้อมูลนี้จะต้องมีโครงสร้าง [email protected] เป็นต้น

Optical mark recognition (OMR)

          เป็นเทคโนโลยีในการอ่านเครื่องหมายบนรูปภาพ เช่นเครื่องหมายถูก, ฝนข้อมูลบนกระดาษคำตอบ หรือกากบาทในช่องสี่เหลี่ยม โดยโปรแกรมจะแปลงเครื่องหมายนี้ ให้เป็นความหมายที่ถูกต้อง ส่วนใหญ่แล้วจะใช้กับการอ่านกระดาษคำตอบ แบบฟอร์มที่มีให้เลือกเงื่อนไขหรือประเภท เช่น ให้เลือกประเภทเงินฝากที่จะสมัคร (ออมทรัพย์, ประจำ) หรือให้เลือกเงือนไขในการชำระ (เงินสด, บัตรเครดิต)

Magnetic ink character recognition (MICR)

          เป็นเทคโนโลยีในการแปลงรูปภาพที่มีข้อความที่เป็นหมึกพิมพ์แม่เหล็ก ปกติแล้วจะอ่านข้อมูลเหล่านี้ได้ด้วยเครื่องอ่าน Magnetic ink character reader เท่านั้น เพราะจะอาศัยการอ่านข้อมูลจากหมึกพิมพ์แม่เหล็กแปลงเป็นสัญญาไฟฟ้าเข้าสู่ซีพียู ปัจจุบันนี้มักนำไปใช้พิมพ์อยู่บนเช็ค รูปแบบตัวอักษรที่ใช้ก็เป็นเอกลักษณ์มาก ฟอนต์ที่มักใช้คือ

E-13B (มาตรฐานในออสเตเลีย แคนาดา อังกฤษ และสหรัฐอเมริกา)

recognition4

CMC-7 (มาตรฐานในยุโรป บราซิล และเม็กซิโก)

          การใช้ฟอนต์พิเศษนี้ ทำให้สามารถใช้เทคโนโลยี OCR เข้ามาช่วยอ่านตัวอักษรได้ และการอ่านจะมีความแม่นยำสูง เนื่องจากรูปแบบฟอนต์มีเอกลักษณ์มาก และยังมีการใช้อักขระพิเศษเข้ามาร่วมเพื่อแบ่งแยกประเภทข้อมูล

Barcode Recognition

          เป็นเทคโนโลยีในการแปลงรูปภาพที่มี barcode อยู่ แต่การอ่านข้อความบน barcode ได้นี้จำเป็นจะต้องรู้ว่า barcode เป็นชนิดไหน ปัจจุบันนี้มีอยู่หลายชนิดมาก ที่นิยมใช้กันก็จะมี UPC, EAN, Code 39 และ Code 128 ทั้ง 4 ชนิดที่กล่าวมาคือ barcode ที่มีลักษณะ 1 มิติ (1D) แต่ในปัจจุบันเริ่มนำ barcode 2D มาใช้กัน เนื่องจากว่าสามารถเก็บข้อมูลได้มากขึ้น เช่น QR Code

          การใช้นำ barcode มาใช้กับเอกสารนั้น เป็นการเพิ่มประสิทธิภาพในการทำงานของ Input Management Software อย่างมาก เนื่องจากการอ่าน barcode จะได้ข้อมูลถูกต้องเกือบ 100% ถ้าอ่านถูกก็จะได้ข้อมูลถูกต้อง ถ้าอ่านไม่ถูกก็จะไม่ได้ข้อมูลเลย