Categories: ECM

Recognition สิ่งที่ขาดไม่ได้ใน Input Management

          หากกล่าวถึงรถยนต์ เราจะไม่สามารถเรียกว่ารถยนต์ได้หากขาดเครื่องยนตร์ ซื่งเป็นส่วนสำคัญในการขับเคลื่อนให้รถยนต์เคลื่อนที่ได้ ใน Input management software ก็เช่นกัน จะต้องมีความสามารถที่เรียกว่า Recognition ประกอบอยู่เสมอ แล้ว Recognition หมายความถึงอะไรบ้าง เรามาดูกันครับ

          Recognition ตามที่ผมเคยแปลแบบตรงๆ ไปแล้วว่า “เป็นตัวที่ทำให้ระบบรู้จักเอกสาร” โดยรู้จักในแง่ของการพยายามอ่านข้อความบนรูปให้ออกมาเป็นข้อความอิเล็กทรอนิกส์ เพื่อให้นำไปแก้ไข, เก็บในฐานข้อมูล รวมไปถึงทำการค้นหาได้ โดยมีหลายเทคโนโลยีที่สามารถนำมาช่วยให้สามารถอ่านข้อความได้หลายประเภท เช่น ข้อความจากการพิมพ์ จากการเขียน

Optical character recognition (OCR)

          เป็นเทคโนโลยีในการแปลงรูปภาพที่มีข้อความจากการพิมพ์ผ่านเครื่องพิมพ์ดีด หรือผ่านทางปริ้นเตอร์ให้กลายเป็นข้อความอิเล็กทรอนิกส์ ส่วนใหญ่จะใช้กับเอกสารที่เป็นแบบฟอร์มที่ใช้กันในสำนักงาน เช่น ใบสมัคร, ใบแจ้งหนี้, ใบกำกับภาษี, ใบส่งของ, bank statements, สมุดบัญชีธนาคาร, บัตรประชาชน หรือใช้กับ นามบัตรก็ได้เช่นกัน

โดยอัลกอริธึ่มที่ใช้ในการแปลงนี้ ส่วนใหญ่ใช้อยู่ 2 วิธีคือ

  1. Template Matching เป็นการนำรูปภาพที่ต้องการอ่านไปเปรียบเทียบกับรูปภาพตัวอย่าง (Template) ซึ่งรูปตัวอย่างนี้จะเก็บค่าและกำหนดคุณลักษณะที่สำคัญต่างๆ ที่สามารถแยกความแตกต่างของแต่ละตัวอักษรไว้ ก่อนที่จะเปรียบเทียบจะต้องผ่านขั้นตอนการตัดแบ่งภาพตัวอักษรออกมาให้ได้ แล้วนำภาพอักษรทุกภาพส่งเข้าไปทำการเปรียบเทียบกับภาพตัวอย่างอักษร การจะใช้งานอัลกอริธึ่มนี้ได้ จะต้องเตรียมภาพตัวอย่างอักษรหลายๆแบบ มาเตรียมไว้กก่อน เพื่อให้สามารถอ่านเอกสารได้หลายชนิดหลายฟอนต์ วิธีนี้เป็นที่นิยมมาก เพราะให้ผลค่อนข้างแม่นยำ แต่ก็มีข้อเสียคือจะช้า ยิ่งมีภาพตัวอย่างอักษรมากก็ยิ่งช้ามาก จึงมีผู้คิดค้นนำวิธีทางโครงข่างประสาทเทียม (Neural Network) เข้ามาใช้เปรียบเทียบตัวอักษร โดยจะอาศัยการทำงานที่จำลองมาจากการทำงานของสมองมนุษย์ จะอาศัยการรู้จำของแบบตัวอักษรหลายๆ รูปแบบ เมื่อนำรูปภาพเข้ามา โปรแกรมจะสามารถวิเคราะห์และตัดสินใจได้ว่าเป็นตัวอักษรใดได้อย่างรวดเร็ว โดยจะมีข้อมูลประกอบเป็นค่าระดับความเชื่อมั่นของการอ่าน (Confidence level) โดยจะมีค่าตั้งแต่ 0 –  100%
  2. Structural Analysis เป็นวิธีการอาศัยหลักการทางโครงสร้างของตัวอักษร โดยในขั้นตอนการรู้จำลักษณะของตัวอักษรต่างๆ นั้น จะตรวจสอบหรือวิเคราะห์กฎการเขียนอักษรตามโครงสร้าง ซึ่งจะใช้การคำนวนทางคณิตศาสตร์ ข้อดีของวิธีการนี้คือ ใช้ได้กับแบบตัวอักษรที่หลากหลาย แต่ก็มีข้อเสียคือจะมีความแม่นยำน้อยกว่าแบบเปรียบเทียบ

Handprint character recognition (HCR)

          เป็นเทคโนโลยีในการแปลงรูปภาพที่มีข้อความจากการเขียนให้กลายเป็นข้อความอิเล็กทรอนิกส์ จะใช้อัลการิธึ่มเช่นเดียวกับ OCR แต่จะมีความแตกต่างทางโครงสร้างตัวอักษร เพราะลายมือจะมีความโค้งมากว่าอักษรพิมพ์ ส่วนใหญ่แล้วมักจะใช้กับเอกสาร แบบฟอร์มสมัครใช้บริการต่างๆ ที่จะต้องใช้คนเขียนเอง ซึ่งจะใช้ได้ดีกับแบบฟอร์มที่มีการระบุตำแหน่งที่ชัดเจนบนเอกสาร

Intelligent character recognition (ICR)

          เป็นเทคโนลยีที่ต่อยอดออกมาจาก OCR และ HCR โดยจะเพิ่มความแม่นยำในการอ่าน ด้วยการใช้การเปรียบเทียบกับข้อมูลคำศัพท์, ข้อมูลหลัก (Master Data) รวมไปถึงใช้รูปแบบของข้อมูลมาช่วยในการพิจารณา เช่น ถ้าข้อมูลที่อ่านเป็น email เราสามารถบอกโปรแกรมได้ว่าข้อมูลนี้จะต้องมีโครงสร้าง x@x.x เป็นต้น

Optical mark recognition (OMR)

          เป็นเทคโนโลยีในการอ่านเครื่องหมายบนรูปภาพ เช่นเครื่องหมายถูก, ฝนข้อมูลบนกระดาษคำตอบ หรือกากบาทในช่องสี่เหลี่ยม โดยโปรแกรมจะแปลงเครื่องหมายนี้ ให้เป็นความหมายที่ถูกต้อง ส่วนใหญ่แล้วจะใช้กับการอ่านกระดาษคำตอบ แบบฟอร์มที่มีให้เลือกเงื่อนไขหรือประเภท เช่น ให้เลือกประเภทเงินฝากที่จะสมัคร (ออมทรัพย์, ประจำ) หรือให้เลือกเงือนไขในการชำระ (เงินสด, บัตรเครดิต)

Magnetic ink character recognition (MICR)

          เป็นเทคโนโลยีในการแปลงรูปภาพที่มีข้อความที่เป็นหมึกพิมพ์แม่เหล็ก ปกติแล้วจะอ่านข้อมูลเหล่านี้ได้ด้วยเครื่องอ่าน Magnetic ink character reader เท่านั้น เพราะจะอาศัยการอ่านข้อมูลจากหมึกพิมพ์แม่เหล็กแปลงเป็นสัญญาไฟฟ้าเข้าสู่ซีพียู ปัจจุบันนี้มักนำไปใช้พิมพ์อยู่บนเช็ค รูปแบบตัวอักษรที่ใช้ก็เป็นเอกลักษณ์มาก ฟอนต์ที่มักใช้คือ

E-13B (มาตรฐานในออสเตเลีย แคนาดา อังกฤษ และสหรัฐอเมริกา)

CMC-7 (มาตรฐานในยุโรป บราซิล และเม็กซิโก)

          การใช้ฟอนต์พิเศษนี้ ทำให้สามารถใช้เทคโนโลยี OCR เข้ามาช่วยอ่านตัวอักษรได้ และการอ่านจะมีความแม่นยำสูง เนื่องจากรูปแบบฟอนต์มีเอกลักษณ์มาก และยังมีการใช้อักขระพิเศษเข้ามาร่วมเพื่อแบ่งแยกประเภทข้อมูล

Barcode Recognition

          เป็นเทคโนโลยีในการแปลงรูปภาพที่มี barcode อยู่ แต่การอ่านข้อความบน barcode ได้นี้จำเป็นจะต้องรู้ว่า barcode เป็นชนิดไหน ปัจจุบันนี้มีอยู่หลายชนิดมาก ที่นิยมใช้กันก็จะมี UPC, EAN, Code 39 และ Code 128 ทั้ง 4 ชนิดที่กล่าวมาคือ barcode ที่มีลักษณะ 1 มิติ (1D) แต่ในปัจจุบันเริ่มนำ barcode 2D มาใช้กัน เนื่องจากว่าสามารถเก็บข้อมูลได้มากขึ้น เช่น QR Code

          การใช้นำ barcode มาใช้กับเอกสารนั้น เป็นการเพิ่มประสิทธิภาพในการทำงานของ Input Management Software อย่างมาก เนื่องจากการอ่าน barcode จะได้ข้อมูลถูกต้องเกือบ 100% ถ้าอ่านถูกก็จะได้ข้อมูลถูกต้อง ถ้าอ่านไม่ถูกก็จะไม่ได้ข้อมูลเลย

Wekij Liwrojsup

Recent Posts

Digital Transformation เกิดได้เพราะอุปสรรคทางกฎหมายถูกทำลาย

หลายท่านคงได้ยินคำว่า Digital Transformation หรือ Digital Disruption กันอยู่บ่อยๆ ในช่วงเวลานี้เนื่องจากเพียงไม่กี่ปีที่ผ่านมา ธุรกิจแบบดั้งเดิมล้วนประสบกับผลกระทบของ Digital Disruption จากเทคโนโลยีดิจิทัลและรูปแบบโมเดลธุรกิจใหม่ๆ เช่น ธุรกิจค้าปลีกต้องต่อสู้กับ e-Commerce,…

3 years ago

พ.ร.บ. ธุรกรรมทางอิเล็กทรอนิกส์

กฎหมาย "ธุรกรรมทางอิเล็กทรอนิกส์" หรือ พระราชบัญญัติว่าด้วย "ธุรกรรมทางอิเล็กทรอนิกส์" พ.ศ. 2544 (ฉบับแก้ไขเพิ่มเติม) เป็นกฎหมายกลางที่รองรับสถานะทางกฎหมายของข้อมูลอิเล็กทรอนิกส์ ให้มีผลผูกพันและใช้บังคับได้ตามกฎหมาย  กฎหมาย "ธุรกรรมทางอิเล็กทรอนิกส์" มีหลักการ คือ หลักความเท่าเทียมกัน…

3 years ago

e-Stamp พร้อมใช้ สะดวกและรวดเร็ว

ตราสารอิเล็กทรอนิกส์ หมายถึง ตราสารแห่งบัญชีอัตราอากรแสตมป์ (e-Stamp) ที่จัดทำข้อความขึ้นเป็นข้อมูลอิเล็กทรอนิกส์ตามกฎหมายว่าด้วยธุรกรรมทางอิเล็กทรอนิกส์ หมายเลขอ้างอิงตราสารอิเล็กทรอนิกส์ หมายถึง ตัวเลข ตัวอักษร หรืออักขระใดๆ ที่สร้างขึ้นโดยระบบของผู้ทำตราสารเพื่อใช้อ้างอิงหรือระบุถึงตราสารอิเล็กทรอนิกส์ฉบับนั้นๆ โดยตราสารอิเล็กทรอนิกส์แต่ละฉบับต้องมีหมายเลขอ้างอิงตราสารอิเล็กทรอนิกส์ที่ไม่ซ้ำกัน มีตราสารอิเล็กทรอนิกส์ประเภทใดบ้างที่สามารถซื้ออากรแสตมป์ (e-Stamp) ได้…

3 years ago

e-KYC คืออะไร? และ ได้รับความนิยมในประเทศไทยแบบไหนบ้าง?

e-KYC ( Electronic Know Your Customer) คือ การทำความรู้จักลูกค้าผ่านทางอิเล็กทรอนิกส์ (e-KYC) ซึ่งผู้เก็บข้อมูลของสถาบันการเงินต้องใช้ทักษะและความชำนาญของการใช้ระบบอิเล็กทรอนิกส์ในการระบุตัวตนบุคลากร (Identification) และยืนยันตัวตน (Verification) แทนการใช้ KYC หรือ…

3 years ago

Paperless ใช้ชีวิตแบบไม่ใช้กระดาษ…ได้อย่างไร ??

ปัจจุบันนี้ ผู้คนหลายล้านคนทั่วโลกยังคงเคยชินกับการใช้กระดาษในชีวิตประจำวันทั้งที่บ้านและที่ทำงาน มองไปรอบๆ ตัวเราก็มักจะเห็นแผ่นกระดาษอยู่เสมอ ด้วยเหตุนี้ทำให้พวกเขาไม่สามารถทำงานได้มากขึ้น ด้วยเทคโนโลยีที่ถูกคิดค้นและพัฒนาตลอดระยะเวลาหลายปีมานี้ ทำไมผู้คนจึงยังไม่ได้รับความสะดวกสบายจากชีวิตที่ไม่ใช้กระดาษ (Paperless) คำตอบคือ นิสัย หากคุณยังเคยชินกับการทำกิจวัตรแบบเดิม ๆ ก็ยากที่จะเลิกใช้กระดาษที่บ้านหรือที่ทำงาน ต่อไปนี้เป็นนิสัย 5…

3 years ago

RPA for Manufacturing and Logistic

เพิ่มการเติบโตและผลกำไรของบริษัท โดยเชื่อมโยงกระบวนการต่าง ๆ ในห่วงโซ่อุปทานของคุณ ด้วย RPA           Kofax RPA สำหรับงานด้านการขนส่งและโลจิสติก จะช่วยคุณลดต้นทุนของการใช้คนในการทำงาน…

5 years ago