[Ruby on Rails] OCR and Document Manipulation with Docsplit
การทำ OCR (Optical Character Recognition)
เดี๋ยวนี้มี Library ให้ใช้เยอะแยะไปหมด
ลองอ่านรายละเอียดที่ Official Page นะครับ วิธีการใช้งาน Library นี้ก็อยู่ที่นี่เช่นกัน
http://documentcloud.github.com/docsplit/
เดี๋ยวนี้มี Library ให้ใช้เยอะแยะไปหมด
Ruby ก็เช่นกัน ... ผมได้โจทย์ให้ทำ OCR บน Rails มา
แต่ยังเขียน Module ของ Rails ไม่เสร็จก็เลยหนีมาลองเล่น OCR ก่อน
ก็ได้มาเจอของดี นั่นคือ Docsplit
นี่คือ Code ตัวอย่างการทำ OCR จากไฟล์ PDF ครับ
ตอนนี้ผมลองแค่กับภาษาอังกฤษ ถือว่า เร็วและแม่นยำมาก
ผลลัพธ์ไม่ออกที่จอ อย่าตกใจนะครับ (ตอนแรกก็ตกใจเหมือนกัน)
ผลลัพธ์จะถูกเซฟเก็บไว้เป็น PDF_FILE_NAME.txt ที่ Current Directory ครับ
จะเห็นได้ว่า ผมได้เขียน Code เพื่อเปิดอ่านมันมาแสดงอีกที :)
โดยตัว Docsplit นี้สามารถที่จะใช้ในรูปแบบของ
Ruby Application และ Command Line Interface ทั้งคู่เลยนะครับ
วิธีการลงก็ไม่ยากครับ ลงผ่าน Terminal ได้เลย
ซึ่งในที่นี้ผมใช้ Mac จะใช้ Homebrew ในการทำ Package Management
ใครใช้ Linux ก็ต้องลงผ่าน aptitude นะครับ :)
$ gem install docsplit
จากนั้นก็ลง Dependency มีทั้งหมด 2 ตัวครับ
GraphicsMagick
$ brew install graphicsmagick
Poppler
$ brew install poppler
on linux --> $ aptitude install poppler-utils poppler-data
เท่านี้เองครับ ที่ำจเป็นต้องลง แล้วก็ยังมี Optional Dependency เองลองอ่านรายละเอียดที่ Official Page นะครับ วิธีการใช้งาน Library นี้ก็อยู่ที่นี่เช่นกัน
http://documentcloud.github.com/docsplit/
จากนั้นถ้าคุณจะเอา Library นี้ไปใช้บน Rails ก็ง่ายๆ แค่ไปเพิ่มที่ Gemfile
gem 'docsplit'
Comments
Post a Comment