ペーパーレス化に欠かせない技術にOCRがあります。なんとなく誤認識が多くて使えない、といったイメージを持っている方も少なくないと思いますが、現在のOCRはAIなどの技術を使い、大きく認識精度が向上しています。今回は、OCRの仕組みやメリット、そして精度を向上させるポイントを解説します。
目次
OCRとは?
OCR(オーシーアール)とは、紙の書類などに印刷された文字をスキャナやデジタルカメラで取り込み、それを解析してテキストデータに変換する技術です。「Optical Character Recognition(またはReader)」の略です。「光学的文字認識」とも呼ばれています。
通常、紙の文書をスキャンすると画像ファイルとして取り込まれるため、書かれている文字をデータとして扱うことはできません。仮にPDFファイルとして読み込まれたとしても、中身は画像です。しかしOCRの機能を使うことで、紙の文書に書かれた「文字」を文字データに変換でき、これを検索用データとして利用することができます。基本的に印刷された文字が対象ですが、手書き文字を認識できるOCRもあります。
また、現在ではOCRにAIを組み合わせてスキャンと認識を繰り返すことにより、認識率のさらなる向上が可能なAI-OCRも普及しています。しかし、認識率が向上したとは言え、100%正しく文字を認識できるわけではありません。このため、正確を期すためには目視によるチェックは欠かせないと言えます。
OCRの仕組み
OCRはどのように画像を解析し、文字データに変換するのでしょうか。OCRの動作を確認してみると、実は人間が認識するのと同じように、少しずつ文字を認識しているのです。
STEP
ブロックを解析
対象画像のどこに文字が書かれているか解析し、その範囲をブロック、すなわち文字を読み取る領域として設定します。手動で設定することも可能ですが、近年のOCRでは、ほぼ自動でブロックを解析可能です。
STEP
ブロック内の行を解析
ブロックの中にある文字列が何行あるのか、またどの部分が一行なのか解析します。例えば3行の文章であれば、この3つの行をそれぞれ四角く切り抜くイメージです。
STEP
行内の文字を解析
見つけた行から、どの部分が文字なのか解析します。先述の2で切り取った「行」を、さらに1文字ずつ切り取っていくイメージです。
STEP
文字として解析された内容がどの文字であるか認識
文字であると解析された画像が、どの文字であるか特定し、認識します。
STEP
文字の訂正
認識した結果を、AIや辞書などによって前後の文字や行、機能によっては文章全体から判断し、訂正します。文字の訂正機能は進化を続けており、各社さまざまな方法で認識率を上げています。このため、最新かつ高機能のOCRを利用すると、読み込み後に行う目視でのチェック作業が大幅に削減できます。
STEP
テキスト化
文字として認識したデータを処理し、テキスト化します。OCRの機能によっては単純なテキストデータではなく、PDFなどに書き出して元の書類のレイアウトを再現してくれるものもあります。
OCRを活用する5つのメリット
OCRを利用すると、業務にどのようなメリットがあるのでしょうか。ここではOCR活用のメリットを5つ紹介します。
データ入力の作業時間を削減できる
OCRを使わなくても、人間が紙の書類を目で見て、手で入力することは可能です。しかし、こうしたデータ入力は多くの時間が必要となります。そこで手入力に代わり、文字の認識と入力をOCRに任せ、作業時間を削減するのです。さらに自動化ツールRPAを併用すれば、例えばOCRで認識した帳票データを会計ソフトの決まった場所に入力する、といったことまで自動化でき、大きな業務効率の向上につながります。
情報を検索しやすくなる
紙の書類をスキャナで読み込んだだけでは、書類が画像としてデータ化されるだけです。この状態では、書類に書かれている文字を検索することはできません。このとき、OCRで文字をテキストデータ化しておけば、ファイル検索が便利に行えるのです。例えば過去の契約書を電子化する際に、OCRでテキストデータ化しておくと、まるで全文検索のように行える、検索性の高いデータが作成できます。
新規文書の作成時に過去のデータを再利用しやすい
以前作成した書類を元に新たな書類を作成する場合、元の書類データがなく、印刷されたものだけが手元にある場合があります。こうした場面でOCRを使えば、書類の文章がテキストデータ化でき、新規文書の作成を大いに助けてくれます。
ペーパーレス化につながる
紙でもらった書類をスキャナで読み込み、OCRを使ってテキストデータ化すれば、即座にデータ化できるため、社内のペーパーレス化に大きく貢献できます。もちろん過去の書類を電子化し、完全なペーパーレス化を目指す場合にも、OCRは必須と言えます。
顧客データの共有を効率化できる
OCRで紙の顧客データを電子化すれば、情報共有が効率化できます。例えば社員それぞれがもらった名刺をデータ化すれば、社内で共有しやすくなるため営業活動に活かすことが可能です。
あわせて読みたい
契約書管理にOCRを活用するメリットとコツ!読み取り精度を向上させるポイントとは?
契約書管理業務に、膨大な時間や人員を割かなければならない企業も多いのではないでしょうか。契約書は重要度の高い書類であるため、管理をおろそかにすることはできま...
OCRの認識精度を向上させる3つのポイント
OCRを使う場合、いくつかのポイントを知っておくと文字の認識精度が上がり、訂正や修正の手間を省けます。ここでは認識精度を向上させるためのスキャン時のポイントや、画像に対するポイントを3つ解説します。
- 高解像度でスキャンする
- 薄い紙のスキャン時は裏紙をあてる
- 画像データであればノイズは消しておく
高解像度でスキャンする
紙の書類をスキャンする場合、高い解像度で読み込むと認識精度が向上します。だからといって、高解像度にしすぎると、スキャン速度が低下してしまいます。
OCRを使う場合、おすすめの読み取り解像度は300dpiです。
薄い紙のスキャン時は裏紙をあてる
スキャンする書類が両面印刷や本のように綴じられている場合、紙が薄いと透けてしまい、誤認識を起こすことがあります。スキャナは強い光を照射して画像を読み込むため、そのような現象が起きてしまうのです。誤認識を防ぐためには、裏紙をあててスキャンするなどの工夫が必要です。
画像データであればノイズは消しておく
すでに画像データとして保存されている画像をOCRで文字認識する場合には、画像データのノイズを取り除いておくと、認識精度が向上します。ただし、現在のOCRにはノイズ除去機能も搭載されています。どの程度のノイズであれば誤認識しないか確認したうえで、よほど酷いノイズがあればそれだけを消すといった対応で問題ないでしょう。
ペーパーレス化の推進には電子契約サービスもおすすめ
これまで解説したように、OCRを活用するとペーパーレス化の実現を加速できます。そこで導入をおすすめしたいのが、電子印鑑GMOサイン です。
GMOサインは、法的効力を持つ電子契約を実現するクラウドサービスで、実印相当の電子印鑑と認印に相当する電子印鑑を使い分けられる特徴があります。さらに、それだけではありません。GMOサインは、AI-OCR技術を用いて、アップロードされた契約書から契約の締結に必要な全20項目を自動で読み取り項目化する機能を提供しています。
AI-OCR機能は、GMOサイン「契約レビューパック 」に搭載!チャットGPTを活用してアップロードした契約書の内容を自動で読み取り、契約項目欄へ反映させることが可能です。
※ご利用には別途料金がかかります
\ 契約にまつわる業務をまるっと一元管理する /
まとめ:OCRはペーパーレス化に必須の技術
OCRは紙の文書に印刷された文字を認識し、テキストデータ化する技術です。単純にスキャンした文書は画像となり、文字データを使うことはできません。しかし、OCRを使うことでテキストデータ化が実現でき、検索対象や文字データとして利用することが可能です。ペーパーレス化を進める際に問題となる「中に何が書いてあるか」をOCRが解決してくれるため、ペーパーレス化に必須の技術と言えます。
なお、契約書などを電子化した場合に便利なのが電子契約システム「電子印鑑GMOサイン」です。電子印鑑GMOサインは法的効力を持つ電子契約を実現できるだけでなく、AI-OCRなどの最新技術を用いることで、契約書の作成から管理まで一気通貫で行えるため、圧倒的な業務効率化を実現できるのです。