OCR処理(オー・シー・アールしょり)
OCR(オー・シー・アール)とは「Optical Character Recognition」の略で、日本語に訳すと「光学文字認識」となります。紙に光を当て画像として取り込み、印刷された文字や数字などを認識し抽出、テキストデータに変換する技術です。
文字認識の技術は1900年前後から始まり、1950年頃にはOCRが登場しました。
日本でOCR製品が導入されたきっかけは郵便事業です。1968年、郵便番号をOCRで読み取ることで一部作業を機械化しました。その後もOCRの精度を上げることで宛先住所や氏名を読み取り、宛先ごとに区分できるようになるなど、2018年6月までに全通常郵便物の70%を機械処理することに貢献しました。
一般的なOCR製品としては1980年代に官公庁や大手企業が導入し、1990年代には装置の小型化へ、さらに文字認識ソフトとしてのOCRへと進化し、様々な企業でも取り扱えるものとなりました。
OCR処理は、スキャナーで電子化した画像データにOCRソフトを使用し、テキストデータを作成。画像データの上に透明な文字でテキストを乗せていきます。
これにより画像であってもデータ内を検索することができ、欲しい情報をすぐに呼び出すことが可能になります。また、テキストデータをコピーすることができるので、アウトプットも簡単です。
ただしOCRソフトのテキスト化は万能ではありません。
特に日本語はひらがな、カタカナ、漢字と種類も多く、完璧にテキストを抽出するソフトは存在していません。アルファベットや記号が混在すれば、さらに認識が困難になります。
さらに電子化の際、文字がかすれたり斜めになる、背景と文字のコントラストバランスが悪い、シミやゴミがあるなど、スキャン技術に問題があると認識率が下がる原因となります。
電子データ化センターのOCR処理は電子化の時点でしっかりと調整を行い、さらにOCRで抽出したテキストデータを目視で確認。人の目による校正を行います。
これにより早くて正確な電子化を実現しているのです。