ABBYYの優れた帳票データエクステラクション – 多ページ、複雑な表やレイアウトを扱い、容易にOCR &出力可能

ABBYYの優れた帳票データエクステラクション – 多ページ、複雑な表やレイアウトを扱い、容易にOCR &出力可能

John Lv8

ABBYYの優れた帳票データエクステラクション – 多ページ、複雑な表やレイアウトを扱い、容易にOCR &出力可能

全てのブログ

帳票処理ソリューション – 複数ページにわたる複雑な表やレイアウトを持つ帳票でもOCRし、データ抽出して自由に出力できる

8月5日, 2020

今回から始まる「帳票処理ソリューション」シリーズでは、ABBYY FlexiCaptureの強みを書いていく予定です。第一回の今回は、よくソリューションが無いと勘違いされそうな、複雑な帳票、書類におけるソリューションの話となります。「複雑な帳票、書類」とは具体的には以下のようなものです。

  • 複雑な行で構成される表・明細行を持つ表、一定のパターン・法則が繰り返される帳票
  • 複雑な帳票・表、レイアウトで、例えば、表が複数ページに渡っているもの
  • ページ間で表の1行・1レコード・1パターンのデータがまたがってしまっている帳票
  • 罫線が無い、行や列が分かりにくい帳票
  • 左から右、または、右から左などの横方向の読み取りが必要な帳票
  • 上記の組み合わせのような複雑な帳票

このように複雑なものであっても、各読み取り箇所を適格に認識し、OCRを行えます。読み取った文字の出力形式、出力のレイアウトも扱いやすいように出力できます。

複雑な行で構成される表・明細行を持つ表、一定のパターン・法則が繰り返される帳票

表の行が単純な格子状になっていない2、3…複数段の複雑な形式の行でも、簡単に読み取ります。

帳票処理ソリューション

上図の典型的なCSV出力イメージのひとつ:

ProductCode,Maker,Remarks,ProductName,UnitPrice,Qty,Unit,Amount
SHOHIN-001,ダミー株式会社,架空の商品001,Kaku-Special001,100,1,個,100
SHOHIN-002,ダミー株式会社,架空の商品002,Kaku-Special002,200,2,個,400
SHOHIN-003,ダミー株式会社,架空の商品003,Kaku-Special003,300,3,個,900
ProductCode,Maker,Remarks,ProductName,UnitPrice,Qty,Unit,Amount
SHOHIN-001,ダミー株式会社,架空の商品001,Kaku-Special001,100,1,個,100
SHOHIN-002,ダミー株式会社,架空の商品002,Kaku-Special002,200,2,個,400
SHOHIN-003,ダミー株式会社,架空の商品003,Kaku-Special003,300,3,個,900

複雑な帳票・表、レイアウトで、例えば、表が複数ページに渡っているもの

上図のような複雑な行の帳票が複数ページで構成されていて、フォーマットも最初と最後のページで異なっていたとしても、各行・レコードの適格な認識はもちろん、OCRした文字を上図のCSVのように、連続行として1つの出力先に出力することができます(分けることもできます)。

帳票処理ソリューション

https://techidaily.com

ページ間で表の1行・1レコード・1パターンのデータがまたがってしまっている帳票

以下のような、ページまたぎの行、レコードでも問題なく認識して、OCRできます。

帳票処理ソリューション

https://techidaily.com

罫線が無い、行や列が分かりにくい帳票

明細部に罫線が無くても、行や繰り返しの法則性・パターンが分かる帳票ならば…

帳票処理ソリューション

下図の線で区切ったように読み取ることも、このような帳票がたとえ複数ページ続いたとしても、行を帳票の印刷された意図通りに認識し、OCRする事が出来ます。

帳票処理ソリューション

下記の例のように、罫線が全くなくても、表の部分を下図の線で区切ったように認識し、OCRする事が可能です。もちろん複数ページの読み取りでも、途中に異なるフォーマットの帳票があっても大丈夫です。

帳票処理ソリューション

https://techidaily.com

左から右、または、右から左などの横方向の読み取りが必要な帳票

表を 左から右へ、列を行のように扱って、読み取るOCRも、

帳票処理ソリューション

https://techidaily.com

右から左へ 列を行のようなパターンとみなして読むOCRも可能です。

また、このような横方向でも、複雑な列(行) やパターンの繰り返しも読み取ることができます。

あらゆる種類、どんなレイアウト、どんな複雑な帳票が複数ページで構成されていても大丈夫

どんな複雑な帳票でも、人間が読めるのなら、繰り返されるパターンや法則性があります。

罫線が一切無くても、特定のパターンや法則が繰り返されるのであれば、下図のような複雑で、複数ページに渡る帳票でも、各ブロックの表の明細行のみを認識してOCRして、まとめて出力することも、それぞれの表のブロックを別々に認識して、OCRを行い、出力することも可能です。

帳票処理ソリューション

https://techidaily.com

帳票処理ソリューション

https://techidaily.com

帳票に同じ管理番号: 請求書番号、注文番号、お客様番号…などがある場合、そのOCR結果を元に文書をまとめ、他のOCR結果の内容と出力もまとめることができます。

各帳票のフォーマットが異なっていても、問題ありません。

帳票処理ソリューション

その他にも FlexiCapture だけで、全ての電子自動処理が完結できる程の多くの機能を備えています。それは次回以降ご紹介いたします。

あらゆる種類、どんなレイアウト、複数ページで成る帳票を扱うことができます。

帳票処理ソリューション

今回ご紹介しました、帳票処理ソリューションABBYY FlexiCaptureについての概要、デモの依頼、お問い合わせはこちら から承ります。

OCR(文字認識) コンテンツの理解 AI(人工知能)

いいね!、シェア、再投稿

シェア

ブログのアップデートを購読

名*

電子メール*

国*

国アフガニスタンオーランド諸島アルバニアアルジェリアアメリカ領サモアアンドラアンゴラアンギラ南極アンティグア・バーブーダアルゼンチンアルメニアアルバオーストラリアオーストリアアゼルバイジャンバハマバーレーンバングラデシュバルバドスベルギーベリーズベナンバミューダブータンボリビアカリブ海オランダボスニア・ヘルツェゴビナボツワナブーベ島ブラジルイギリス領インド洋地域イギリス領ヴァージン諸島ブルネイ・ダルサラームブルガリアブルキナファソブルンジカンボジアカメルーンカナダカーボベルデケイマン諸島中央アフリカ共和国チャドチリ中華人民共和国クリスマス島ココス(キーリング)諸島コロンビアコモロコンゴ共和国コンゴ民主共和国クック諸島コスタリカクロアチアキュラソーキプロスチェココートジボワールデンマークジブチドミニカ国ドミニカ共和国エクアドルエジプトエルサルバドル赤道ギニアエリトリアエストニアエチオピアフォークランド(マルビナス)諸島フェロー諸島フィジーフィンランドフランスフランス領ギアナフランス領ポリネシアフランス領南方・南極地域ガボンガンビアジョージアドイツガーナジブラルタルギリシャグリーンランドグレナダグアドループグアムグアテマラガーンジーギニアギニアビサウガイアナハイチハード島とマクドナルド諸島バチカンホンジュラス香港ハンガリーアイスランドインドインドネシアイラクアイルランドマン島イスラエルITジャマイカ日本ジャージーヨルダンカザフスタンケニアキリバス大韓民国クウェートKyrgyzstanラオスラトビアレバノンレソトリベリアリビアリヒテンシュタインリトアニアルクセンブルクマカオマケドニアマダガスカルマラウイマレーシアモルディブマリマルタマーシャル諸島マルティニークモーリタニアモーリシャスマヨットメキシコミクロネシアモルドバモナコモンゴルモンテネグロモントセラトモロッコモザンビークミャンマーナミビアナウルネパールオランダオランダ領アンティル諸島ニューカレドニアニュージーランドニカラグアニジェールナイジェリアニウエノーフォーク島北マリアナ諸島ノルウェーオマーンパキスタンパラオパレスチナパナマパプアニューギニアパラグアイペルーフィリピンピトケアンポーランドポルトガルプエルトリコカタールルーマニアルワンダレユニオンセントヘレナセントクリストファー・ネイビスセントルシアサンピエール島・ミクロン島セントビンセントおよびグレナディーン諸島サン・バルテルミーサン・マルタン(フランス領)サモアサンマリノサントメ・プリンシペサウジアラビアセネガルセルビアセーシェルシエラレオネシンガポールシント・マールテン(オランダ領)スロバキアスロベニアソロモン諸島南アフリカサウスジョージア・サウスサンドウィッチ諸島南スーダンスペインスリランカスリナムスヴァールバル諸島およびヤンマイエン島スワジランドスウェーデンスイス台湾タジキスタンタンザニアタイ東ティモールトーゴトケラウトンガトリニダード・トバゴチュニジアトルコタークス・カイコス諸島ツバルウガンダウクライナアラブ首長国連邦イギリスアメリカ合衆国ウルグアイ合衆国領有小離島ウズベキスタンバヌアツベネズエラベトナムアメリカ領ヴァージン諸島ウォリス・フツナ西サハラザンビアジンバブエ

  • プライバシーポリシー クッキーポリシー を読み、同意します。

  • ABBYY Solutions Ltd.製品と技術に関連するニュース、イベントとウェビナーへのご案内、ABBYY Solutions Ltd.製品とサービスに関連するホワイトペーパーやコンテンツの情報など、ABBYY Solutions Ltd.からのメールを受け取ることに同意します。

私は、ABBYY Solutions Ltd.から送信されるEメールに記載された配信停止リンクをクリックするか、または ABBYYデータ主体アクセス権利フォームを 介していつでも同意を取り消すことができることを理解しています。

Referrer

Query string

Product Interest Temp

UTM Campaign Name

UTM Medium

UTM Source

ITM Source

GA Client ID

UTM Content

GDPR Consent Note

Captcha Score

Page URL

Connect with us

Also read:

  • Title: ABBYYの優れた帳票データエクステラクション – 多ページ、複雑な表やレイアウトを扱い、容易にOCR &出力可能
  • Author: John
  • Created at : 2024-10-08 20:01:18
  • Updated at : 2024-10-14 19:02:41
  • Link: https://solve-hot.techidaily.com/abbyy-ocr-and/
  • License: This work is licensed under CC BY-NC-SA 4.0.