PDFを利用して文書管理するには

スキャナーとOCRソフトを組み合わせて、効率的なファイリングを行ってみたいと考えています。アドビ システムズの「Acrobat」を利用したファイリング方法について教えてください。
アドビ システムズが販売する「Acrobat 5.0」(2万8310円)を利用して作成するPDF形式のファイルは、今や企業向けの文書管理システムでは定番です。無料のPDFファイル用閲覧ソフトの「Acrobat Reader」は多くのパソコンに組み込まれていますが、PDFファイルを作成するためには有料のAcrobatが必要です。Acrobatを利用すれば、パソコンで作成したファイルをPDFにすることはもちろん、スキャナーで読み込んだ画像もPDF化できます。

 PDFを使うメリットの一つは、ファイル内のテキスト情報を簡単に検索できることです。ただしスキャナーで取り込んだ書類はイメージデータなので、そのままでは通常のテキストデータのように内容検索はできません。これを実現するためには、画像の上に文字データを貼り付けておく「透明テキスト」という機能を使います。

 透明テキストは自分自身で入力することも可能ですが、スキャナーで取り込むときにOCRソフトを使うと、画像データ内の文字情報を読み取ってテキストデータに変換し、イメージデータの上に透明テキストを貼り付けてPDFファイル化するという一連の作業を自動的に行ってくれるのでお勧めです。

●Acrobatに組み込んで利用できるOCRソフトも

エー・アイ・ソフトの「読んでde!!ココ」はAcrobatのプラグイン(組み込み機能)として利用することができる。 PDFファイルを作成する際に、自動的に文字の認識を行える
認識の設定で「透明テキスト」に設定するのがカギ。PDFファイルの表面に、検索用の文字が載せられる

 透明テキストに対応したOCRソフトは、アドビが同社サイトでのみ販売する「Paper Capture Plug-in for Adobe Acrobat5.0 日本語版」(2000円)のほか、エー・アイ・ソフトの「読んde!!ココ Ver.8」(1万9800円)、PDFを利用した企業向け文書管理システムを提供するクセロの「PDF OCR Ver.1.1」(オープン:実売価格35万円)があります。

 下図では読んde!!ココで、スキャナーから読み込んだイメージデータに透明テキストを貼り込みました。このPDFファイルは一見するとイメージデータですが、通常のテキストデータと同様に、自在に検索ができます。

PDF検索はテキストと同じ

 Acrobatや閲覧専用ソフトのAcrobat Readerで、透明テキストを利用して検索をするには、「編集」メニューから「検索」を選択するか、ツールバーの検索アイコンをクリックし、検索ウインドウに文字列を入力します。

 Acrobatにプラグインソフトを追加すれば、複数作成したPDFファイルの中から、特定のキーワードを抽出する全文検索も可能です。個人で利用する場合は、Acrobat 5.0のCD-ROMにクセロの「サーチPDF Lite for Acrobat5 Version1.05」という全文検索ソフトが付属していますので、それを利用するとよいでしょう。同社はほかにもAcrobat Reader用の「サーチ PDF Lite for Acrobat Reader」(4800円)などPDF用の検索ソフトを販売しています。

 ただし、企業などで大量に作成したPDFファイルを高速に処理する必要がある場合には、専用の検索システムを構築する必要があります。フリーソフトのテキスト全文検索用システムを活用する方法もありますが、CGIやある程度のコンピューターの知識がないと難しいでしょう。

●透明テキスト付きPDFは検索可能

出来上がったPDFファイルでは該当個所が簡単に検索できる。検索はAcrobat Readerからも可能だ
有料版のAcrobatに付属するプラグインソフト「サーチPDF Lite」を利用すれば、複数PDFファイルの中から全文検索が可能