PDFlib TET 5 ファミリ - PDFテキスト抽出

PDFlib TET 5.1、PDFlib TET PDF IFilter 5.1 がリリースされました。保守契約に入っておられるお客様は、無償でアップデートが可能です。TET 5.1、PDFlib TET PDF IFilter 5.1 へのアップデートをご希望されるお客様は5.1用のライセンスキーを法人営業部( )までご要請ください。保守契約で保障されるアップデートの条件につきましては、下記のページよりご確認をお願いいたします。

PDFlib Text Extraction Toolkit (TET) は PDF ファイルから文字列や画像などを抽出する製品で、プログラムから呼び出して使用するライブラリと、単体で動作するコマンドラインツールが提供されています。TET により、PDF 内の文字列を Unicode の文字列にしたり、グリフやフォントの詳細な情報、PDF ファイルの文字列から対応する Unicode の値や、ページ内の位置などを取得できます。また、TETML という XMLベースのフォーマットに、文字列やメタデータを出力することもできます。

TET は文字列のローレベル情報の取得などに加え、単語の取得のための優れた処理アルゴリズムを備えています。また、冗長な文字列(影や不要な太字など)を削除することも可能です。TET に内蔵された pCOS 機能を利用することにより、PDF ファイルからメタデータやハイパーテキストなど任意のオブジェクトを取得することもできます。

PDFlibテキスト抽出キット(TET)は、PDF文書からテキストを高品質に抽出するための開発者向け製品です。TETを使えば、PDFのテキスト内容をUnicode文字列として取得できるだけでなく、詳しいグリフ・フォント情報や、ページ上の位置も得ることができます。さらに、TETには高度な内容分析アルゴリズムがあり、単語の区切りを検出したり、テキストを段組みごとにまとめたり、影付きや擬似太字といった冗長テキストを除去したりすることができます。pCOSインタフェースのたすけにより、メタデータやハイパーテキスト等、任意のオブジェクトをPDFから抽出することも可能です。PDFlib TETでは次のことができます。

PDFlib TET 5の機能

  • PDF処理のための検索エンジンの実装
  • PDFからのテキスト抽出。たとえばデータベース格納用等
  • PDFのテキスト内容をXML等の形式へ変換
  • PDFごとにその内容によって処理しわける

TET 5では、以下の機能追加、あるいは改善を施しました。

テキスト検索

  • テキストの塗りと線の色情報を取得
  • レイアウト検出を改善
  • ページとテーブルのレイアウト認識の改善のためにベクターグラフィックスを考慮に入れる
  • 日中韓テキストの縦書きフォントメトリックスをサポート

画像情報取得

  • 断片化した画像の結合機能を著しく強化(例えば回転させた画像など)
  • 多くの特別なケースと特殊なPDFの画像の取り扱いを改善
  • 画像マスクとソフトマスクを抽出
  • JPG2000形式の画像の結合と変換
  • 抽出されたTIFF画像にスポットカラーを維持
  • ユーザが選択した領域の画像抽出制限
  • InDesignの非標準格納場所に保存された、XMLイメージのメタデータを収集

ページ処理

  • タグ付けされたPDF内の乱れ(無意味な内容)を必要に応じて無視
  • 不可視コンテンツの抽出を避けるために、レイヤ(任意のコンテンツ)を考慮に入れる
  • 不可視コンテンツの抽出を避けるためにクリッピングパスを考慮に入れる

TETML

  • TETMLにグリフの塗りと線の色を含める
  • TETMLに、注記、フォームフィールド、ブックマーク、アクション、JavaScript、署名などインタラクティブな要素に関する情報を含める
  • TETMLにカラースペース、ICCプロファイルの詳細が含める
  • TETMLにレイヤーとページラベルの情報が含める

pCos PDF情報取得

  • pCOS擬似オブジェクト:ICCプロファイル詳細と画像のマスキング属性
  • pCOS擬似オブジェクト:フォームフィールド

その他

  • 破損、ならびに不適切なPDF入力のチェックと検出の追加
  • TET言語バインディング、サンプルプログラム、TETコネクターを更新
  • PDF処理制御の新しいオプション
  • TETの既存機能の多くを改善

下記リンク先のPDFlib日本語公式サイトのページにて、適切なソフトウェアパッケージをクリックしてPDFlib TETをダウンロードしてください。

PDFlib TETパッケージに含まれるもの

  • TETコマンドラインツール
  • 各種プログラミング言語用のTETライブラリ
  • TETマニュアル
  • 全言語バインディングのためのサンプルプログラム
  • TETML生成のためのXSLTサンプル
  • 様々な検索エンジン用コネクタ

TET PDF IFilter は PDF ファイルから文字列やメタデータなどの情報を抽出し、Windows 上の検索ソフトで利用できるようにする製品です。TET PDF IFilter により、PDF ファイルをデスクトップ上や企業のサーバ、Web 上で検索できるようになります。この製品は PDFlib TET の機能を元に開発されました。

TET PDF IFilter は Microsoft の IFilter インターフェースを堅牢に実装した製品で、SharePoint や SQL Server など IFilter インターフェースをサポートしたすべての製品で動作します。これらの製品ではファイルのフォーマットごとに「IFilter」というフィルタをサポートしており、TET IFilter は PDF ファイルに特化しています。文書検索のユーザインターフェースは Windows のエクスプローラやブラウザ、クエリー用のスクリプトやユーザプログラムとなります。また対話的な検索だけではなく、プログラムから検索することも可能です。

TET PDF IFilter 5の機能

  • 対応する全ての PDF ファイルにサポート
  • 標準(あるいはカスタム)のドキュメント情報と同様に XMP メタデータもインデックス対象
  • 文書のメタデータに加え、各画像の XMP メタデータもサポート
  • CJK(中国・日本・韓国)の文字列の抽出にも対応

TET プラグイン は PDF ファイルから文字列を抜き出すための、無償の Acrobat 用プラグイン です。このプラグインは単体で動作するものですので、使用の際に TET は不要です。

TET プラグインは Acrobat のプラグインとして動作しますが、(TET の強力な機能を実感して頂くためのデモをかねるため)テキストの抽出の際には TET の持つ機能のみで動作しており、Acrobat 自体の機能は使っていません。TET は Acrobat の持つ文字列の抽出機能よりも高機能で多くの便利な機能がありますので、Acrobat の文字列のコピーや検索機能よりも便利に使用できます。

Acrobat では文字化けした文字列しか抽出できないような場合でも、PDFlib TET では正しく処理できる可能性が高いです。

PDFlib TET プラグインの機能

  • PDF ファイルの文字列をクリップボードかファイルに、テキスト、RTF, XML フォーマットでコピー
  • PDF ファイルからブックマークをコピー
  • XMP メタデータのコピー
  • ファイル中の単語の検索
  • テキスト抽出機能の詳細設定が可能。設定は保存することも可能です。