PDFlib pCOS 4 - PDFファイル情報抽出

PDFlib pCOS を使うことにより、PDF ファイルのメタデータやハイパーテキスト等の情報を取得することができます。低レベルのプログラミングを行わずに、ページ内に無いオブジェクトを含む全てのオブジェクトに簡単なインターフェースでアクセスできます。

PDFlib pCOS は PDF ファイルの色々な情報を取得できます。下記はその代表的なものです。

PDFlib pCOS の機能

  • 一般的な情報:リニアライズ PDF, タグ付き PDF, 暗号化および文書保護の設定、ページ数、フォント
  • 文書の「情報」および XMP メタデータ
  • 全フォントの、名前やフォント埋め込みの状態など
  • URL
  • 全てのブックマークを抜き出してページ番号と共に目次を作成
  • フォームフィールドデータ:フィールド名、内容、位置など
  • ページのサイズ、矩形、傾き
  • PDF/X 準拠ファイルのステータス
  • 添付ファイルの抜き出しとリスト
  • レイヤ名
  • 注釈の詳細
  • コメントのリストと校正者の名前
  • 電子署名の詳細:署名フィールドの名前、署名者名、日付、署名理由
  • PDF/X や PDF/A ファイルからの ICC 出力インテントのプロファイルの抽出
  • PDFlib ブロック のプロパティのリスト
  • 文書中の JavaScript, ページ、注釈、フィールドのレベルの検出

PDFlib pCOS 4の新機能

pCOS 4では、バグフィックスのほか、以下の機能強化を施しました。

  • pCOS 4に搭載されている「pCOS プログラミングインターフェイス8」で追加された、 PDFの情報を読み出すための新機能は以下のとおりです。
    • ページ内あるいは注釈の中に透明オブジェクトがあるページを識別する機能
    • 暗号化された添付ファイルを識別
    • PDF/A, PDF/E, PDF/UA, PDF/X, そしてPDF/VTの全ての特性を識別する機能
  • 汎用のUnicode文字列に変換するメソッドを搭載 pCOS_convert_to_unicode()
  • 対応する開発言語バインディングを部分的に更新
    • Perl 5.8 - 5.18
    • PHP 5.3, 5.4, 5.5
    • Python 2.6, 2.7, 3.2, 3.3 のオブジェクト指向インターフェース
  • いくつかの規格に適合しないPDF構造の受容
  • 破損したPDFドキュメントの修復機能を強化