PDFlib TET製品

PDFlibテキスト抽出キット(TET)は、PDF文書からテキストを高品質に抽出するための開発者向け製品です。TETを使えば、PDFのテキスト内容をUnicode文字列として取得できるだけでなく、詳しいグリフ・フォント情報や、ページ上の位置も得ることができます。さらに、TETには高度な内容分析アルゴリズムがあり、単語の区切りを検出したり、テキストを段組みごとにまとめたり、影付きや擬似太字といった冗長テキストを除去したりすることができます。pCOSインタフェースのたすけにより、メタデータやハイパーテキスト等、任意のオブジェクトをPDFから抽出することも可能です。PDFlib TETでは次のことができます。

PDFlib TET3の機能

  • PDF処理のための検索エンジンの実装
  • PDFからのテキスト抽出。たとえばデータベース格納用等
  • PDFのテキスト内容をXML等の形式へ変換
  • PDFごとにその内容によって処理しわける

PDFlib TET3の価格

[Windows / Mac / Linux / BSD] TET 3.0
Windows Server 2000/2003/2008 160,000円
Linux Intel x86/IA-64/x86_64/EM64T
Apple Mac OS X Server PPC/Intel
FreeBSD(Intel x86)
[Sun / IBM / HP]  
Sun Solaris(Intel x86/SPARC) 310,000円
IBM AIX 4 / 5L
HP-UX 10.20/11i(PA-RISC/IA-64)
[Desktop systems]  
Windows 2000/XP/Vista 31,000円
Apple Mac OS X PPC/Intel

税抜き定価となります