PDFlib TET製品
PDFlib TET3
PDFlibテキスト抽出キット(TET)は、PDF文書からテキストを高品質に抽出するための開発者向け製品です。TETを使えば、PDFのテキスト内容をUnicode文字列として取得できるだけでなく、詳しいグリフ・フォント情報や、ページ上の位置も得ることができます。さらに、TETには高度な内容分析アルゴリズムがあり、単語の区切りを検出したり、テキストを段組みごとにまとめたり、影付きや擬似太字といった冗長テキストを除去したりすることができます。pCOSインタフェースのたすけにより、メタデータやハイパーテキスト等、任意のオブジェクトをPDFから抽出することも可能です。PDFlib TETでは次のことができます。
PDFlib TET3の機能
- PDF処理のための検索エンジンの実装
- PDFからのテキスト抽出。たとえばデータベース格納用等
- PDFのテキスト内容をXML等の形式へ変換
- PDFごとにその内容によって処理しわける
PDFlib TET3の価格
| [Windows / Mac / Linux / BSD] | TET 3.0 |
|---|---|
| Windows Server 2000/2003/2008 | 160,000円 |
| Linux Intel x86/IA-64/x86_64/EM64T | |
| Apple Mac OS X Server PPC/Intel | |
| FreeBSD(Intel x86) | |
| [Sun / IBM / HP] | |
| Sun Solaris(Intel x86/SPARC) | 310,000円 |
| IBM AIX 4 / 5L | |
| HP-UX 10.20/11i(PA-RISC/IA-64) | |
| [Desktop systems] | |
| Windows 2000/XP/Vista | 31,000円 |
| Apple Mac OS X PPC/Intel |
税抜き定価となります