PDIC Toolkit Tutorial - Step 2

操作例の中で、[ENTER] と書かれた部分は、キーボードの [Enter] キーを押すことを意味します。
本文および操作例の中で X.XX と書かれた部分は、"0.79" のような数字に置き換えて読んでください。この数字はプログラムまたはモジュールのバージョン番号で、新たなバージョンがリリースされると変化するため、あえて書き入れていません。

はじめに

STEP 2 では、PDIC 形式の辞書ファイルを Unicode 形式のテキストファイルに変換し、それを編集し、再び PDIC 形式の辞書ファイルに変換する方法を説明します。この方法を使えば、英語と日本語以外の言語を扱う辞書ファイルを Perl で処理できるようになります。

PDIC-Toolit は、現時点では、英語と日本語とギリシャ語にしか対応していません。

次に、ほぼ同じやり方で PDIC 辞書ファイルを XML 文書に変換してみます。XML 文書を処理できるソフトウェアは数多く存在するので、いろいろと可能性が広がるでしょう。


準備作業

PDIC-Toolkit で Unicode の日本語を扱うためには、Jcode.pm が必要です。次の手順に従って、ダウンロード&インストールしてください。

  1. Jcode のホームページに行き、「インストール」「Tarballを直接入手」の項にある Jcode-X.XX.zip(執筆時点では X.XX = 0.79)へのリンクをクリックして、適当なフォルダ(例えば、C:¥temp)にダウンロード。
  2. そのフォルダに解凍。
  3. コマンドプロンプト(MS-DOSプロンプト)を開いて、以下のようにコマンドを入力する。
    cd ¥temp¥Jcode-X.XX[ENTER]
    perl win_install.pl[ENTER]
Windows 2000/XP ユーザーは、次のページから Jcode.pm の追加ライブラリを取得してインストールすると、文字コードの変換が速くなります。 「ダウンロード」の項から jcwin-X.XX.zip をダウンロードし、適当なフォルダに解凍してください。新しくできる perl フォルダをコピーし、C:¥ に貼り付けてください(Perl を C:¥Perl にインストールした場合)。「このフォルダには既に'perl'フォルダが存在します」という確認メッセージが表示されたら、[すべて上書き] を選んでください。さらに「このフォルダには既に読取専用ファイル'Jcode.pm'が含まれています」という確認メッセージに対しても [すべて上書き] を選んでください。

PDIC ファイルを Unicode 形式のテキストファイルに変換

コマンドプロンプトを開いて、次のコマンドを実行すると、C:¥home¥pdic のサンプル辞書ファイル greek.dic が Unicode 形式のテキストファイル greek.txt に変換されます。

cd ¥home¥pdic[ENTER]
pdic_utf8 greek.dic greek.txt[ENTER]

greek.txt をテキストエディタで開くと、次のように表示されるでしょう。

greek.txt を表示・編集するには、Unicode 形式に対応したテキストエディタまたはワードプロセッサが必要です。Windows NT/2000/XP に付属する「メモ帳」は Unicode 形式に対応していますが、Windows 95/98(たぶん、Windows Me も)に付属する「メモ帳」は対応していません。MS Word(たぶん、Word 98 以降)は、Unicode 形式のテキストファイルを読めますが、保存できません(少なくとも、Word 2000 では)。
Unicode 形式に対応した Windows 用テキストエディタとしてはフリーソフトウェアの xyzzy がお勧めです。窓の杜からダウンロードできます。操作法などについてはxyzzy pageを参照してください。

Unicode 形式のテキストファイルを PDIC ファイルに変換

メモ帳に戻って greek.txt を適当に編集し、上書き保存してメモ帳を終了してください。そして、コマンドプロンプトに戻り、次のコマンドを実行します。

utf8_pdic greek.txt greek2.dic[ENTER]

greek2.dic was successfully created. と表示されたら、PDIC 辞書ファイル greek2.dic の出来上がりです。PDIC に読み込んで、変更が反映されているかどうか確認してください。


XML

PDIC 辞書ファイルを XML 形式に変換することもできます。次のコマンドで greek.xml を生成し、ダブルクリックしてみましょう。Internet Explorer(Ver.5 以降)がインストールされていれば、辞書データのツリー構造が表示されるでしょう。

pdic_xml greek.dic greek.xml[ENTER]
XML が何であるかを一言で説明するのは難しいのですが、ここでは「構造のあるドキュメントを表現するための標準的かつ一般的なデータ形式」としておきましょう。

逆に XML 形式のファイルから PDIC 辞書ファイルに変換するには、次のコマンドを入力します。

xml_pdic greek.xml greek3.dic[ENTER]

次は…

PDIC Toolkit Tutorial - Step 3 では PDIC Toolkit を使って、PDIC から特定の条件を満たす項目だけを抜き出す方法を説明します。


黒田努 <tkrd@mail.com> (2002.02.20) (2002.02.27)