PDIC Toolkit Tutorial - Step 1

Perl を使ったことのない方やパソコン初心者にも PDIC-Toolkit を利用していただくために、私はこの文章を書いています。理解できない点があれば、恥ずかしがらずにメール(tkrd@mail.com)にてご質問ください。書いてある通りにやったのにダメだったという場合は、厳しく指摘してください。なお、インストール関連の質問の場合は、お使いの Windows のバージョンを書いてください。
本来、PDIC-Toolkit は OS を選びません。MS-DOS、Microsoft Windows、Mac OS、Linux など、一般に使われているたいていの OS 上で実行できるはずです。しかし、ここでは Microsoft Windows 95/98/Me/NT4/2000/XP(以下、Windows)についてのみ説明します。
操作例の中で、[ENTER] と書かれた部分は、キーボードの [Enter] キーを押すことを意味します。
注意:PDIC-Toolkit の最新バージョンは 1.15 です。インストール方法および利用法が 1.11 までと異なります。なお、バージョン 1.12、1.12_a および 1.12_b には不具合が見つかりました。最新バージョンで置き換えてください。

何ができるの?

PDIC-Toolkit は、PDIC 辞書データファイル(以下、PDIC ファイル)を加工するためのツール集です。例えば次のようなことができます。

  1. PDIC ファイルをテキストファイルに変換する
  2. テキストファイルを PDIC ファイルに変換する
  3. 品詞が動詞である項目だけを抜き出す
  4. 日本語訳中の“【法】”をすべて“〔法〕”で置き換える(記号の統一)
  5. ハイパーリンク <word:...> によって参照された見出し語のうち、実際に登録されていないものの一覧を表示する

上の例のうち、1. と 2. は準備作業を終えたらすぐに試してみることが可能です。3. から 5. を実行するにはちょっとしたプログラムの修正が必要で、Step 3 以降で説明します。


準備作業

PDIC-Toolkit を使用するためには、次の 2 つの準備作業が必要です。

  1. Perl パッケージのインストール
  2. PDIC-Toolkit のインストール

Perl はプログラミング言語のひとつで、PDIC-Toolkit に含まれるプログラムはすべてこの言語で書かれています。Perl プログラムを実行するためには、Perl パッケージのインストールが必要です。

Windows 用の Perl パッケージは各種ありますが、ActiveState 社が配布している ActivePerl はよい選択肢の一つです。同社のホームページ(英文)からダウンロード(約 8 MB)できます。 ActivePerl を含むすべての Perl パッケージはフリーソフトウェアとして配布されています。

Windows 95/98/Me/NT4 で ActivePerl を使う場合は、Microsoft 社が提供する追加コンポーネントが必要になります。ダウンロードページの説明をよく読んで、これらの追加コンポーネントを ActivePerl より先にインストールしてください。ActivePerl のインストール作業の手順は省略します。基本的には、ダウンロードしたファイルをダブルクリックして、指示に従ってボタンをクリックしていくだけです。

次に、PDIC-Toolkit をダウンロードして、適当なフォルダ(例えば、C:\temp)に保存し、そこでアーカイブを解凍(展開)してください。

PDIC-Toolkit は ZIP 形式または LZH 形式で圧縮された 1 個のファイル(アーカイブ)として配布されます。アーカイブから PDIC-Toolkit を構成するファイル群を取り出すには、いわゆる解凍ソフトウェアが必要です。ZIP 形式または LZH 形式、あるいは両方の形式に対応したソフトウェアは数多く存在し、窓の杜ソフトウェアライブラリからダウンロードできます。
解凍ソフトウェアの使い方は様々ですが、たいていは、アーカイブファイルをダブルクリックすることで作業が始まります。例えば、フリーソフトウェアの Lhaz を使う場合、手順は次の通りです。
  1. PDIC-Toolkit-1.12_c.zip をダブルクリック。
  2. 「このフォルダに解凍(H)」を選択。

Windows のスタートボタンをクリックし [プログラム] [アクセサリ] [コマンドプロンプト] と順に選んでください。黒い背景のウィンドウが表示されます。ここで、PDIC-Toolkit を解凍したフォルダ(¥temp)に移動するため、次の文字列(コマンド)を入力してください。

cd ¥temp[ENTER]

次に、次の2つコマンドを入力してください。

cd PDIC-Toolkit-1.15[ENTER]
ppm install PDIC-Toolkit.ppd[ENTER]
2つ目のコマンド ppm ... を入力すると「コマンドまたはファイル名が正しくありません」あるいは「'ppm' は、内部コマンドまたは外部コマンド、操作可能なプログラムまたはバッチ ファイルとして認識されていません。」と等のエラーメッセージが表示された場合、Perl パッケージのインストールが正しく完了していません。ActiveState の説明をよく読んで、もう一度インストールを試み、それでもダメな場合は筆者までメールしてください。

最後に、¥temp¥PDIC-Toolkit-1.15 の下にある examples フォルダの中身を、適当なフォルダ(例えば、C:¥home¥pdic)にコピーしてください。これで準備作業は終わりです。

¥temp にあるファイル PDIC-Toolkit-1.15.zip とフォルダ PDIC-Toolkit-1.15 は削除しても構いません。

まずは、試験運転

PDIC-Toolkit のインストールに使用したコマンドプロンプトを引き続き使用します。

まず、先ほど examples の中身をコピーしたフォルダに移動します。

cd ¥home¥pdic[ENTER]

次に、Perl が正しくインストールされているかどうか調べるため、

perl -v[ENTER]

と入力してください。This is perl で始まる 20 行ほどの英文が表示されれば OK です。

では、PDIC-Toolkit が正常に動作するかどうか次のコマンドでテストしましょう。

pdic2txt sample.dic sample.txt[ENTER]

次の行に sample.txt was successfully created. と表示されれば、テスト成功です


PDIC ファイルをテキストファイルに変換

前項で PDIC-Toolkit の動作テストのために実行した pdic2txt が PDIC ファイルをテキストファイルに変換するプログラムです。このプログラムによって、実行前には存在しなかった sample.txt というファイルが生成されました。このファイルを Windows 付属のアプリケーション「メモ帳」で開いてみましょう。冒頭の部分は次のような内容になっているはずです。

apple . りんご the apple of discord 3 0 0 banana . バナナ Don't go bananas! 1 1 0

これが、sample.dic から変換されたテキストファイルの中身です。PDIC で辞書グループを新規作成して sample.dic を登録し、辞書の中身とテキストファイルの中身が対応しているかどうか確認してください。

プログラム pdic2txt によって生成されるテキストファイルは、空行(何も書かれていない行)で区切られており、一つ一つが辞書項目に対応しています。各辞書項目は 6 つの行から成っていて、上から順に「見出し語」「発音記号」「日本語訳」「用例」「レベル」「暗記必須フラグ」「修正フラグ」が記録されています。なお、データのない欄にはピリオド(.)が書いてあります。


テキストファイルを PDIC ファイルに変換

メモ帳に戻って sample.txt を編集してみましょう。例えば、最初の項目の見出し語を「りんご」から「リンゴ」に変えて、レベルを 3 から 2 に下げてみます。

apple . リンゴ the apple of discord 2 0 0

sample.txt を上書き保存し、メモ帳を終了してください。そして、コマンドプロンプトに戻り、次のコマンドを実行します。

txt2pdic sample.txt sample2.dic[ENTER]

次のような結果が表示されるはずです。

sample2.dic was successfully created. dulation : 3 sec. (1 sec.) num entries : 9 index size : 0.25 KB data size : 0.50 KB storage rate : 52.34 %

そうしたら PDIC に戻って、辞書グループ編集で sample.dic を削除し、sample2.dic を追加します。見出し語 apple の日本語訳が「リンゴ」に変化し、レベルが 2 になっていれば成功です。


PDIC ファイルを CSV 形式に変換

PDIC-Toolkit の Ver. 1.15 で追加された pdic2csv は PDIC ファイルをCSV 形式に変換するプログラムです。"CSV" は "Comma Separated Values" の略で、ソフトウェアの間でデータを交換する際に使われる一般的なデータ形式です。

コマンドプロンプトで次のコマンドを実行すると、"sample.csv" というファイルが生成されます。

txt2csv sample.txt sample.csv[ENTER]
"apple","りんご","the apple of discord",3,0,0,"" "banana","バナナ","Don't go bananas!",1,1,0,""

その中身は次のようになっているはずです。

PDIC ファイルを CSV 形式に変換する機能は PDIC 自身にもありますが、PDIC は CSV 形式への変換時に辞書データの文字コードが Shift JIS であることを考慮しているため、Shift JIS 以外の文字コードで作られた辞書データと相性がよくありません。

次は…

練習として、自分の使っている PDIC ファイルをテキストファイルに変換し、PDIC ファイルに変換し直してみましょう。あなたの PDIC ファイルを C:¥home¥pdic にコピーして、上記の例にならって pdic2txttxt2pdic を実行してください。

あなたの PDIC ファイル自体を直接 PDIC-Toolkit で処理することは避けてください。そこには 2 つの落とし穴があります。まず、PDIC-Toolkit のバグまたはあなたの操作ミスにより PDIC ファイルが壊れたり、消えたりするかもしれません。また、オリジナルの PDIC ファイルが PDIC によって使用されている場合、PDIC-Toolkit はそのファイルを処理できません。
あなたの PDIC ファイルを pdic2txt でテキストファイルに変換し、その後 txt2pdic で PDIC ファイルに変換し直す場合には、PDIC の辞書チェック機能で検査してから、オリジナルに上書きするようにしてください。できれば、オリジナルの PDIC ファイルをバックアップしておくことをお勧めします。

ところで、あなたの PDIC ファイルが英語と日本語以外の言語の辞書である場合、pdic2txt によって生成されるテキストファイルをメモ帳で開いても、文字化けして読めないでしょう。しかし、txt2pdic で PDIC ファイルに戻すことは可能です。PDIC-Toolkit で英語と日本語以外の言語を扱う方法については PDIC Toolkit Tutorial - Step 2で説明します。


黒田努 <tkrd@mail.com> (2002.01.09) (2002.02.27)