AUTOCODEのコーディングルール


 AUTOCODEのコーディングルールはきわめて単純です。基本的には回答文中から文字列を検索し、それが見つかったかどうかを報告しているだけです。しかし、それだけでは使いものにならないので、ちょっとした工夫を2つほどしています。

 まず、異なった表現で同じ意味が表されることがあることを考える必要があります。例えば「コンピュータ」を「電子計算機」という言葉で表す人もいるだろうし、「パソコン」という言葉も用いられるでしょう。あるいは「サーバ」「ホスト」なども分析目的によってはひとまとめにしたほうがいいかもしれません。そこで、AUTOCODEでは、1つの「コード名」に複数の「抽出文字列」を対応させるルールを用います。上の例であれば、「コンピュータ」というコード名に「電子計算機」「パソコン」など(もちろん「コンピュータ」自体も)を対応させるわけです。このようなルールを受け取ったAUTOCODEは、回答文を検索して「電子計算機」や「パソコン」などの文字列を発見すると「コンピュータ」というコードが見つかったと報告します。

 次に文字列を検索してコーディングする際に問題になるのは、抽出したい文字列が他の意味の言葉の一部分になっていたり、前後の文脈から抽出すべきでないと判断される場合です。
 前者は特に短い文字列で頻発します。例えば「親」という言葉を母親とか父親の意味で抜き出したいときに、これをそのまま
抽出文字列として使うと「親切」「親身になって」「親しい」などの言葉がすべて抜き出されてしまいます。
 後者は、叙述的な言葉の後に否定の表現が現れるときなどに発生します。例えば「悲しい」という文字列を抜き出したい場合に「悲しいことはない」という表現まで抜き出されては困るわけです。

 AUTOCODEはこの問題にごく単純な方法で対応しています。それぞれの抽出文字列に対して、もし前後に特定の文字列が隣接していた場合にはコードの割り当てを回避するというルールです。このような文字列を「回避文字列」と呼びます。
 「親」の場合には、後ろに「切」「身になって」「しい」などの文字列が隣接していた場合には、コードの割り当てを回避するルールを作ればよいのです。この場合回避文字列は、「>切」「>身になって」「>しい」となります。それぞれの文字列の最初の「>」は「後ろにつく」という意味です。前につく文字列の場合は「<」を最初につけます。

 なお、AUTOCODEのコーディングルールは回答を分類するようなものではなく、いくつかの項目についてあてはまるか否かを調べるルールです。選択肢を用いた質問では複数回答を許容する質問に当たります。

戻る