|
WordNet(わーどねっと)は英語の概念辞書(意味辞書)である。WordNetでは英単語がsynsetと呼ばれる同義語のグループに分類され、簡単な定義や、他の同義語のグループとの関係が記述されている。 WordNetの目的は直感的に使うことのできる辞書とシソーラスが組み合わされた成果物を作ること、および自動的文書解析や人工知能のアプリケーションの実現を支援することにある。WordNetのデータベースやソフトウェアはBSDライセンスによって公開され、自由にダウンロードして用いることができる。データベースはオンラインで参照することもできる。 WordNetはプリンストン大学の認知科学研究所によって心理学者である同大学教授のジョージ・ミラー(George A. Miller)の主導のもとで運営されている。開発は1985年に始められ、この間、主に機械翻訳に取り組む米国の政府機関から3百万ドルの支援を受けた。 == データベースの内容 == 2005年現在、WordNetのデータベースは約11万5000のsynsetに分類された約15万語を収録し、全体で20万3000の単語と意味の組み合わせがある。データベースは圧縮された状態で約12メガバイトのサイズがある。 WordNetでは名詞、動詞、形容詞、副詞を文法上の扱いが異なることから、区別して収蔵している。synsetは同義の単語あるいはコロケーション(熟語、連語; コロケーションとは"car pool"のように単語が連なって一つの意味をなしている句)をグループにまとめている。 意味の異なる語句は別のsynsetに分類される。synsetの持つ意味は注釈として以下のような形式で記載されている。(訳注:synsetに属する単語がgood, right, ripeであり、注釈は括弧の中に記載されている。) : good, right, ripe -- (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes") ほとんどのsynsetは他のsynsetとの意味的な関係が番号によって示されている。この関係の種類は品詞によって異なっており、以下に示す通りになっている。 * 名詞 * 上位語(hypernym): すべてのXがYの種類の一であるならYはXの上位語である。 * 下位語(hyponym): すべてのYがXの種類の一であるならYはXの下位語である。 * 同族語(coordinate term): XとYの上位語が同じなら、YはXの同族語である。 * 全体語(holonym): XがYの一部であるなら、YはXのholonymである。 * 部分語(meronym): YがXの一部であるなら、YはXのmeronymである。 * 動詞 * 上位語(hypernym): Xという行動がYの種類の一であるなら動詞Yは動詞Xの上位語である。 (「移動(movement)」は「旅行(travel)」の上位語) * トロポニム(troponym): もしYという行動がXを行う際の様態であるなら動詞Yは動詞Xのtroponymである。(「片言で話す(lisp)」は「話す(talk)」のtroponym) * 含意(entailment): Xしている場合必然的にYしているなら動詞Yは動詞Xにentail(ひきおこすこと)されている。 (X:「いびきをかく(snoring)」はY:眠る(sleeping)」ことによって引きおこされる。) * 同族語(coordinate terms): XとYの上位語が同じなら、YはXの同族語である。 * 形容詞 * 関係のある名詞 * 動詞の分詞 * 副詞 * 原形の形容詞 synsetに含まれる語句は同じ意味を持った同義語であるため意味的な関係はsynset内全体に適用されるが、 単独の語句が他の語句と反意語や派生語などの関係を結ぶこともある。 WordNetには語句の多義性の度合い(polysemy count; 語句が属するsynsetの数)の情報も含まれている。ある単語がいくつかのsynsetに属している(いくつかの意味を持っている)場合、ある意味は他の意味よりも一般的に用いられているという関係を持っていることが多い。WordNetではこのような関係を頻度点(frequency score)と呼ぶ数値で表している。サンプルの文書の中には全ての単語にsynset等の意味を表すタグを付与しているものがあり、単語が特定の意味で出現している頻度によって頻度点が計算されている。 単語から語幹(root form)や原型(lemma)を推定するための形態素解析ツールはデータベースと一緒に配布されている。屈折形を含む語の場合をのぞいて語幹のみがデータベースに格納されている。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「WordNet」の詳細全文を読む スポンサード リンク
|