|
形態素解析(けいたいそかいせき、''Morphological Analysis'')とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(''Morpheme'', おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 自然言語処理の分野における主要なテーマのひとつであり、機械翻訳やかな漢字変換など応用も多い(もちろん、かな漢字変換の場合は入力が通常の文と異なり全てひらがなであるため、その内容も機械翻訳の場合とは異なったものになる)。 もっぱら言語学的な観点を主として言語学で研究されている文法にもとづく解析もあれば、コンピュータ上の自然言語処理としてコンピュータでの扱いやすさに主眼を置いた解析もある。以下は後者のためのツールを用いた例で、「お待ちしております」という文を形態素解析した例である (「茶筌」を使用した)。 自然言語以外の場合では、プログラミング言語などの場合は字句解析が相当する。 == 英語の形態素解析の手法 == 英語の文は日本語とは異なり、予め単語と単語の区切りがほとんどの箇所で明確に示される。このため、単語分割の処理は日本語の場合ほど複雑である必要はなく、簡単なルールに基づく場合が多い。 例えば「It's a gift for Mr. Smith.」という文を解析することを考える。単語分割をすると以下のようになる。 it / 's / a / gift / for / mr. / smith / . # 文全体を小文字化し、単語の位置(文頭かそれ以外か等)により単語が区別されてしまうことを防ぐ # it's や don't 等の省略形を分割する(it's → it / 's 、 don't → do / n't) # 文末のピリオドを前の単語と切り離す(この際、Mr. などに使われる文末とは関係ないピリオドは切り離さない) it's の分割として it / 's にするか it / is にするかはしばしば議論の対象となるが、所有格末尾の 's が誤って is になることを防ぐために、 's にすることが多い。 品詞付与はルールに基づくものから統計に基づくものまで利用される(下記の例は Stanford POS Tagger による)。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「形態素解析」の詳細全文を読む スポンサード リンク
|