|
潜在意味解析()は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、それらに関連した概念の集合を生成することで、その関係を分析する技術である。潜在的意味解析とも。 1988年、アメリカ合衆国でLSAの特許が取得されている〔US Patent 4,839,853 、Scott Deerwester、Susan Dumais、George Furnas、Richard Harshman、Thomas Landauer、Karen Lochbaum、Lynn Streeter〕。情報検索の分野では、潜在的意味索引または潜在意味インデックス()とも呼ばれている。 == 出現行列 == LSA では、各文書における用語の出現を表した文書-単語マトリクスが使われる。これは各行が各単語に対応し、各列が各文書に対応した疎行列である。この行列の各成分の重み付けには tf-idf (term frequency–inverse document frequency) が用いられることが多い。この場合、行列の各成分はその文書でその単語が使われた回数に比例した値であり、単語はその相対的重要性を反映するために強く重み付けされる。 この行列は標準意味モデルでも一般的だが、必ずしも行列として明確に表現される必要性はなく、行列として数学的に利用するとは限らない。 LSA はこの出現行列を用語と何らかの概念の関係および概念と文書間の関係に変換する。したがって、用語と文書は概念を介して間接的に関連付けられる。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「潜在意味解析」の詳細全文を読む 英語版ウィキペディアに対照対訳語「 Latent semantic analysis 」があります。 スポンサード リンク
|