|
局所性鋭敏型ハッシュ()とは高次元のデータを確率的な処理によって次元圧縮するための手法である。ハッシュの基本的な考え方は類似したデータが高確率で同じバケットに入るようにデータを整理するというものである。多くの場合においてこのバケットの数は入力されるデータサンプルの数よりもずっと小さくなる。 == 定義 == 局所性鋭敏型ハッシュを行うためのパラメータの集合をLSH族(Locality Sensitive Hashing Family)と呼ぶ。LSH族は距離空間と閾値、近似因子によって定義される。LSH族〔 〕は2点について次の2つの性質、 * ならばとなる確率は以上である。 * ならばとなる確率は以下である。 を満たす関数により与えられる族であり,はから一様乱数にしたがって選択される。このときは2点の距離を表す関数であり、となるよう設計する。このような族はに鋭敏であるという。 これに準ずる定義として、領域における類似度関数によるものがある。局所性鋭敏型ハッシュの性質は、ハッシュ関数の集合と確率分布により与えられる。あるハッシュ関数は集合から確率分布により選ばれるが、とは領域に存在する2点について、 : を満たすような確率分布である。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「局所性鋭敏型ハッシュ」の詳細全文を読む スポンサード リンク
|