|
交差検証(交差確認)〔交差検定と呼ばれる場合もあるが,統計学では検定はtestの訳語として用いられ,validationの訳語には検証か確認が用いられる〕(英: Cross-validation)とは、統計学において標本データを分割し、その一部をまず解析して、残る部分でその解析のテストを行い、解析自身の妥当性の検証・確認に当てる手法を指す〔(Morgan Kaufmann, San Mateo)〕 〔Chang, J., Luo, Y., and Su, K. 1992. GPSM: a Generalized Probabilistic Semantic Model for ambiguity resolution. In Proceedings of the 30th Annual Meeting on Association For Computational Linguistics (Newark, Delaware, June 28 - July 02, 1992). Annual Meeting of the ACL. Association for Computational Linguistics, Morristown, NJ, 177-184〕 〔Devijver, P. A., and J. Kittler, Pattern Recognition: A Statistical Approach, Prentice-Hall, London, 1982〕。データの解析(および導出された推定・統計的予測)がどれだけ本当に母集団に対処できるかを良い近似で検証・確認するための手法である。 最初に解析するデータを「訓練事例集合(training set)」などと呼び、他のデータを「テスト事例集合(testing set、テストデータ)」などと呼ぶ。 交差検証は Seymour Geisser が生み出した。特にそれ以上標本を集めるのが困難(危険だったり、コストがかかったり)な場合は、データから導いた推定は、交差検証などで慎重に裏付けを確認するべきである。 == 交差検証の主な種類 == === ホールドアウト検証 === 初期標本群から事例を無作為に選択してテスト事例を形成し、残る事例を訓練事例とする。テスト事例に使われるのは初期の標本群の3分の1以下の場合が多い。ただし一般にホールドアウト検証は交差検証には分類されない。なぜなら、データを交差させることがないためである。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「交差検証」の詳細全文を読む 英語版ウィキペディアに対照対訳語「 Cross-validation (statistics) 」があります。 スポンサード リンク
|