機械学習上の問題に「過学習」(学習し過ぎ)というものがあり
この状態をバリアンスが高いと表現し、
その反対に「学習不足」というものもあり
こちらはバイアスが高いと表現する
過学習を防ぐための手段にホールドアウト法というものがある
この方法によって学習データをトレーニングデータとテストデータに分割
トレーニングデータは文言から想像できるように学習という意味で
テストデータというのは学習した内容の評価となる
トレーニングデータという概念は更に分割され、
トレーニングデータサブセットと
検証データセットという2つになります。
これはテストデータがトレーニングデータの一部になってしまう事を防ぐ為にある
トレーニングデータサブセットと検証データセットの2つで学習を行い
もう一方のテストデータを用いて最終テストを行う
このホールドアウト法の他に
「k分割交差検証」と呼ばれるものもある
コメントを残す