今回は訓練データと検証データに分ける手順についてまとめました。
今回のまとめの内容は結構濃く、まとめはできましたが、完璧に理解できたかといわれると自信がありません。
単純に訓練データと検証データを分けるだけなら簡単に分けることができたのですが、訓練データと検証データに分ける前に
- 使用しないデータの行の削除
- 欠損値のあるデータの処理
- データが標準正規分布に従っているかどうか
- 多重共線性がないかデータの確認
等をするプログラム処理を書くと結構難しくなりました。
とりあえず、この先で何回もプログラムを書くことで覚えていけると思うので、今回はこれぐらいのまとめにしておこうと思います。
また、作成していく中で、まとめのタイトルと違うことを記述しているような部分もいくつか見つかりました。
最後までまとめデータを作成し終わったら改めてデータを分類ごとに分けて理解しやすく作成していこうと思います。
まとめでよくわからないところがありましたら、コメントで質問していただけたら回答させていただきます。
コメント