機械学習
⑴教師あり…予測 回帰分析・分類・判別分析・決定木・ランダムフォレスト・サポートベクターマシン・ロジスティクス回帰
⑵教師なし…グループ分け クラスター分析・主成分分析・因子分析
⑶強化学習…最適化 得点や報酬を与えることによって、ゴールの達成に向けた行動の仕方を獲得する(広告AI、自動運転)
統計解析
母集団…データ収集の対象となるすべてのデータ 例 日本国人 母平均・母分散
標本…母集団から一部を取り出したデータ 例 日本人1000人 標本平均・標本分散
- 検定の手順
帰無仮説…知りたいことでは無い方の仮説 例 占い師には予知能力がない。
対立仮説…知りたい仮説 例 占い師に予知能力はある。
有意水準…帰無仮説を棄却するときの判断基準。αで表す。5%や1%に設定することが多い。算出したp値が有意水準より小さいと帰無仮説を棄却する。
→帰無仮説を棄却すると、対立仮説が正しいことになる。
→帰無仮説を棄却しない場合は、帰無仮説と対立仮説どちらが正しいかは分からない。
- 検定の誤り
⑴第一種の過誤…帰無仮説が正しいとき、間違って帰無仮説を棄却する。犯す確率はαで表されることが多い。
⑵第二種の過誤…対立仮説が正しいとき、間違って帰無仮説を受容する誤り。犯す確率はβで表されることが多い。
検定力…対立仮説が正しいとき、正しく帰無仮説を棄却できる確率
- 検定の種類
Z検定:母集団と標本の平均値に違いがあるかどうか
t検定:2つの母集団の平均に違いがあるかどうか(母集団が等しいとき)
ウェルチ検定:2つの母集団の平均に違いがあるかどうか(母集団が未知のとき)
F検定:2つの母集団の分散が等しいかどうか
X二乗検定(カイ二乗検定):母分散についての仮説が正しいかどうか(独立性と適合度)
独立性→2つの店舗による商品の売れ行きに違いがあるか調べる。
適合度→ランダムに選んだ100人の血液型の割合が日本人の割合と同じか調べる。
分散分散:3つ以上の標本の平均に違いがあるかどうか。
多変量解析
単回帰分析:1つの要因から1つの結果を予測
重回帰分析:複数の要因から1つの結果を予測
主成分分析:新たな変数を求める
因子分析:多変量データが得られる原因や根拠を探る
判別分析:結果が0か1かを決定する
クラスター分析:集団の中から似た性質を持つものを集め、クラスターを作り分析する
コンジョイント分析:複数の要素の最適な組み合わせを探る(マーケティング利用多い)