PCAについて調べてみた
標準的なPCAを勉強する中で参考にしたサイト等をメモしました。
確率的PCAやカーネルPCAなどは別にまとめます。
目次
PCAの応用
1. ワインのデータ (178 samples, 13 features)
”Wine”というオープンソースのデータを使用している。178 のワインのサンプル、13 の化学的特徴からなる。特徴量は、アルコール度数とかワインの味わいの決め手となるリンゴ酸濃度など。サンプルにはラベルが 1, 2, 3 がついていて、品種を表す。
最終的にクラスタリングまでしている。
2. 手書き数字 (約1800 samples, 64 features) & 顔画像データ (約1350 samples, 約3000 features)
手書き数字データ(MNIST)は 約1800 の数字の画像データ、64 の特徴量からなる。数字は0~9 の10個のラベルが用意されている。
顔画像データ(Labeled Faces in the Wild:LFW)、人名ラベルがついている。
3. ポケモンのデータ(721 samples, 約10 features)
721匹のポケモンと、HPや攻撃などのステータスが約10個入ってる。ポケモンの図鑑の番号、タイプ、名前とかも入っている。
サイトではPCAの他に、因子分析、クラスタリング、評価もしている。
4. 都道府県別の麺消費量データ(47 samples, 7 features)
生うどん・そば、乾うどん・そば、パスタなどが特徴量となったデータ。見やすい。
5. 酢酸ビニルプラントのシミュレータ (VAMSim) から生成した時系列データ
まだ見てない。
6. 遺伝子データ
PCAの理論
1. Academaid
二種類の定式化が紹介されている。シンプルで、見やすい。
2. あつまれ統計の森
分散最大化による定式化。射影の説明がわかりやすい。式変形も詳しい。 ベクトルによる微分、ラグランジュの未定乗数法の説明もある。
3. Diversity Mining Laboratory @ Rikkyo University
diversity-mining.jp 計算過程が詳しい。シンプル。最後にピタゴラスの定理の記述がある。
PRML下巻勉強会
PCAの動画
・統計数理研究所_統計思考院動画配信
www.youtube.com ・実装例から入るので胃もたれしないで見られた。 ・回帰との違いや標準化有無のはなしがあってPCAに対して多角的に考えられる。