目的のない勉強会

主にブルーバックスをまとめています

PCAについて調べてみた

PCAについて調べてみた

標準的なPCAを勉強する中で参考にしたサイト等をメモしました。
確率的PCAやカーネルPCAなどは別にまとめます。

目次

PCAの応用  

1. ワインのデータ (178 samples, 13 features)

colab.research.google.com

”Wine”というオープンソースのデータを使用している。178 のワインのサンプル、13 の化学的特徴からなる。特徴量は、アルコール度数とかワインの味わいの決め手となるリンゴ酸濃度など。サンプルにはラベルが 1, 2, 3 がついていて、品種を表す。
  最終的にクラスタリングまでしている。

2. 手書き数字 (約1800 samples, 64 features) & 顔画像データ (約1350 samples, 約3000 features)

手書き数字データ(MNIST)は 約1800 の数字の画像データ、64 の特徴量からなる。数字は0~9 の10個のラベルが用意されている。

顔画像データ(Labeled Faces in the Wild:LFW)、人名ラベルがついている。

colab.research.google.com

3. ポケモンのデータ(721 samples, 約10 features)

721匹のポケモンと、HPや攻撃などのステータスが約10個入ってる。ポケモンの図鑑の番号、タイプ、名前とかも入っている。
サイトではPCAの他に、因子分析、クラスタリング、評価もしている。

ポケモンデータ解析.py - Qiita

4. 都道府県別の麺消費量データ(47 samples, 7 features)

12. 主成分分析 (1) — 機械学習帳

生うどん・そば、乾うどん・そば、パスタなどが特徴量となったデータ。見やすい。

5. 酢酸ビニルプラントのシミュレータ (VAMSim) から生成した時系列データ

gochikika.ntt.com

まだ見てない。

6. 遺伝子データ

satijalab.org

PCAの理論

1. Academaid

academ-aid.com

二種類の定式化が紹介されている。シンプルで、見やすい。

2. あつまれ統計の森

分散最大化による定式化。射影の説明がわかりやすい。式変形も詳しい。 ベクトルによる微分ラグランジュの未定乗数法の説明もある。

www.hello-statisticians.com

3. Diversity Mining Laboratory @ Rikkyo University

diversity-mining.jp 計算過程が詳しい。シンプル。最後にピタゴラスの定理の記述がある。

PRML下巻勉強会

hackmd.io

PCAの動画

統計数理研究所_統計思考院動画配信

www.youtube.com ・実装例から入るので胃もたれしないで見られた。 ・回帰との違いや標準化有無のはなしがあってPCAに対して多角的に考えられる。

・Serrano.Academy

www.youtube.com