私と主成分分析と独立成分分析
データマイニング・ビッグデータなるものが流行っている. 多くの顧客情報や取得したセンサデータやログを対象にして, 何らかの数理的な仕組みを使って有用な知見を導き出すことである. この「数理的な仕組み」の部分は,学生時代にPRML(Pattern Recognition and Machine Learning)を読んでいたこともあり, 読めばサクッと頭のなかに入ってくる. 特に主成分分析や独立成分分析は面白かったと記憶している. 主成分分析と私 主成分分析は,高次元データを低次元データで表現するために分散が最大になるような軸を見つけ出して整理するといった手法. 固有値固有ベクトルの数理的な問題に落とし込めるエレガントさがあったと記憶している. 学生時代は,グー・チョキ・パーの手の形をした膨大な画像を仕分ける課題が与えられたのが主成分分析と出会ったきっかけだったのだが,その数学的な美しさに感動していた. 数学的に美しいものは実装も容易で,画像のパターン認識くらいであれば,2次元画像をベクトル化して,定式化された式にぶっこんで学習フィルタを設計するだけ. 京大は研究費が結構貰えるありがたい環境だったので,MATLABが必ず与えられていた. MATLABで書くと100行もいかなかったと記憶している. # 今思うとこれがものすごくゆとり脳をつくる元凶だった # C++で最適化するくらいのスピード狂にでもなっていれば優れたソフトウェアエンジニアになれていたと思う. 独立成分分析と私 あれは研究室選びをしていた学部三回生の頃だった. あの頃は不景気だったこともあり,「就職できる」研究室選びを主眼においていた実につまらない学生だった. バイオは就職できないし,機械系はドカタだし...なんて本当に失礼なことを考えていた. そこで出会ったのが音声信号処理の研究室. そこでは二人の話者が同時に喋った音声を分離する,「音源分離」という技術を見せてもらった,これが非常に面白い. 混ざった音声を分ける仕組みがどういうものなのか知りたくて知りたくて震えた. 聞いてみると独立成分分析という理論が使われている模様. 独立なサンプルの平均はガウス分布に近づくといった性質を逆手に取るこ