2014年6月17日火曜日

パターン認識と機械学習、初歩の初歩


* 機械学習フィーバーの背景

人工知能だビッグデータだ機械学習だって凄く話題になってる。
なぜこんなに言われるようになったか。

一つの要員としてはプロセッサの急速な高スペック化・低価格化があると思います。
機械学習ってどのくらいの計算コストがかかると思いますか?
例えば、画像一枚のデータに対して何かしらのパターン認識をかませることを考えます。
対象の画像が、RGBの要素を持っていて500px×500pxだったとすると
入力データのパラメータ量としては、 3 * 500 * 500 = 750000次元
糞小さい画像でも75万次元のデータがあるわけです。
これを解析するのに必要なプロセッサの能力だとか、
うまーく有限時間で解けるアルゴリズムだとか、そのへんのインフラが整ってきたのでこんなに騒がれているわけです。


* パターン認識の流れ

大きく3つのフェーズからなります。 1. 前処理、2.特徴抽出、3.識別
"入力データ => (前処理) => (特徴抽出) => 特徴ベクトル => (識別) => クラス"

1. 前処理
明らかにいらない情報を捨てる。
分野ごとに要らない情報の落とし方はやり方が確立されてる事が多い
 (ex) 文字認識においては一、大きさ、向き、色は文字の種類と無関係なので無視

2. 特徴抽出
識別に用いる特徴量を抽出し次元を削減

3. 識別
導出された特徴量を用いて、一番それっぽいクラスを選択するフェーズ。
「それっぽい」の判断基準は数学的な問題、特に統計的なイシューになります。
データの種類やデータの量によって色々な手法があります。


* 神教材

動画:

パターン認識と機械学習入門@ワークスアプリケーションズ


プレゼン資料:
パターン認識と機械学習勉強会 資料

0 件のコメント:

コメントを投稿