2012年6月23日土曜日

Pythonによるソーシャルデータ分析入門


■あらすじ


Facebookやtwitter.
いまや無くてはならないツールとなった.
いろんな人のつぶやきを見ていて,やってみたいことが出来た.
それは,つぶやきを利用して,いろんな会社の勤務時間帯を調べることだ.


twitter上にはリスト機能があったり,Facebookではプロフィールに勤務先があったりする.
例えば,twitter上にある「トヨタ2012」みたいなリストとFacebookにいるToyota勤務の人のつぶやきを収集して,そのアップデート時刻をヒストグラム表示してみれば大まかな勤務時間帯が可視化出来る気がしてならない.

勤務時間帯だけでなく生活リズムとかもわかるかも.
デスノートで,キラを特定するのにエルが使ってた方法だ.

いろいろと面白げなので,まずは,「入門ソーシャルデータ」という本を購入.
自身初のオライリー本ということもあって読破できるかは微妙だけど...



■Python環境設定とtwitterパッケージのサンプルプログラム


とりあえず今日やったこと.
Mac OS X 10.7 でpython開発環境のセットアップ.

1. python 2.7のインストール


2. MacPortsのインストール
 ここから MacPorts-2.1.1-10.7-Lion.pkg をダウンロードして実行.


3. easy_installのインストール
ここで書いてあるように以下のコマンドを実行.

   $ curl -O http://peak.telecommunity.com/dist/ez_setup.py
   $ python ez_setup.py



つぎにパッケージのインストール.
ここでは,networkx,numpy,twitter.
 $ easy_install networkx
 $ easy_install numpy
 $ easy_install twitter


twitterのトレンド取得について試してみる.
API側の仕様変更があり,書籍通りのコードでは実行できない.
このサイトの通りに実行すると取得できる.



■ついでにGAEへデプロイ
せっかくプログラム作るのだからウェブ上に上げたい!
てなわけでレンタルサーバーとしてGAEを利用してpythonアプリケーションのデプロイ設定.
ここを参照!