EC2 で遊んでみたことのまとめ(Apache/Git/スクレイピング)
EC2上でWeb サーバーを立てる
ウェブ上で情報漁ればくさるほど出てくるのでここではコマンドだけメモ。
参考: http://promamo.com/?p=2924
Inbound なネットワーク設定で HTTP(Port80)を開いておくことを忘れずに。
$ sudo yum update
$ sudo yum -y install httpd # Apache インストール
$ sudo service httpd start # サーバー起動
$ sudo su -
# echo "Hello world." >> /var/www/html/index.html
http://ipアドレス/index.html
にアクセスして Hello world. が表示される。
最低限の Python 開発環境のセットアップ
# curl -kL https://raw.github.com/pypa/pip/master/contrib/get-pip.py | python # pip をインストール
# pip install ipython requests
# yum -y install gcc gcc-c++ kernel-devel # lxml のビルドに必要
# pip install lxml
Git をインストールしてスクレイピング
# yum install -y git emacs # git と emacs をインストールスクレイピングのコードはここ参照
# mkdir repo; cd repo
# git init
# emacs sample.py # 適当にスクリプト書く
# git add sample.py
# git commit -m "Added sample script."
# git log
http://docs.python-guide.org/en/latest/scenarios/scrape/
MeCab の Python バインディングをインストール
形態素解析で遊んでみる。
Yahoo の Web API とか叩けば出来んこともないけど HTTP リクエスト発行するのが嫌なので。。
セットアップはここを参考にした。
http://qiita.com/saicologic/items/ab70e14f7e2ec2ee0b4d
import sys import MeCab m = MeCab.Tagger ("-Ochasen") print m.parse ("今日もしないとね")実行すると以下のとおり
In [10]: print m.parse ("今日もしないとね")なんか出来てるっぽい。
今日 キョウ 今日 名詞-副詞可能
も モ も 助詞-係助詞
し シ する 動詞-自立 サ変・スル 未然形
ない ナイ ない 助動詞 特殊・ナイ 基本形
と ト と 助詞-接続助詞
ね ネ ね 助詞-終助詞
EOS
標準入出力を介してシェルスクリプト経由で解析データをデータベースにでも注入しようかな。
Requests で Qiita にログインしてみる
requests を pip でインストールしてから、HTTP リクエストが簡単に発行できるようになったので、
ウェブサービスにログインする処理を試してみた。 http://qiita.com/morinokami/items/46b76b365f030be83418
これとスクレイピングを合わせれば何かできそう。
コメント
コメントを投稿