EC2 で遊んでみたことのまとめ(Apache/Git/スクレイピング)


EC2上でWeb サーバーを立てる

ウェブ上で情報漁ればくさるほど出てくるのでここではコマンドだけメモ。
参考: http://promamo.com/?p=2924
Inbound なネットワーク設定で HTTP(Port80)を開いておくことを忘れずに。

$ sudo yum update
$ sudo yum -y install httpd # Apache インストール
$ sudo service httpd start # サーバー起動
$ sudo su -
# echo "Hello world." >> /var/www/html/index.html

http://ipアドレス/index.html
にアクセスして Hello world. が表示される。


最低限の Python 開発環境のセットアップ
# curl -kL https://raw.github.com/pypa/pip/master/contrib/get-pip.py | python # pip をインストール
# pip install ipython requests
# yum -y install gcc gcc-c++ kernel-devel # lxml のビルドに必要
# pip install lxml

Git をインストールしてスクレイピング

# yum install -y git emacs # git と emacs をインストール
# mkdir repo; cd repo
# git init
# emacs sample.py # 適当にスクリプト書く
# git add sample.py
# git commit -m "Added sample script."
# git log
スクレイピングのコードはここ参照
http://docs.python-guide.org/en/latest/scenarios/scrape/


MeCab の Python バインディングをインストール

形態素解析で遊んでみる。
Yahoo の Web API とか叩けば出来んこともないけど HTTP リクエスト発行するのが嫌なので。。
セットアップはここを参考にした。
http://qiita.com/saicologic/items/ab70e14f7e2ec2ee0b4d


import sys
import MeCab
m = MeCab.Tagger ("-Ochasen")
print m.parse ("今日もしないとね")
実行すると以下のとおり
In [10]: print m.parse ("今日もしないとね")
今日    キョウ  今日    名詞-副詞可能
も      モ      も      助詞-係助詞
し      シ      する    動詞-自立       サ変・スル      未然形
ない    ナイ    ない    助動詞  特殊・ナイ      基本形
と      ト      と      助詞-接続助詞
ね      ネ      ね      助詞-終助詞
EOS
なんか出来てるっぽい。
標準入出力を介してシェルスクリプト経由で解析データをデータベースにでも注入しようかな。


Requests で Qiita にログインしてみる

requests を pip でインストールしてから、HTTP リクエストが簡単に発行できるようになったので、
ウェブサービスにログインする処理を試してみた。 http://qiita.com/morinokami/items/46b76b365f030be83418

これとスクレイピングを合わせれば何かできそう。

コメント

このブログの人気の投稿

Callback関数を知らん人がまず理解すべきことのまとめ。

C言語でBluetoothスタックを叩きたい人のBluetooth開発入門その1

構文エラー : ';' が '型' の前にありません