2013年3月21日木曜日

1分でPythonでスクレイピングツールを作る

# -*- coding: utf-8 -*-

import urllib

#proxies={'http': 'http://192.168.0.1:8080'}
url = "http://www.goldmansachs.com/"
#filehandle = urllib.urlopen(url, proxies=proxies)
filehandle = urllib.urlopen(url)
data = filehandle.read()
print data


まずはコード!
urllibをインポートしてurlopenするだけ。
コメントアウトしてる部分はプロキシ経由でアクセスするときに使います。
これでGoldman Sachsのサイトをぶっこ抜けました。

将来的にはタグ解析の後、データベース化つくってC++で解析とかしようかなと!
スクリプト使って各サイトにアクセスするわけだけど、
データぶっこ抜くためにサーバー立てて自動化できたら素晴らしいなぁ。
分散処理とかできたらなー。

<a href ***ってところをぶっこぬいてグラフネットワーク的に解析したら
人気サイトとかわかるよね。
こーゆーのがGoogle先生のやってることなのでしょうか。
めっちゃ興味ある。。。

今興味持ってるのは
pythonに通常装備されてるsqlite3と、
pythonでスクレイピングツールつくろうぜってサイトで言及されてるBeautifulSoupです。