1分でPythonでスクレイピングツールを作る

# -*- coding: utf-8 -*-

import urllib

#proxies={'http': 'http://192.168.0.1:8080'}
url = "http://www.goldmansachs.com/"
#filehandle = urllib.urlopen(url, proxies=proxies)
filehandle = urllib.urlopen(url)
data = filehandle.read()
print data


まずはコード!
urllibをインポートしてurlopenするだけ。
コメントアウトしてる部分はプロキシ経由でアクセスするときに使います。
これでGoldman Sachsのサイトをぶっこ抜けました。

将来的にはタグ解析の後、データベース化つくってC++で解析とかしようかなと!
スクリプト使って各サイトにアクセスするわけだけど、
データぶっこ抜くためにサーバー立てて自動化できたら素晴らしいなぁ。
分散処理とかできたらなー。

<a href ***ってところをぶっこぬいてグラフネットワーク的に解析したら
人気サイトとかわかるよね。
こーゆーのがGoogle先生のやってることなのでしょうか。
めっちゃ興味ある。。。

今興味持ってるのは
pythonに通常装備されてるsqlite3と、
pythonでスクレイピングツールつくろうぜってサイトで言及されてるBeautifulSoupです。

このブログの人気の投稿

Callback関数を知らん人がまず理解すべきことのまとめ。

C言語でBluetoothスタックを叩きたい人のBluetooth開発入門その1

C++プログラミング入門(1) // 倉庫番プログラムの実装