Scrapyであなたのサイトをぶっこ抜きます。


クラウドソーシング系サイトを見ているとスクレイピング系の案件が多くて気になった。

スクレイピングとは、Webページをダウンロードしてきて必要なデータを解析する行為のこと。

Webページを落としてくる行為はクローリングとかいうらしい。




とりあえずやってみなはれ精神でやってみます。

手持ちの武器はPythonとRaspberry Pi。

ほぼDebianなので環境セットアップも楽勝でした。

http://chirale.wordpress.com/2013/01/04/scrapy-on-debian-6/


sudo apt-get install python-scrapy


はい、準備出来ました。

これからScrapyであなたのサイトをぶっこ抜きます、なんて。

ScrapyはPythonのフレームワークで、さっき言ったクローリングとかスクレイピングを利用者はほぼブラックボックスでできちゃう優れもの。
# すこーしコード実装する必要が出てきますが。。

柔軟性も素晴らしいとのことなのでガッツリScrapyをいじります。
実は、以前さわりだけやってしばらくご無沙汰していました。


Python製オープンソースライブラリ「Scrapy」でスクレイピングしてみた話




コメント

このブログの人気の投稿

Callback関数を知らん人がまず理解すべきことのまとめ。

C言語でBluetoothスタックを叩きたい人のBluetooth開発入門その1

C++プログラミング入門(1) // 倉庫番プログラムの実装