2014年8月11日月曜日

Scrapyであなたのサイトをぶっこ抜きます。


クラウドソーシング系サイトを見ているとスクレイピング系の案件が多くて気になった。

スクレイピングとは、Webページをダウンロードしてきて必要なデータを解析する行為のこと。

Webページを落としてくる行為はクローリングとかいうらしい。




とりあえずやってみなはれ精神でやってみます。

手持ちの武器はPythonとRaspberry Pi。

ほぼDebianなので環境セットアップも楽勝でした。

http://chirale.wordpress.com/2013/01/04/scrapy-on-debian-6/


sudo apt-get install python-scrapy


はい、準備出来ました。

これからScrapyであなたのサイトをぶっこ抜きます、なんて。

ScrapyはPythonのフレームワークで、さっき言ったクローリングとかスクレイピングを利用者はほぼブラックボックスでできちゃう優れもの。
# すこーしコード実装する必要が出てきますが。。

柔軟性も素晴らしいとのことなのでガッツリScrapyをいじります。
実は、以前さわりだけやってしばらくご無沙汰していました。


Python製オープンソースライブラリ「Scrapy」でスクレイピングしてみた話




0 件のコメント:

コメントを投稿