Mechanizeでスクレイピング
時間があったので社員用のウェブページをスクレイピングして、必要なデータだけを抜き取りローカルに保存するプログラムを書いた。これが、なかなか良い。これでログイン不要になったw
初めてのスクレイピングであり、楽しかった。夢中になってしまった。なお、rubyのWWW:Mechanizeを使った。
いくつかのウェブページを参考にしたので、まとめ。
- http://mono.kmc.gr.jp/~yhara/rubyscraping/?Mechanize
- 簡単なリファレンス
- Route 477(2007-02-05)
- Hpricotの使い方を参考
- http://mechanize.rubyforge.org/mechanize/
- ドキュメント。英語だけど頑張った
この3つで、アクセスしてIDとPASS入力して、HTML取得して欲しい情報を取り出すのは出来た。
あとは、rubyのマニュアルを見ながらコーディング。かなり汚いコードなので、明日以降時間を見つけてきれいにしたい。
Mechanize::ListがArrayのサブクラスという事をもっと早く知ることが出来たらもっと早く完成していたはず。
これを終え、rubyが楽しく思えた。