同僚5名でここ1年くらい作業していた「クローリングハック あらゆるWebサイトをクロールするための実践テクニック」という書籍が翔泳社さんから発売になります。
クローリングハック あらゆるWebサイトをクロールするための実践テクニック
- 作者: 竹添直樹,島本多可子,田所駿佑,萩野貴拓,川上桃子
- 出版社/メーカー: 翔泳社
- 発売日: 2017/09/14
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
「ハック」と言っても別に怪しいことが書いてあるわけではありませんw
クローラーの運用を通して世の中には一体どうやったらそうなるのか謎な挙動を示すサイトを見てきたわけですが、この書籍はクローラーを作る側にしろ、Webサイトを製作する側にしろ、理解しておくべき基本的なWeb技術について解説したものです。
HTTPメソッドをちゃんと使い分けよう、ヘッダやステータスをちゃんと返そう、セマンティックなHTMLを書こう、そしてクローラーはそれらを正しくハンドリングしよう、そのような基本的なことから、前述のような謎な挙動を示すサイトに対してはどのような対処をすれば大体うまくいくかということなどが書かれています。
最近はビッグデータや機械学習といった技術の発達もあり、ショットで動かす簡易的なものからサービス提供に不可欠なデータ収集のために運用される大規模なものまで、様々なシーンでクローリング、スクレイピングが用いられるケースが増えてきているように感じますが、この本には皆がルールを守って平和なインターネッツになるといいなという思いが込められています。
なお、翔泳社さんの販促サイトから予約購入していただくとcurlのよく使うオプションを12ページかけて解説した「curlの極意」という誰得な特典PDFがついてきますw
今回の書籍は300ページほどですし5人で分担したので分量的にはそうでもない(はず)なのですが、いろいろ悩ましい事柄が多く、完成までだいぶ時間がかかってしまいました。なんとか形にすることができたのでひとまず肩の荷が降りたというところですが、歳のせいか書籍の作業が年々辛くなってきている実感があります。しばらくはのんびり休みたいです…。