如何对付网络爬虫

是一篇非常有用的文章,原文地址是:
http://robbin.javaeye.com/blog/441071
http://robbin.javaeye.com/blog/441116
我本来bookmark了这2个地址,可是非常奇怪,再次访问的时候,文章居然删除了。不知道作者为什么删除这么好的文章。幸好还有备份,贴在这里给需要的同学学习参考。
=====================================================
由于搜索引擎的泛滥,网络爬虫如今已经成为全球互联网的一大公害。除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,搜狐,腾讯,网易。再加上十分流氓的社区搜索奇虎等等,国内大大小小叫得出来名字得就几十家,还有各种不知名的几千几万家,另外还有国外各种奇奇怪怪的搜索引擎。只要你做的网站是内容丰富的网站,就避免不了被几千几万个爬虫每天爬来爬去。 Continue reading “如何对付网络爬虫”