www.pryy.net > nutCh 2.3.1

nutCh 2.3.1

你这个是因为后面的数据都是用js脚本ajax方式加载的吧,源文件估计下不下来的。要用支持ajax的采集器才可以。 另外看到你有成千上百个,还有一点很重要,就是要防止腾讯封你的ip,你访问量大的时候,超过一个人正常的访问,很有可能会被封锁ip。...

查看下 conf/regex-urlfilter.txt 中是否过滤调了url

看下logs下的hadoop.log日志信息

hadoop是用Java写的, 2005年12月-- Nutch移植到新的框架,Hadoop在20个节点上稳定运行。 2004年-- 最初的版本(称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。 2004年9月30日18:00PM,J2SE1.5发布,成为Java语言发展史上的又一...

网站地图

All rights reserved Powered by www.pryy.net

copyright ©right 2010-2021。
www.pryy.net内容来自网络,如有侵犯请联系客服。zhit325@qq.com