下面不是我的站,但是程序一样,错误一样,现在看来是程序什么地方的问题了
http://www.0832h.com/index.php?caid=3&ccid6=188&ccid1=210 (抓取失败403错误)
http://www.0832h.com/index.php?caid=3 (抓取成功)
连个页面在浏览器访问,curl,17ce.com测试都是正常的200状态
但是用这个网页抓取测试(和百度站长抓取结果一致)http://www.cjzzc.com/crawl.html显示
[cls_envBase::AllowRobot()]NetworkError:403Forbidden
-----------------------------------------------------
网友回复:
这种动态域名,做伪静态很容易吧
做伪静态也更方便百度抓取
网友回复:
百度站长资源平台不是有自己的模拟抓取工具吗。
套了CF看看设置
网友回复:
引用:citywar发表于2020-6-1016:59
百度站长资源平台不是有自己的模拟抓取工具吗。
套了CF看看设置
网友回复:
引用:amo发表于2020-6-1017:33
哥们
这个抓取就是在百度站长平台测试的
你看这个套了CF的是百度云加速,之前测试关了也不行...
网友回复:
引用:citywar发表于2020-6-1017:41
随便新建个网站绑个域名 再模拟抓取下
看看是服务器的安全设置。还是网站的问题。...
网友回复:
引用:hxuf发表于2020-6-1016:51
域名PM瞧瞧咯
网友回复:
可能程序本身自己有白名单,对UA判断或者IP判断有放行封禁
网友回复:
cls_envBase::AllowRobot
去数据库查查有没有对应的关键字表啥的 这可能程序自带的限制蜘蛛爬虫功能说不定
网友回复:
访问www.0832h.com的请求遭到拒绝您未获授权,无法查看此网页。
HTTPERROR403
你应该是禁用百度UA了