苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

分布式系统框架(V1.3) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper万能框架(V2.3-含.netcore) HttpHelper官方出品,无敌框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 最牛的爬虫类,没有爬不到只有想不到 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 735|回复: 6

[学生提问] 第一次遇见一个防采集这么厉害的网站

[复制链接]
发表于 2019-5-20 09:25:52 | 显示全部楼层 |阅读模式
需要采集的网站 http://ggzy.xzsp.tj.gov.cn/jyxx/index_1.jhtml 是个列表  直接get 可以获取到数据!<a href="http://ggzy.xzsp.tj.gov.cn:80/jyxxcgjg/921893.jhtml" target="_blank">
上面是详细页面的连接地址!关键问题来了:
在网页中直接点这个地址.URL变成了 http://ggzy.xzsp.tj.gov.cn/jyxxcgjg/lT2qya3oMxf2KamI87wI4Q.jhtml,
而且是在浏览器中 输入http://ggzy.xzsp.tj.gov.cn:80/jyxxcgjg/921893.jhtml 返回403错误,
关键是我查询了baidu  ,上面显示的信息是收录了,
这个问题感觉很困惑!有谁知道吗 ?
 楼主| 发表于 2019-5-20 10:29:25 | 显示全部楼层
有个问题搞不懂的就是!URL鼠标点击可以打开!但是右键在新窗口打开就不行了!403错误.
发表于 2019-5-20 16:07:00 | 显示全部楼层
发表于 2019-5-20 16:08:07 | 显示全部楼层
 楼主| 发表于 2019-5-21 08:15:34 | 显示全部楼层
不是的,连接有效,但是必须鼠标点击,我设置了 Referer 也一样没用,点击连接以后URL是变了的
 楼主| 发表于 2019-5-21 08:17:03 | 显示全部楼层
还有问题是百度都收录了,没有完全屏蔽爬虫,这个真不知道了。。
发表于 2019-5-31 17:51:57 | 显示全部楼层
本帖最后由 lt11881 于 2019-5-31 18:01 编辑

js在页面执行
[JavaScript] 纯文本查看 复制代码
var srcs = CryptoJS.enc.Utf8.parse("文章id");var k = CryptoJS.enc.Utf8.parse("qnbyzzwmdgghmcnm");
var en = CryptoJS.AES.encrypt(srcs, k, {
    mode: CryptoJS.mode.ECB,
    padding: CryptoJS.pad.Pkcs7
});
var ddd = en.toString();
ddd = ddd.replace(/\//g, "^");
ddd = ddd.substring(0, ddd.length - 2);



ddd就是加密后的那一串


您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备17001017号-1)

GMT+8, 2019-8-26 15:23

© 2017-2018

快速回复 返回顶部 返回列表