http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 3075|回复: 4

[学生提问] 请教关于采集网页JS加载后的页面源码问题。

[复制链接]
发表于 2014-8-8 09:18:53 | 显示全部楼层 |阅读模式
1金钱
首先感谢站长提供这么好的一个类,最近使用HttpHelper后发现采集这一块做事顺当了很多。
但是也遇到一个目前或之后新的一个趋势,动态加载页面数据。这样的采集如何做到?
目前我认为这个类获得的页面源码都是静态页面。

目前的主流网站都是采用加载JS来渲染页面数据,就是重新刷新DOM来加载显示数据。
这部分数据是通过Ajax或嵌套Frame后执行相关的交叉操作完成的。
而我不想通过拉个类似的webBrowser来加载再处理数据,性能上差了去了。
所以在此向各位讨教一二,先谢过。



1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2014-8-8 09:56:26 | 显示全部楼层
这个相当于是又一次HTTp请求,而Httphelper是单一请求的,所以你需要根据要求去单独请求Ajax或者是Iframe页面才能获取完整数据,
回复

使用道具 举报

 楼主| 发表于 2014-8-8 10:16:49 | 显示全部楼层
、感谢回复。
我是最近想采集qunar.com中的票价信息。
当然用控件加载是可以完成的。
用wireshark抓包,都是只能抓到主请求页面的GET。
但是Frame中的请求不会被拦截。所以比较头痛。
其他网站返回Json或XML都可以被分析。
这网站……
回复

使用道具 举报

发表于 2014-8-8 10:17:54 | 显示全部楼层
使用个抓包工具应该可以抓到,比如Firbug,或者是Finder2
回复

使用道具 举报

 楼主| 发表于 2014-8-8 13:54:14 | 显示全部楼层
再次尝试找了4小时,一无所获,压力山大哇。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-4-29 18:47

© 2014-2021

快速回复 返回顶部 返回列表