http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 6805|回复: 11

[反馈建议] 万能框架Allowautoredirect的Bug

[复制链接]
发表于 2015-3-13 00:58:00 | 显示全部楼层 |阅读模式
万能框架使用Allowautoredirect后,从header的localtion中提取的url如果是以/开头,而不是以http开头的地址时,就会出现错误。附我自己修复Bug方法
internal HttpResult GetHtml(HttpItem item)中

item.URL = html.RedirectUrl;
改为
if (html.RedirectUrl.IndexOf("http") > -1)
    item.URL = html.RedirectUrl;
else
    item.URL = new Uri(new Uri(item.URL), html.RedirectUrl).AbsoluteUri;

本帖被以下淘专辑推荐:



1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
 楼主| 发表于 2015-3-13 01:04:51 | 显示全部楼层
另外遇见一个很变态的网站,连跳好几次,每次都有cookie,貌似现在的框架,只能获取一次301的cookie吧,能否实现无论跳多少次都能获取到cookie呢?
发表于 2015-3-13 08:51:09 | 显示全部楼层
只要有返回都能获取


这个确实是Bug,
感谢你的建议,我尽快修复一下。
发表于 2015-3-13 09:33:53 | 显示全部楼层
楼主,好犀利~~~支持下。
 楼主| 发表于 2015-3-13 10:48:28 | 显示全部楼层
第一个页面有set-cookie,然后301到第二个页面,有另一个set-cookie,然后第二个的set-cookie会把第一个页面的set-cookie给替换了吧?
 楼主| 发表于 2015-3-13 11:00:02 | 显示全部楼层
                    item.Method = "GET";
                    if (item.ResultCookieType == ResultCookieType.String)
                    {
                        item.Cookie = html.Cookie;
                    }
                    else
                    {
                        item.CookieCollection = html.CookieCollection;
                    }
发表于 2015-3-13 11:04:23 | 显示全部楼层
小鱼児 发表于 2015-3-13 11:00
item.Method = "GET";
                    if (item.ResultCookieType == ResultCoo ...

是的替换了。
 楼主| 发表于 2015-3-13 11:08:08 | 显示全部楼层
那还是只能获取到最后一个跳转的cookie而不是完整的cookie啊。。。
发表于 2015-3-13 11:10:36 | 显示全部楼层
小鱼児 发表于 2015-3-13 11:08
那还是只能获取到最后一个跳转的cookie而不是完整的cookie啊。。。

通常的跳转都是直接覆盖的,如果是合并的话怎么去确定那个Cookie需要,那个不需要,这样就需要引擎来区分了。这个暂时还支持不了。
发表于 2015-3-13 11:13:30 | 显示全部楼层
这个我在升级之前做下全面的测试吧,现在猜测意义不大。
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-4-29 06:55

© 2014-2021

快速回复 返回顶部 返回列表