http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 6101|回复: 2

[咨询站长] 到了最后一步时候 使用登录成功的cookie直接传入无法正常抓取内容 手动设置却...

[复制链接]
发表于 2014-6-14 01:26:26 | 显示全部楼层 |阅读模式
1金钱
本帖最后由 温柔地杀了它 于 2014-6-14 01:34 编辑

如下代码 登录成功可以观察到 登录成功的cookiestring="HOSUPPORT=1; BAIDUID=7E20E2535A9733EB2783FA1E1E90BAB8:FG=1;BDSVRTM=0;H_PS_PSSID=6192_6552_1425_5225_6995_6757_6506_7057_7038_4759_6017_6998_6930_6836_7051_6983_7107;BDUSS=VphWXlwRDBrLWh4c2JISFRsUWpNOW4xQ3BrYlJINDVOc0dTdlE3ZmFnT3B2OEpUQVFBQUFBJCQAAAAAAAAAAAEAAACGSXcKc2hpamlheGluMzE4MAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAKkym1OpMptTO;";
如果将这里的cookiestring保存到SQL再取出来进行最后一步的GET操作 返回是OK
或者直接手动设置最后一步的Cookie为cookiestring 返回也是OK
但是如果直接传入Cookie = cookiestring返回的结果却是 ERROR
【十分不解:cookiestring都是一样成功可用的,为什么直接传入不可用,偶尔一次半次可以返回OK 但是基本上每次都是ERROR,而手动设置或者保存cookiestring再取出来使用,每次都是OK,所以非常不解】

            
[C#] 纯文本查看 复制代码
      HttpHelper http = new HttpHelper();
                    HttpItem item = new HttpItem()
                    {
                        URL = "http://www.baidu.com/",//URL     必需项   
                        Encoding = System.Text.Encoding.GetEncoding("utf-8"),//URL     可选项 默认为Get   
                        Method = "get",//URL     可选项 默认为Get   
                        IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                        Cookie = "",//字符串Cookie     可选项   
                        Referer = "",//来源URL     可选项   
                        Postdata = "",//Post数据     可选项GET时不需要写   
                        Timeout = 100000,//连接超时时间     可选项默认为100000   
                        ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                        UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                        ContentType = "application/x-www-form-urlencoded",//返回类型    可选项有默认值   
                        Allowautoredirect = false,//是否根据301跳转     可选项   
                        ResultType = ResultType.String
                    };
                    HttpResult result = http.GetHtml(item);
                    string html = result.Html;
                    string cookie = result.Cookie;
                    item = new HttpItem()
                    {
                        URL = "http://passport.baidu.com/v2/api/?getapi&tpl=mn&apiver=v3&tt=1402545719625&class=login&logintype=dialogLogin&callback=bd__cbs__secnga",
                        Encoding = System.Text.Encoding.GetEncoding("utf-8"),//URL     可选项 默认为Get   
                        Method = "get",//URL     可选项 默认为Get   
                        IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                        Cookie = cookie,//字符串Cookie     可选项   
                        Referer = "",//来源URL     可选项   
                        Postdata = "",//Post数据     可选项GET时不需要写   
                        Timeout = 100000,//连接超时时间     可选项默认为100000   
                        ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                        UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                        ContentType = "application/x-www-form-urlencoded",//返回类型    可选项有默认值   
                        Allowautoredirect = false,//是否根据301跳转     可选项   
                        ResultType = ResultType.String
                    };
                    result = http.GetHtml(item);
                    html = result.Html;
                    string tooken = RegexHelper.regex_string_one("(?<=\"token\" : \").*?(?=\")", html);
                    cookie = result.Cookie;
                    cookie = cookie + "; " + item.Cookie;
                    string cookiestring = string.Empty;
                    foreach (CookieItem s in HttpCookieHelper.GetCookieList(cookie))
                    {
                        if (s.Key.Contains("BAIDUID") || s.Key.Contains("BDSVRTM") || s.Key.Contains("H_PS_PSSID") || s.Key.Contains("HOSUPPORT"))
                        {
                            cookiestring = cookiestring + HttpCookieHelper.CookieFormat(s.Key, s.Value);
                        }
                    }
                    item = new HttpItem()
                    {
                        URL = "http://passport.baidu.com/v2/api/?login",//URL     必需项   
                        Encoding = System.Text.Encoding.GetEncoding("utf-8"),//URL     可选项 默认为Get   
                        Method = "post",//URL     可选项 默认为Get   
                        IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                        Cookie = cookiestring,//字符串Cookie     可选项   
                        Referer = "http://www.baidu.com/",//来源URL     可选项   
                        Postdata = "staticpage=http%3A%2F%2Fhi.baidu.com%2Fcom%2Fshow%2Fproxy%3Ffor%3Dv3_pass_login&charset=utf-8&token=" + tooken + "&tpl=qing&apiver=v3&tt=1372661616626&codestring=&isPhone=false&safeflg=0&u=http%3A%2F%2Fhi.baidu.com%2F&username=shijiaxin3180&password=test123456&verifycode=&mem_pass=on&ppui_logintime=165501&callback=parent.bd__pcbs__hggm3p",//Post数据     可选项GET时不需要写   
                        Timeout = 100000,//连接超时时间     可选项默认为100000   
                        ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                        UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                        ContentType = "application/x-www-form-urlencoded",//返回类型    可选项有默认值   
                        Allowautoredirect = false,//是否根据301跳转     可选项   
                        ResultType = ResultType.String
                    };
                    result = http.GetHtml(item);
                    html = result.Html;
                    if (html.Contains("captchaservice"))
                    {
                        string codeurl = html.Substring(html.IndexOf("captchaservice"));
                        codeurl = codeurl.Remove(codeurl.IndexOf("&"));
                        item = new HttpItem()
                        {
                            URL = "https://passport.baidu.com/cgi-bin/genimage?" + codeurl,//URL     必需项   
                            Encoding = System.Text.Encoding.GetEncoding("utf-8"),//URL     可选项 默认为Get   
                            Method = "get",//URL     可选项 默认为Get   
                            IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                            Cookie = cookiestring,//字符串Cookie     可选项   
                            Referer = "http://www.baidu.com/",//来源URL     可选项   
                            Timeout = 100000,//连接超时时间     可选项默认为100000   
                            ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                            UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",
                            ContentType = "application/x-www-form-urlencoded",//返回类型    可选项有默认值   
                            Allowautoredirect = false,//是否根据301跳转     可选项     
                            ProxyIp = "",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数   
                            ResultType = ResultType.Byte
                        };
                        result = http.GetHtml(item);
                        Image codeimg = byteArrayToImage(result.ResultByte);
                        code c = new code();
                        c.codeimg = codeimg;
                        c.cookie = cookiestring;
                        c.codeurl = codeurl;
                        c.ShowDialog();
                        item = new HttpItem()
                        {
                            URL = "http://passport.baidu.com/v2/api/?login",//URL     必需项   
                            Encoding = System.Text.Encoding.GetEncoding("utf-8"),//URL     可选项 默认为Get   
                            Method = "post",//URL     可选项 默认为Get   
                            IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                            Cookie = cookiestring,//字符串Cookie     可选项   
                            Referer = "http://www.baidu.com/",//来源URL     可选项   
                            Postdata = "staticpage=http%3A%2F%2Fhi.baidu.com%2Fcom%2Fshow%2Fproxy%3Ffor%3Dv3_pass_login&charset=utf-8&token=" + tooken + "&tpl=qing&apiver=v3&tt=1372661616626&codestring=" + codeurl + "&isPhone=false&safeflg=0&u=http%3A%2F%2Fhi.baidu.com%2F&username=shijiaxin3180&password=test123456&verifycode=" + c.codestr + "&mem_pass=on&ppui_logintime=165501&callback=parent.bd__pcbs__hggm3p",//Post数据     可选项GET时不需要写   
                            Timeout = 100000,//连接超时时间     可选项默认为100000   
                            ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                            UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                            ContentType = "application/x-www-form-urlencoded",//返回类型    可选项有默认值   
                            Allowautoredirect = false,//是否根据301跳转     可选项      
                            ProxyIp = "",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数      
                            ResultType = ResultType.String
                        };
                        result = http.GetHtml(item);
                    }
                    foreach (CookieItem s in HttpCookieHelper.GetCookieList(result.Cookie))
                    {
                        if (s.Key.Contains("BAIDUID") || s.Key.Contains("H_PS_PSSID") || s.Key.Contains("BDUSS"))
                        {
                            cookiestring = cookiestring + HttpCookieHelper.CookieFormat(s.Key, s.Value);
                        }
                    }
                    item = new HttpItem()
                    {
                        URL = "http://tieba.baidu.com/home/main?un=shijiaxin3180&fr=home",//URL     必需项   
                        Encoding = System.Text.Encoding.GetEncoding("gb2312"),//URL     可选项 默认为Get   
                        Method = "get",//URL     可选项 默认为Get   
                        IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                        Cookie = cookiestring,
                        //Cookie = "HOSUPPORT=1; BAIDUID=7E20E2535A9733EB2783FA1E1E90BAB8:FG=1;BDSVRTM=0;H_PS_PSSID=6192_6552_1425_5225_6995_6757_6506_7057_7038_4759_6017_6998_6930_6836_7051_6983_7107;BDUSS=VphWXlwRDBrLWh4c2JISFRsUWpNOW4xQ3BrYlJINDVOc0dTdlE3ZmFnT3B2OEpUQVFBQUFBJCQAAAAAAAAAAAEAAACGSXcKc2hpamlheGluMzE4MAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAKkym1OpMptTO;",//字符串Cookie     可选项   
                        Referer = "http://www.baidu.com/",//来源URL     可选项   
                        Postdata = "",//Post数据     可选项GET时不需要写   
                        Timeout = 100000,//连接超时时间     可选项默认为100000   
                        ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                        UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                        ContentType = "application/x-www-form-urlencoded",//返回类型    可选项有默认值   
                        Allowautoredirect = false,//是否根据301跳转     可选项   
                        ResultType = ResultType.String
                    };
                    result = http.GetHtml(item);
                    t.tiebazhuyehtml = result.Html;
                    if (t.tiebazhuyehtml.Contains("我在百度"))
                    {
                              string jieguo="OK";
                    }
                   else
                   {
                           string jieguo="ERROR";
                   }



1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2014-6-14 06:07:47 | 显示全部楼层
返回的cookie还包括cookie其他的一些属性值,要处理一下
回复

使用道具 举报

 楼主| 发表于 2014-6-14 08:47:21 | 显示全部楼层
本帖最后由 温柔地杀了它 于 2014-6-14 08:51 编辑

testa.png
Andy_Vane 发表于 2014-6-14 06:07
返回的cookie还包括cookie其他的一些属性值,要处理一下

返回的cookie已经是处理过后的了啊 而且直接使用返回的cookie值保存到文本 或者复制下来 到测试工具 来使用都可以正常获取 不能说cookie有问题吧!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-5-13 22:40

© 2014-2021

快速回复 返回顶部 返回列表