http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 22458|回复: 10

[求助] 抓取的网页有跳转问题,不知如何下手,求助!!!!!!

[复制链接]
发表于 2013-10-11 09:12:21 | 显示全部楼层 |阅读模式
站长求助!!!!!!!!!!!!!!!!!!!!!!!!!
@站长苏飞
网址是:http://www.yydy.com/dyxt/main.aspx

登录账号:cargo,密码:000000
提单号:HLCUTA1130872592
我想要提取的内容是:http://www.yydy.com/dyxt/query/ExDetailByBill.aspx?s_ref=1308044121下的内容
+ 0.248                4                2.391        200        134185        752      
GET      
  html        http://www.yydy.com/dyxt/query/E ... px?s_ref=1308044121
+ 0.144                2                0.103        302        482        755        
GET        
Redirect to /dyxt/query/ExDetailByBill.aspx?s_ref=1308044121      
http://www.yydy.com/dyxt/query/E ... no=HLCUTA1130872592
+ 0.000                2                0.144        302        488        1410      
  POST        Redirect to /dyxt/query/ExportByBill.aspx?s_no=HLCUTA1130872592      
  http://www.yydy.com/dyxt/query/ExportUsual.aspx


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
 楼主| 发表于 2013-10-11 09:15:26 | 显示全部楼层
站长,非常感谢你分享的help类,之前采集我用的没问题,就是这个网站有问题,登录有跳转、查询的提单号网页也有跳转,实在不知如何下手
发表于 2013-10-11 09:24:56 | 显示全部楼层
fying929 发表于 2013-10-11 09:15
站长,非常感谢你分享的help类,之前采集我用的没问题,就是这个网站有问题,登录有跳转、查询的提单号网页 ...

禁止它跳转,捕获链接后再正常请求,一个道理嘛。

 楼主| 发表于 2013-10-11 09:30:10 | 显示全部楼层
cload 发表于 2013-10-11 09:24
禁止它跳转,捕获链接后再正常请求,一个道理嘛。

能说具体点吗,,我用飞哥的助手选了禁止跳转也不行
发表于 2013-10-11 09:31:56 | 显示全部楼层
应该有用啊。
allowautoredirect=false?
上面这句加了?(拼写不一定正确)
 楼主| 发表于 2013-10-11 09:32:46 | 显示全部楼层
cload 发表于 2013-10-11 09:31
应该有用啊。
allowautoredirect=false?
上面这句加了?(拼写不一定正确)

好的  先谢谢你   我试试{:soso_e100:}
发表于 2013-10-11 09:42:45 | 显示全部楼层
你没发现你发的图片没有显示吗。你发本地路径怎么会显示呢,要把图片上传上来,单击高级模式可以上传图片,另外你有问题是什么,你光说需求没有说出来你的问题呀
 楼主| 发表于 2013-10-11 09:55:18 | 显示全部楼层
cload 发表于 2013-10-11 09:31
应该有用啊。
allowautoredirect=false?
上面这句加了?(拼写不一定正确)

非常感谢你的帮助解决了:
http://www.yydy.com/dyxt/query/E ... no=HLCUTA1130872592
我又重新分析了下,还是要勾上跳转的
代码:
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = "http://www.yydy.com/dyxt/query/ExportByBill.aspx?s_no=HLCUTA1130872592",//URL     必需项   
                Encoding = System.Text.Encoding.GetEncoding( "utf-8"),//URL     可选项 默认为Get   
                Method = "get",//URL     可选项 默认为Get   
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                Cookie = "ASP.NET_SessionId=szsfqa55tiwuc02io0qzbq45; ASPSESSIONIDSCCBQTBB=LJEJIOGDFGAIMIBOPOBAELCF; popped=yes",//字符串Cookie     可选项   
                Referer ="",//来源URL     可选项   
                Postdata = "",//Post数据     可选项GET时不需要写   
                Timeout = 100000,//连接超时时间     可选项默认为100000   
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT6.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                ContentType = "application/x-www-form-urlencoded",//返回类型    可选项有默认值   
                Allowautoredirect = true,//是否根据301跳转     可选项   
                //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数   
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024   
                ProxyIp = "",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数   
                //ProxyPwd = "123456",//代理服务器密码     可选项   
                //ProxyUserName = "administrator",//代理服务器账户名     可选项   
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;



 楼主| 发表于 2013-10-11 09:58:48 | 显示全部楼层
站长苏飞 发表于 2013-10-11 09:42
你没发现你发的图片没有显示吗。你发本地路径怎么会显示呢,要把图片上传上来,单击高级模式可以上传图片, ...

老大解决了   感谢你的提醒   我描述的确实不清不楚    就是我要抓取的网页内容因为跳转问题url要取另一个
发表于 2013-10-11 09:59:29 | 显示全部楼层
哦好的,真快,我发完帖子就发现自己在7楼了,呵呵
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-5-4 13:00

© 2014-2021

快速回复 返回顶部 返回列表