http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 3247|回复: 4

[其他] httpHelper抓取百度搜索地址的问题

[复制链接]
发表于 2013-4-28 14:37:08 | 显示全部楼层 |阅读模式
现在百度搜索关键字,搜索出来的url列表都是加密重定向,比如搜索“苏飞”这个关键字,第三个结果的地址是这样:http://www.baidu.com/link?url=n8kQGJqjJ4zBBpC8yDF8xDh8vibi2lZjCGkIgkoSNd85O6l9TGtb
点击之后跳转的真实地址是:
http://www.cnblogs.com/sufei/

现在用httpHelper获取http://www.baidu.com/link?url=n8kQGJqjJ4zBBpC8yDF8xDh8vibi2lZjCGkIgkoSNd85O6l9TGtb的内容实际上是得不到的,能否在获取
http://www.baidu.com/link?url=n8kQGJqjJ4zBBpC8yDF8xDh8vibi2lZjCGkIgkoSNd85O6l9TGtb的内容跟获取
http://www.cnblogs.com/sufei/页面内容一样。


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2013-4-28 14:48:20 | 显示全部楼层
其实你这个问题就是对http://www.baidu.com/link?url=n8 ... GkIgkoSNd85O6l9TGtb进行解密的问题,HttpHelper本身是可以获取的的对吧。只是百度对Url进行了加密。

或者你直接请求他的地址进行解密也行
[code=csharp]HttpHelper http = new HttpHelper();  
HttpItem item = new HttpItem()  
{  
    URL = "http://www.baidu.com/link?url=oyoFGJqjJ4zBBpC8yDF8xDhiqDSn1JZjFWsHhEoSNd85PkV8Xil5q1knOHKojGKNNq",//URL     必需项  
    Method = "GET",//URL     可选项 默认为Get  
    Timeout = 100000,//连接超时时间     可选项默认为100000  
    ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000  
    IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写  
    Cookie = "",//字符串Cookie     可选项  
    UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型,版本,操作系统     可选项有默认值  
    Accept = "text/html, application/xhtml+xml, */*",//    可选项有默认值  
    ContentType = "text/html",//返回类型    可选项有默认值  
    Referer ="http://www.sufeinet.com",//来源URL     可选项  
    //Allowautoredirect = true,//是否根据301跳转     可选项  
    //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数  
    //Connectionlimit = 1024,//最大连接数     可选项 默认为1024  
    //Postdata = "username=sufei&pwd=sufeinet.com",//Post数据     可选项GET时不需要写  
    //ProxyIp = "192.168.1.105",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数  
    //ProxyPwd = "123456",//代理服务器密码     可选项  
    //ProxyUserName = "administrator",//代理服务器账户名     可选项  
    //ResultType = ResultType.String,//返回数据类型,是Byte还是String  
};  
HttpResult result = http.GetHtml(item);  
string html = result.Html;  [/code]

这样返回的Html如下
  1. <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">  
  2. <html><head>  
  3. <title>302 Found</title>  
  4. </head><body>  
  5. <h1>Found</h1>  
  6. <p>The document has moved <a href="http://baike.baidu.com/view/4524851.htm">here</a>.</p>  
  7. </body></html>  
复制代码
直接可以取出来的,这个你可以在线进行测试
tool.sufeinet.com
解密的方法我估计不太好能,在没有能出来之前可以先用这个,不过就是多几次请求

 楼主| 发表于 2013-4-28 16:26:30 | 显示全部楼层
站长苏飞 发表于 2013-4-28 14:48
其实你这个问题就是对http://www.baidu.com/link?url=n8kQGJqjJ4zBBpC8yDF8xDh8vibi2lZjCGkIgkoSNd85O6l9TG ...

记得获取这样的页面地址是不行的:http://www.baidu.com/link?url=oy ... 8Xil5q1knOHKojGKNNq

现在可以
发表于 2013-4-28 16:32:13 | 显示全部楼层
medal8 发表于 2013-4-28 16:26
记得获取这样的页面地址是不行的:http://www.baidu.com/link?url=oyoFGJqjJ4zBBpC8yDF8xDhiqDSn1JZjFWsH ...

如果只是为了跳转这样的是可行的,如果需要分析出来,可以使用我上面的方法,如果以后有破解方法了再交流
发表于 2015-3-28 18:37:48 | 显示全部楼层
楼主,现在有没有好点的办法可以获取搜索结果的真实链接,有的话,还望给上一段代码,谢谢
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-6-13 20:21

© 2014-2021

快速回复 返回顶部 返回列表