httpHelper抓取百度搜索地址的问题

medal8 · 发表于 2013-4-28 14:37:08

现在百度搜索关键字，搜索出来的url列表都是加密重定向，比如搜索“苏飞”这个关键字，第三个结果的地址是这样：http://www.baidu.com/link?url=n8kQGJqjJ4zBBpC8yDF8xDh8vibi2lZjCGkIgkoSNd85O6l9TGtb
点击之后跳转的真实地址是：
http://www.cnblogs.com/sufei/

现在用httpHelper获取http://www.baidu.com/link?url=n8kQGJqjJ4zBBpC8yDF8xDh8vibi2lZjCGkIgkoSNd85O6l9TGtb的内容实际上是得不到的，能否在获取
http://www.baidu.com/link?url=n8kQGJqjJ4zBBpC8yDF8xDh8vibi2lZjCGkIgkoSNd85O6l9TGtb的内容跟获取
http://www.cnblogs.com/sufei/页面内容一样。

站长苏飞 · 发表于 2013-4-28 14:48:20

其实你这个问题就是对http://www.baidu.com/link?url=n8 ... GkIgkoSNd85O6l9TGtb进行解密的问题，HttpHelper本身是可以获取的的对吧。只是百度对Url进行了加密。

或者你直接请求他的地址进行解密也行
[code=csharp]HttpHelper http = new HttpHelper();
HttpItem item = new HttpItem()
{
URL = "http://www.baidu.com/link?url=oyoFGJqjJ4zBBpC8yDF8xDhiqDSn1JZjFWsHhEoSNd85PkV8Xil5q1knOHKojGKNNq",//URL    必需项
Method = "GET",//URL    可选项默认为Get
Timeout = 100000,//连接超时时间    可选项默认为100000
ReadWriteTimeout = 30000,//写入Post数据超时时间    可选项默认为30000
IsToLower = false,//得到的HTML代码是否转成小写    可选项默认转小写
Cookie = "",//字符串Cookie    可选项
UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型，版本，操作系统    可选项有默认值
Accept = "text/html, application/xhtml+xml, */*",// 可选项有默认值
ContentType = "text/html",//返回类型可选项有默认值
Referer ="http://www.sufeinet.com",//来源URL    可选项
//Allowautoredirect = true,//是否根据３０１跳转    可选项
//CerPath = "d:\123.cer",//证书绝对路径    可选项不需要证书时可以不写这个参数
//Connectionlimit = 1024,//最大连接数    可选项默认为1024
//Postdata = "username=sufei&pwd=sufeinet.com",//Post数据    可选项GET时不需要写
//ProxyIp = "192.168.1.105",//代理服务器ID    可选项不需要代理时可以不设置这三个参数
//ProxyPwd = "123456",//代理服务器密码    可选项
//ProxyUserName = "administrator",//代理服务器账户名    可选项
//ResultType = ResultType.String,//返回数据类型，是Byte还是String
};
HttpResult result = http.GetHtml(item);
string html = result.Html;  [/code]

这样返回的Html如下

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<html><head>
<title>302 Found</title>
</head><body>
<h1>Found</h1>
<p>The document has moved <a href="http://baike.baidu.com/view/4524851.htm">here</a>.</p>
</body></html>

复制代码

直接可以取出来的，这个你可以在线进行测试
tool.sufeinet.com
解密的方法我估计不太好能，在没有能出来之前可以先用这个，不过就是多几次请求

medal8 · 发表于 2013-4-28 16:26:30

站长苏飞发表于 2013-4-28 14:48
其实你这个问题就是对http://www.baidu.com/link?url=n8kQGJqjJ4zBBpC8yDF8xDh8vibi2lZjCGkIgkoSNd85O6l9TG ...

记得获取这样的页面地址是不行的：http://www.baidu.com/link?url=oy ... 8Xil5q1knOHKojGKNNq

现在可以

站长苏飞 · 发表于 2013-4-28 16:32:13

medal8 发表于 2013-4-28 16:26
记得获取这样的页面地址是不行的：http://www.baidu.com/link?url=oyoFGJqjJ4zBBpC8yDF8xDhiqDSn1JZjFWsH ...

如果只是为了跳转这样的是可行的，如果需要分析出来，可以使用我上面的方法，如果以后有破解方法了再交流

音乐虫子 · 发表于 2015-3-28 18:37:48

楼主，现在有没有好点的办法可以获取搜索结果的真实链接，有的话，还望给上一段代码，谢谢

		自动登录	找回密码
密码			马上注册

[其他] httpHelper抓取百度搜索地址的问题