http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 26636|回复: 44

[抓取] HttpWebResponse获取网页HTML

[复制链接]
发表于 2013-4-15 14:14:03 | 显示全部楼层 |阅读模式
本帖最后由 kidsoft 于 2013-4-15 14:15 编辑

在soso搜索引擎中,搜索结果如出现百度百科,搜搜百科,出现|的时候,|后面的内容都无法获取回来。


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2013-4-15 14:19:19 | 显示全部楼层
楼主的图片看不到啊,从原网站下载之后上传一下吧
 楼主| 发表于 2013-4-15 14:21:31 | 显示全部楼层
 楼主| 发表于 2013-4-15 14:22:49 | 显示全部楼层
现在能看到图片嘛?我这边都能看到
发表于 2013-4-15 14:23:46 | 显示全部楼层
kidsoft 发表于 2013-4-15 14:21

QQ的图片不让直接引用的,你上传的图片先自己看看能不能看见,我这边确实看不到图片,你图片另存为之后直接上传一张吧这看不到的
 楼主| 发表于 2013-4-15 14:24:29 | 显示全部楼层
我上传的图片我自己能看见的。我找找别的什么地方能上传图片
 楼主| 发表于 2013-4-15 14:30:09 | 显示全部楼层
 楼主| 发表于 2013-4-15 14:35:55 | 显示全部楼层
图片见附件!
QQ截图20130415141146.png
发表于 2013-4-15 14:53:38 | 显示全部楼层
这个可以获取到啊,http://tool.sufeinet.com/你直接在线测试就能看到Html信息,应该是你取的时候没有取对吧。你再看看
上传图片有专门的控件,
QQ截图20130415145309.jpg
你单击高级就有了,让编辑器放大
 楼主| 发表于 2013-4-15 16:17:28 | 显示全部楼层
[code=csharp]private void button1_Click(object sender, EventArgs e)
        {
            var txt = GetHtml();
            richTextBox1.AppendText(txt);
        }

HttpHelper.cs复制使用的,未做任何改动!

        private string GetHtml()
        {
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = "http://www.soso.com/q?pid=s.idx&cid=s.idx.se&w=%C9%CF%BA%A3%BA%E7%C7%C5%D2%BD%D4%BA",//URL     必需项  
                Method = "GET",//URL     可选项 默认为Get  
                Timeout = 100000,//连接超时时间     可选项默认为100000  
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000  
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写  
                Cookie = "",//字符串Cookie     可选项  
                UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型,版本,操作系统     可选项有默认值  
                Accept = "text/html, application/xhtml+xml, */*",//    可选项有默认值  
                ContentType = "text/html",//返回类型    可选项有默认值  
                Referer = "http://www.sufeinet.com",//来源URL     可选项  
                //Allowautoredirect = true,//是否根据301跳转     可选项  
                //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数  
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024  
                //Postdata = "username=sufei&pwd=sufeinet.com",//Post数据     可选项GET时不需要写  
                //ProxyIp = "192.168.1.105",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数  
                //ProxyPwd = "123456",//代理服务器密码     可选项  
                //ProxyUserName = "administrator",//代理服务器账户名     可选项  
                //ResultType = ResultType.String,//返回数据类型,是Byte还是String  
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;
            byte[] b = result.ResultByte;
            return html;
        }[/code]
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-5-3 22:47

© 2014-2021

快速回复 返回顶部 返回列表