苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.3-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 536|回复: 0

[C#语言基础] 通过正则表达式来分析网站云商网(http://www.ynshangji.com/h738573/)联系方式

[复制链接]
发表于 2020-10-27 10:36:54 | 显示全部楼层 |阅读模式
通过正则表达式来分析网站云商网(http://www.ynshangji.com/h738573/)的页面联系方式

[C#] 纯文本查看 复制代码
  Thread pingTask = new Thread(new ThreadStart(delegate
            {
                //http://www.ynshangji.com/h738573/
                int s = Convert.ToInt32(txtsnumber.Text.Trim());
                int t = Convert.ToInt32(txtnumber.Text.Trim());
                int yy = Convert.ToInt32(txtnumber.Text.Trim());

                for (int i = s; i <= t; i++)
                {
                    txturl.Text = $"http://www.ynshangji.com/h{i.ToString()}/";

                    HttpHelper http = new HttpHelper();
                    HttpItem item = new HttpItem()
                    {
                        URL = txturl.Text.Trim()
                    };

                    HttpResult result = http.GetHtml(item);
                    richTextBox1.Text = result.Html;

                    string comname = Regex.Match(result.Html, "<li><i>公司名称</i>(.*?)</li>").Groups[1].Value.Trim().Replace(" ", string.Empty).Replace(" ", string.Empty);
                    richTextBox1.Text = $"企业名:{ comname}\r\n{richTextBox1.Text}";

                    string comtell = Regex.Match(result.Html, "<li><i>联系手机</i>(.*?)</li>").Groups[1].Value.Trim().Replace(" ", string.Empty);
                    richTextBox1.Text = $"联系电话:{ comtell}\r\n{richTextBox1.Text}";

                    if (string.IsNullOrWhiteSpace(comtell))
                    {
                        comtell = Regex.Match(result.Html, "<li><i>联系电话</i>(.*?)</li>").Groups[1].Value.Trim().Replace(" ", string.Empty);
                    }
                    string comaddress = Regex.Match(result.Html, "<li><i>公司地址</i>(.*?)</li>").Groups[1].Value.Trim().Replace("  ", string.Empty);
                    richTextBox1.Text = $"联系地址:{ comaddress}\r\n{richTextBox1.Text}";

                    //"duty":"\w+"
                    string comren = Regex.Match(result.Html, "<li><i>联系人</i>(.*?)</li>").Groups[1].Value.Trim().Replace(" ", string.Empty).Replace(" ", string.Empty);
                    richTextBox1.Text = $"联系人:{ comren}\r\n{richTextBox1.Text}";

                    try
                    {
                        if (string.IsNullOrWhiteSpace(comtell) || comtell.Contains("未提供") || comtell.Contains("合责约见"))
                        {
                            richTextBox1.Text += $"写入失败\r\n{ richTextBox1.Text}";
                        }
                        else
                        {
                            com_infoBLL infobll = new com_infoBLL();
                            com_info info = new com_info()
                            {
                                comname = comname,
                                fadingdaibiao = string.Empty,
                                email = string.Empty,
                                mobile = string.Empty,
                                zhuceaddress = comaddress,
                                unionid = txturl.Text,
                                sourcetype = 15,
                            };

                            if (infobll.Count("comname='" + comname + "'") > 0)
                            {
                                richTextBox1.Text = $"重复企业:\r\n{richTextBox1.Text}";
                            }
                            else
                            {
                                comname = Regex.Match(result.Html, "<li><i>公司名称</i>(.*?)</li>").Groups[1].Value.Trim().Replace(" ", string.Empty).Replace(" ", string.Empty);
                                richTextBox1.Text = $"企业名:{ comname}\r\n{richTextBox1.Text}";

                                comtell = Regex.Match(result.Html, "<li><i>联系手机</i>(.*?)</li>").Groups[1].Value.Trim().Replace(" ", string.Empty);
                                richTextBox1.Text = $"联系电话:{ comtell}\r\n{richTextBox1.Text}";
                                if (string.IsNullOrWhiteSpace(comtell))
                                {
                                    comtell = Regex.Match(result.Html, "<li><i>联系电话</i>(.*?)</li>").Groups[1].Value.Trim().Replace(" ", string.Empty);
                                }

                                comaddress = Regex.Match(result.Html, "<li><i>公司地址</i>(.*?)</li>").Groups[1].Value.Trim().Replace("  ", string.Empty);
                                richTextBox1.Text = $"联系地址:{ comaddress}\r\n{richTextBox1.Text}";

                                //"duty":"\w+"
                                comren = Regex.Match(result.Html, "<li><i>联系人</i>(.*?)</li>").Groups[1].Value.Trim().Replace(" ", string.Empty).Replace(" ", string.Empty);
                                richTextBox1.Text = $"联系人:{ comren}\r\n{richTextBox1.Text}";

//写入数据库
                                    richTextBox1.Text = $"联系方式{id}写入数据库状态:{mobilebll.insert(mobileinfo)} 写入也成功\r\n{richTextBox1.Text}";
                                }
                            }
                        }
                    }
                    catch (Exception ex)
                    {
                        richTextBox1.Text = ex.Message + richTextBox1.Text;
                    }
                    //Thread.Sleep(2000);
                }
            }));
            pingTask.Start();

找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备17001017号-1)

GMT+8, 2020-12-4 21:19

© 2014-2021

快速回复 返回顶部 返回列表