http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 4147|回复: 6

[其他] 请问:怎么知道一个网页中的链接是否和该网页是同一个网站的呢?

[复制链接]
发表于 2015-1-22 20:52:09 | 显示全部楼层 |阅读模式
1金钱
怎么知道一个网页中的链接是否和该网页是同一个网站的呢?

在尝试做网络爬虫的时候,想先限定一个网站内的,可是怎么限定呢?直接用url好像不太行。
请教一下,有什么好办法吗?



1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2015-1-22 21:29:58 | 显示全部楼层
host
回复

使用道具 举报

发表于 2015-1-22 22:24:11 | 显示全部楼层
楼上正解
回复

使用道具 举报

 楼主| 发表于 2015-1-23 08:03:30 | 显示全部楼层
比如esf.bengbu.fang.com/housing/和esf.hrb.fang.com/housing/都是一个大域名下的,但对于我来说,还想进一步区分,把它们都认为是独立的.在esf.bengbu.fang.com/housing/页面上有jindinghuangzhuanghy.fang.com/xiangqing/链接,其上又有jindinghuangzhuanghy.fang.com/chushou/.从内容上看,确实是属于bengbu

而esf.hrb.fang.com/housing/页面上有
shanshuiwenyuanhf.fang.com/链接,其上又有shanshuiwenyuanhf.fang.com/chushou/,从内容上看,确实是属于hrb

那么怎么区分限定它们的范围? 比如我开始就想针对esf.hrb.fang.com/housing/
不想处理esf.bengbu.fang.com/housing/及其子链接 jindinghuangzhuanghy.fang.com/chushou/ ,而包含shanshuiwenyuanhf.fang.com/chushou/.
是不是不必要呢? 因为刚开始练手,不太知道.
回复

使用道具 举报

发表于 2015-1-23 08:22:57 | 显示全部楼层
你了解一下Host就明白了,想分析Url得想了解他的组成部分,和他的概念
回复

使用道具 举报

 楼主| 发表于 2015-1-23 09:57:53 | 显示全部楼层
我想了一下,想这样做的本质原因是既想访问次数能分流,同时又尽可能的把搜索限定在目标范围内. 这里我想当然的认为如果在不同的服务器上,访问次数的频率、数量的限制应该是不互相干涉的,实际上这种想法对不对我也不确切的知道,具体是怎么回事?

谢谢站长指点!!
回复

使用道具 举报

发表于 2015-1-23 10:47:55 | 显示全部楼层
看过帖子回复一下是个好习惯
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-5-10 19:49

© 2014-2021

快速回复 返回顶部 返回列表