http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 3143|回复: 5

[其他] 关于网站友情链接

[复制链接]
发表于 2013-4-22 14:09:07 | 显示全部楼层 |阅读模式
飞哥这里有没有比较有效的检测友情链接的方法或者正则啊?

因为大多数网站友情链接的格式都不一样,一直找不到一个合适的方法。。

我的初步思路是这样的:

1,取出网站所有链接。
2,去掉包含本域名的链接。
3,去掉包含二级目录的链接。

1、2都好办,3的话我还没有一个好的思路。。(PS:我们论坛右边的回顶部、到底部的那一块中,到底部代码有错,点过之后也是到顶部了。。)



1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2013-4-22 14:21:47 | 显示全部楼层
回顶部这块你说的是那个浏览器有问题
取现本站的域名 sufeinet.com  带www的也是一个二级域名,域名是不带www的部分才叫域名,你只要取出这部分就可以了,直接连带WWw和不带的都删除了,这样就可以达到你的效果了。另外还在判断是否加了http://或者以它开头,否则也不是
 楼主| 发表于 2013-4-22 14:34:28 | 显示全部楼层
360极速浏览器(极速模式)

我的意思是可能链接的有其他网站的二级目录,像新闻页之类的,那种的话也应该筛选掉吧。。

域名那个我明白,不过 网站发布之后貌似都是包含http://的吧?
发表于 2013-4-22 14:40:07 | 显示全部楼层
 ̄itˊsme。 发表于 2013-4-22 14:34
360极速浏览器(极速模式)

我的意思是可能链接的有其他网站的二级目录,像新闻页之类的,那种的话也应该 ...

不带,你不写就不会带,那只是在浏览器里看着带,你获取源码时是不带的,
如果你检查的是友情连接就不要去二级的,如果你检查的是首页友情连接那就要去掉了,这个也好办,查找一个就没有/符号就行了
 楼主| 发表于 2013-4-23 09:21:05 | 显示全部楼层
站长苏飞 发表于 2013-4-22 14:40
不带,你不写就不会带,那只是在浏览器里看着带,你获取源码时是不带的,
如果你检查的是友情连接就不要 ...

嗯嗯,好的,灰常感谢。。
发表于 2013-4-23 09:22:39 | 显示全部楼层
 ̄itˊsme。 发表于 2013-4-23 09:21
嗯嗯,好的,灰常感谢。。

link.7c.com这是我以前写的,你可以在线测试
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-5-5 10:44

© 2014-2021

快速回复 返回顶部 返回列表