http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 5764|回复: 2

[HttpHelper] C#爬虫抓取到数据入库sqlite本地, 如何在本地库建立索引?

[复制链接]
发表于 2015-3-6 15:56:18 | 显示全部楼层 |阅读模式
1金钱
本帖最后由 我是MT 于 2015-3-6 15:58 编辑

项目背景: 是这样子的, 我写了一个采集工具 , 每次采集比如 1万条数据入库考虑是否重复 .  比如查询 url .是不是在库里面重复出现,如果已经有了就不要入库了.  我下面画的图, 就是一个典型案例. 2015-03-06_154535.jpg
比如说我在N久之前采集了一条数据 ("华为6" 的这条数据) 已经在sqlite数据库(本地库)里面了. 现在我不小心,(因为是随机爬虫) 又爬到了这条数据 .想要入库的时候 . 发现库里面已经有这个重复URL了(如上图所示). 这条数据就不入库了. 包括 商品名称, 价格 销量的一整条数据 .那么关于如何建立索引的一系列问题来了:

问题一: C#使用本地数据库,比如sqlite , sqlserver  的时候如何建立索引 ? 还是说C#根据不同的库 , 建立索引的方式和方法都会不同 .

问题二:C#每次建立数据库索引, 都需要花费很长的时间吗?

问题三:如果采用云存储的方式,  我想用C# + Mysql 数据库的方式建立数据索引 .每次sql查询在本机发送到云端Mysql进行.所以不同的库建立索引的机制是否不同. 还是说根据语言来 . C#建立索引的机制都是一样的?

好了,就是上面的3个问题. 因为 我不想采集重复的数据. 所以暂时想到这么个办法. 但对于C#的数据库索引比较陌生, 还望高手解答.






1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2015-3-6 16:14:23 | 显示全部楼层
索引只需要在数据库创建一次就行了,以后有数据时数据库 会自动更新。和用什么语言没有关系
回复

使用道具 举报

 楼主| 发表于 2015-3-6 17:18:02 | 显示全部楼层
站长苏飞 发表于 2015-3-6 16:14
索引只需要在数据库创建一次就行了,以后有数据时数据库 会自动更新。和用什么语言没有关系

这样子的啊 ,, 那就放心了.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-5-18 00:52

© 2014-2021

快速回复 返回顶部 返回列表