http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

12
返回列表 发新帖
楼主: 站长苏飞

[框架] 推荐一个将中文转换成拼音的组件类npinyin

[复制链接]
 楼主| 发表于 2014-1-24 16:24:54 | 显示全部楼层
xiaomu 发表于 2014-1-24 16:10
缺很多汉字。大工程..

字库的事再说吧,没你想的那么夸张,有多少人能用到的,又不做汉字识别,最多是在查询的时候提一个首字母,或者是搜索时转一下。能识别就行了,我的工具主要是方便开发,生成代码。字库的事,谁想搞识别谁整理吧


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2014-1-24 17:03:21 | 显示全部楼层
本帖最后由 xiaomu 于 2014-1-24 17:13 编辑
站长苏飞 发表于 2014-1-24 16:24
字库的事再说吧,没你想的那么夸张,有多少人能用到的,又不做汉字识别,最多是在查询的时候提一个首字母 ...

我稍稍优化了下。
[C#] 纯文本查看 复制代码
    /// <summary>
    /// 过滤器规则
    /// </summary>
    public enum Filter
    {
        /// <summary>
        /// 过滤符号
        /// </summary>
        Symbol,
        /// <summary>
        /// 过滤空格
        /// </summary>
        Blank,
        /// <summary>
        /// 过滤符号与空格
        /// </summary>
        SymbolAndBlank,
        /// <summary>
        /// 不过滤
        /// </summary>
        None
    }


[C#] 纯文本查看 复制代码
        /// <summary>
        /// 过滤文本
        /// </summary>
        /// <param name="text">文本</param>
        /// <param name="filter">过滤规则</param>
        /// <returns>返回文本</returns>
        private static string FilterText(string text, Filter filter)
        {
            if (text == null || text == string.Empty) { return ""; }
            text = text.Trim();
            if (filter==Filter.Symbol)
            {
                text = System.Text.RegularExpressions.Regex.Replace(text, @"[^a-zA-Z0-9\u4e00-\u9fa5\s]", "");//剔除特殊符号
            }
            else if (filter == Filter.Blank)
            {
                text = System.Text.RegularExpressions.Regex.Replace(text, "([  ]+)", "");//剔除空格
            }
            else if (filter == Filter.SymbolAndBlank)
            {
                text = System.Text.RegularExpressions.Regex.Replace(text, @"[^a-zA-Z0-9\u4e00-\u9fa5\s]", "");//剔除特殊符号
                text = System.Text.RegularExpressions.Regex.Replace(text, "([  ]+)", "");//剔除空格
            }            
            return text;
        }



[C#] 纯文本查看 复制代码
        /// <summary>
        /// 取中文文本的拼音
        /// </summary>
        /// <param name="text">编码为UTF8的文本</param>
        /// <returns>返回中文文本的拼音</returns> 
        public static string GetPinyin(string text, Filter filter)
        {
            text = FilterText(text, filter);
            StringBuilder sbPinyin = new StringBuilder();
            for (var i = 0; i < text.Length; ++i)
            {
                string py = GetPinyin(text[i]);
                if (py != "") sbPinyin.Append(py);
            }

            return sbPinyin.ToString().Trim();
        }


发表于 2014-8-19 17:09:23 | 显示全部楼层
挺厉害呀。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-4-28 16:15

© 2014-2021

快速回复 返回顶部 返回列表