返回首页
当前位置: 主页 > Excel教程 > Excel下载 >

Excel制作的【中文语义分词工具】小程序 免费下载

软件类型:国产软件 授权方式:共享软件 界面语言:简体中文 软件大小:未知 运行环境:Win2003,WinXP,Win2000,Win9X 软件等级:★★★☆☆ 发布时间:2013-12-09
软件介绍

中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
 

中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

SCWS是Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。

现在这个Excel自定义函数工具是利用SCWS分词引擎所开发的一个Excel版的在线分词工具,可以用函数自动实现对中文字符串的分词,并且支持了多种选项参数。其中包括:

Target:指定目标字符串,可以是字符串对象或单元格引用。

Multi:分词选项,数字1~4。可省略。

1,最短词。按照语义划分最短的词组。例如“中国电信→中国+通信”

2,二元。尝试将文字两两组合。例如“中国电信→中国+国电+电信”

3,重要单字。将重要文字单独分隔。例如“我们来测试→我们+来+测试+测+试”

4,全部单字。全部分隔为单字。例如“我们来测试→我们+我+们+来+测试+测+试”

使用这个选项参数时,可以单选,如“1”或“3”;也可多选,如“12”或“124”。

Duality:散字二元选项,是否将零散文字尝试进行二元组合,TRUE或FALSE。可省略,默认为FALSE。

Ignore:是否忽略标点,TRUE或FALSE。可省略,默认为FALSE。

Separator:自定义分隔符号,字符格式。可省略,默认为“|”。
 

Excel制作的【中文语义分词工具】小程序 免费下载
Excel制作的【中文语义分词工具】小程序 免费下载
下载地址
下载说明

☉推荐使用第三方专业下载工具下载本站软件,使用 WinRAR v3.10 以上版本解压本站软件。
☉如果这个软件总是不能下载的请点击报告错误,谢谢合作!!
☉下载本站资源,如果服务器暂不能下载请过一段时间重试!
☉如果遇到什么问题,请到本站论坛去咨寻,我们将在那里提供更多 、更好的资源!
☉本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。

顶一下
(1)
100%
踩一下
(0)
0%
------分隔线----------------------------
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
验证码:点击我更换图片