Sphinx-如何快速准确的建立专业领域的词库?

UI设计界面 UI设计界面 主题:1059 回复:2190

Sphinx-如何快速准确的建立专业领域的词库?

灵芸 发布于 2017-07-27 字数 161 浏览 1133 回复 5

目前有个需求,需要建立专业领域的词库,怎么才能快速准确的建立?
现在的做法是通过网站现有的数据,根据通用词库进行分词,进行基本过滤之后,人工进行审核。

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

支持 Markdown 语法,需要帮助?

评论(5

泛泛之交 2017-09-30 5 楼

专业词库是分词最有价值的部分,算法反而在其次
冷门领域很难像你说的快速建立词库,都是自己维护累积起来
国内现在词库做得比较好并且开放的是搜狗http://pinyin.sogou.com/dict/
部分领域,如医药,动植物,计算机专业领域的词库已做的很完善了,你可以直接下载然后搜索scel to txt转成txt拿去用

专业领域要注意并不是在词库的词就一定会被分出,比如mmseg算法的complex模式会三次回朔去歧义,这跟定义字的热度有关,这样低频冷门字可能被拆掉

归属感 2017-09-08 4 楼

基于词库分词,分出来的词必定包含在词库中,所以第一:词库的要全,可以从网上多找一些词库,合并后去重。

第二需要有专业的内容来对词库中的词进行权重调整,以下仅举例:
1 通过话题分词,将分词来的词 权重加 +12
2 通过问题标题分词出来的词,将这些词权重加 10, 一般问题标题中被分出来的词,权重应该很高的。
3 通过问题描述分词,分出来的词权重 + 5
4 通过答案内容分词,分出来的词权重 + 7
5 通过问答评论分词,分出来的词权重 + 1

按照网站现有的问题依据 上述方法 都进行分词,然后按照词的权重降序,从词的开头到第一个权重为0的词结束,这些范围的词大概就算是专业领域的词了。 但是需站网站的数据本身就很齐全。 如果不网站内容不多,需要到其他网站抓取一些技术文章来分词了,(如,csdn,51cto,nosqlfan)等一些有专业内容的网站。

第三 通过分析用户搜索关键字,这个最好能依靠 搜索引擎过来的,通过获得到用户搜索的关键词进行分词,来不断的调整词库权重,增加新的词语等,这应该是个漫长的过程。

目前想到的只有这些了。。

清晨说ぺ晚安 2017-09-01 3 楼

提供的工具,专门分解各输入法的词库

http://code.google.com/p/imewlconverter/

泛泛之交 2017-08-08 2 楼

像Sphinx、Lucene等词库都是手工建立的,机器目前还没那么智能到能够帮你准确的定位分词的机制,因为特别是专业领域的词还有些比较生僻的专业词,机器更是分析不出来,这些就需要手工来处理了,所以,你还是慢慢自己弄吧。

浮生未歇 2017-08-05 1 楼

可以考虑剥输入法的词库...至于怎么剥么,你再想想办法...Orz