javascript 实现简易中文分词算法
这是专业课的一个实验作业,要求如下:
<!-- /* Font Definitions */ @font-face {font-family:宋体; panose-1:2 1 6 0 3 1 1 1 1 1; mso-font-alt:SimSun; mso-font-charset:134; mso-generic-font-family:auto; mso-font-pitch:variable; mso-font-signature:3 135135232 16 0 262145 0;} @font-face {font-family:"\@宋体"; panose-1:2 1 6 0 3 1 1 1 1 1; mso-font-charset:134; mso-generic-font-family:auto; mso-font-pitch:variable; mso-font-signature:3 135135232 16 0 262145 0;} /* Style Definitions */ p.MsoNormal, li.MsoNormal, div.MsoNormal {mso-style-parent:""; margin:0cm; margin-bottom:.0001pt; text-align:justify; text-justify:inter-ideograph; mso-pagination:none; font-size:10.5pt; mso-bidi-font-size:12.0pt; font-family:"Times New Roman"; mso-fareast-font-family:宋体; mso-font-kerning:1.0pt;} /* Page Definitions */ @page {mso-page-border-surround-header:no; mso-page-border-surround-footer:no;} @page Section1 {size:612.0pt 792.0pt; margin:72.0pt 90.0pt 72.0pt 90.0pt; mso-header-margin:36.0pt; mso-footer-margin:36.0pt; mso-paper-source:0;} div.Section1 {page:Section1;} -->
1、合并使用停用词表和关键词表作为关键词表,应用逆向最长匹配法对所有篇名分词,给出每条篇名对应的分词结果。在屏幕上显示篇名序号、篇名、分词结果。
2、去除停用词(显示在屏幕上)。
3、利用tfx词频加权公式,计算各词的词频,在屏幕上显示每条篇名中各词的权重。
4、根据输入的阈值,确定标引词,并在屏幕上显示标引词。
5、根据输入的标引深度,确定标引词,并在屏幕上显示标引词。
由于开发环境不限,所以我挑了个最简单的js-_-
但是要特别声明:
本demo仅仅实现算法,完全不可以作为应用来使用。
测试地址: js中文分词简易算法
下载地址:右键->网页另存为 -_-
Ps:发现好多学弟学妹通过我们最擅长的搜索工具找到这里。提醒下,大学四年,你可是该仔细作个作业了:)