人大经济论坛下载系统

Excel SPSS Eviews Stata SAS S-Plus&R Matlab Lisrel&AMOS Gauss其他
返回首页
当前位置: 主页 > 经济类软件及教程 > 其他 >

基于WEKA平台的文本聚类研究与实现

文件格式:Pdf 可复制性:可复制 TAG标签: 文本聚类 点击次数: 更新时间:2010-05-30 23:58
介绍

文本聚类是文本挖掘领域的一个重要研究分支,是聚类方法在文本处理领域的应用。本文对基于空间向量模型的文本聚类过程做了较深入的讨论和总结,利用文本语料库,基于数据挖掘工具研究并实现了文本聚类的过程。本文首先给出了文本聚类的思想和过程,回顾了文本聚类领域的已有成果,列举了文本聚类领域在特征表示、特征提取等方面的基础研究工作。另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标。在研究了已有成果的基础上,本文利用20 Newsgroup 文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维、等方面提出优化方案。

下载地址
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
相关下载