计算技术与自动化

计算机软件及计算机应用论文_面向新闻文本的特

 
文章目录

0 引 言

1 相关工作

1.1 CHI算法简介

1.2 TF-IDF算法简介

2 实验设计

2.1 数据说明

2.2 数据预处理

2.3 分类能力指数设计

2.4 特征提取方法改进

2.5 模型评价标准

3 实验结果

4 结束语

文章摘要:文中研究对于中文的新闻文本分类过程中如何进行文本特征提取的问题。新闻文本数据是嵌在各种网页中的,因为其句子较长,来源广泛,内容驳杂的特点,传统特征提取方法不能达到很好的效果。文中提出一种新的分类能力指数用于特征选择,并对TF-IDF算法做出改进用于加权计算。经实验验证,文中改进算法比原特征选择、权重计算算法有更高的准确性。

文章关键词:

论文DOI:10.13274/j.cnki.hdzj.2022.01.015

论文分类号:TP391.1