监测预警(含示范应用)

  我们手动整理了一部分具有一定暴力色彩的文章,选取了其中暴力程度各不相同的暴力词汇,人为地为每个词汇进行评分。利用程序对微博、博客、论坛的原始语料进行处理,并利用构建的词典对每篇博文进行评分。该过程为建立训练集的过程,我们以微博为例,选取十万条微博中排名前500的微博,给定一些人工的评分标准,组织一定数量的人对此500篇文章进行主观评分,回收人工评分的结果构建训练集,利用训练集来修正暴力用语词典,采用各种方法对词典进行优化以逐步提高准确率和召回率。

而接下来在进行中的工作有以下几点:

1.利用回归分析使其能够自训练,在迭代一定次数后,完成评分精度的提升。

2.利用云模型将暴力的评分视为一个分类的过程,经过一定量的训练,使其可根据文本中的特征,对文本的整体暴力程度做出判断。

3.对于某些含义较为模糊的词汇,我们希望通过构建语义网,利用上下文进行消歧,而不是简单地为该词赋予一个较为中性的权值。

4.在某些文献中,判断某个词语的极性往往会将词汇间的点互信息作为依据之一,我们希望借鉴此方法,对暴力词典中较为模糊的词汇进行消歧,而不是简单地为该词赋予一个较为中性的权值。

5.检测语料库,不断完善系统。

 

 

Copyright © 2015 国家社科基金重大项目 互联网环境下的语言生活方式与建设和谐的网络语言生活研究课题组版权所有
联系方式:华中师范大学计算机学院 邮政编码:430000 总访问量:117336次,当日访问:117336次 [管理入口]