暴力用语监测项目成果

1.构建暴力用语词典

对网络上较多的非结构化文本进行浏览,逐个提取出带有暴力色彩的词汇,另一方面对网络中已有的结构化资源进行整合,据此做出词表;之后再利用词表对一定规模的语料进行暴力程度评分,我们选取系统打分后获得高分的博文,人工地找出更多具有暴力色彩的词汇。


2.制定人工评分标准

评分依据:

在对文章进行评分时主要看以下三个方面:

1)内容是正面(陈述一般事件或传递正能量)还是负面(描述某暴力场景或传递负能量)

2)有没有表达某种很激烈的情感(如憎恨、愤怒等)

3)有没有使用一些具有暴力色彩的词或短语(如打、杀及一些脏话等)

3.构建词语白名单


4.结合暴力词典和白名单对微博、博客等语料进行暴力评分。

(1)暴力评分结果对比(加入白名单前后)

博客文本改进前的结果:

博客文本改进后的结果:


Copyright © 2015 国家社科基金重大项目 互联网环境下的语言生活方式与建设和谐的网络语言生活研究课题组版权所有
联系方式:华中师范大学计算机学院 邮政编码:430000 总访问量:117332次,当日访问:117332次 [管理入口]