指标量化、验证与分析

通过对微博、论坛、博客中各用户语言的分析,从字、词两个层面对用户的语言规范程度及文化程度进行粗略的评价,监测指标包括日本汉字、表情符号等12个。目前我们已经可以做到对任一用户的任一进行不规范指数评分和文化程度评分,并可以更加细致地,以各种方法展示12个监测指标中的任意一个或几个,包括年度使用趋势分析,一定文本范围内的使用比例分析等等。

而接下来在进行中的工作有以下几点:

1.扩大语料库的规模,如微博数据量从之前的十万条扩大至160万条,使其分析结果更具说服力的同时,为下一步分析报告的撰写提供更加有力的支持。

2.进行程序资源的整合,优化程序执行效率,使各子模块高效结合。

3.评分标准的微调,使得整个系统中的各子模块的输出结果更加具有统一性。

4.设计不规范指数、文化程度、暴力指数等指标的计算方式,不断完善算法。

 

 

Copyright © 2015 国家社科基金重大项目 互联网环境下的语言生活方式与建设和谐的网络语言生活研究课题组版权所有
联系方式:华中师范大学计算机学院 邮政编码:430000 总访问量:117328次,当日访问:117328次 [管理入口]