微博语料库中的不规范现象

    微博部分的监测数据从20109月到20151月共53个月内不同用户所发表的微博100000条,其中主要监测的9个指标分别为繁体字、异体字、方言字、网络用语、网络造字、日本汉字、表情符号、外来词、方言词。此十万条共计4203719字的微博中,监测到符合指标特征的字或词数量为941729个,占比44.8%

    符合各监测指标特征的字词在文本中出现的频数如图1所示。

1  微博中9种不规范指标的频数分布图

    符合各监测指标特征的微博数量分布如图2所示。

2  包含9种不规范指标的微博数量及比例

    符合各网络用语和表情符号这两个监测指标特征的字词在文本中出现的频数随时间变化的趋势如图3所示。

3  符合网络用语和表情符号指标特征的字词在文本中出现的频数

4  在微博不规范文章中使用不规范指标种数的比例环图

 

Copyright © 2015 国家社科基金重大项目 互联网环境下的语言生活方式与建设和谐的网络语言生活研究课题组版权所有
联系方式:华中师范大学计算机学院 邮政编码:430000 总访问量:117327次,当日访问:117327次 [管理入口]