博客语料库中的不规范现象

    博客数据部分的实验数据从2014年从新浪博客爬取的部分用户数据,实验数字博文数量总计为48341,用户数为1116。其中主要监测的9个指标分别为繁体字、异体字、方言字、网络用语、网络造字、日本汉字、表情符号、外来词、方言词。

    各指标在博客文本中出现的频数如图1所示。使用最多的是万罗用用,与网络用语同位居前三的还有繁体字和外来词,较微博来看,表情符号的使用少了很多。

1  博客中9种不规范指标的频数分布图

    符合网络用语、外来词和繁体字这三个监测指标特征的字词在文本中出现的频数随时间变化的趋势如图2所示。

2  符合网络用语、外来词和繁体字指标特征的字词在文本中出现的频数

    在48341篇博文总数1中,有31913(接近66%)篇博文都出现了不同程度的不规范情况,其中一篇博文中同时使用67中的博文每1000篇才有83篇,而9种指标同时出现在一篇文章的情况在实验数据中并没有发现,我们可以发现约有85%的博文中使用不规范的指标种类<=2种,基于前面的分析,由于指标频数较大的是繁体字和网络用语,所以把使用不规范的指标种数>=3的博文称为不规范性较严重的博文,这一比例大致为15%

3  在博客不规范文章中使用不规范指标种数的比例环图

 

Copyright © 2015 国家社科基金重大项目 互联网环境下的语言生活方式与建设和谐的网络语言生活研究课题组版权所有
联系方式:华中师范大学计算机学院 邮政编码:430000 总访问量:120171次,当日访问:22次 [管理入口]