实验样本语料库资源的不规范现象

    实验样本语料包括:腾讯微博、新浪博客、天涯论坛。

实验样本语料库资源

    在三大数据集的基础上,统计了语言文字层面繁体字、异体字、方言字、方言词、网络用语、网络字、表情符号、外来词、日本汉字、常用字、常用词、成语这11项指标的相关数据,得出文章和用户总数及不规范情况的分布图。

2  文章、用户总数及不规范总数柱形图

    图3表示为文章、用户在不规范使用中的比例图。其中,把文章或用户不规范指标种数>=3的称为文章或用户不规范情况严重。

 

3  文章、用户在不规范使用中的比例图

 

Copyright © 2015 国家社科基金重大项目 互联网环境下的语言生活方式与建设和谐的网络语言生活研究课题组版权所有
联系方式:华中师范大学计算机学院 邮政编码:430000 总访问量:120166次,当日访问:17次 [管理入口]