语言文字层工作阶段性成果


在微博、博客、论坛三大数据集的基础上,初步统计了语言文字层面中繁体字、异体字、日本汉字、网络造字、外来词、网络词、方言字、方言词、表情符号、成语、常用字十一个指标的相关数据,其中前9种指标用于统计文本或者用户规范情况,后2种指标针对用户,重在推测用户文化水平。

整体层面:


备注:把文章或者用户不规范指标的种数大于等于3的称为文章或者用户不规范情况严重。


1.微博数据

   微博实验数据集共10万条微博,544用户。

微博不规范情况如下图所示:


2.博客数据

博客实验数据集共48341篇博文,1116用户。

1)总体情况展示

在整个数据集中,9种不规范情况指标中由图表可以看出,用得比较多的是网络词(网络用语)和繁体字(表现出的趋势和图3,图4也是相似的),在后文中的单指标分析中会着重分析网络用语、繁体字两种情况。

根据图4呈现出的20149种不规范指标总频数每个月的变化直线图,发现用户博文中除了网络用语和繁体字有曲折性变化外,其他7种指标每个月的总频数基本是处于一个平稳状态。

在上图的基础上,去掉网络用语和繁体字,其他7中指标总体使用频率随时间的变化趋势图:

博文总数48341,其中有31913(近66%)篇博文都出现了不同程度的不规范情况,其中一篇博文中同时使用67种的博文每1000篇才有83篇,而9种指标同时出现在一篇文章的情况,实验数据中并没有发现。我们可以发现有约85%的博文中使用不规范的指标种数<=2种,基于前面的分析,由于指标频数较大的是繁体字和网络用语,所以把使用不规范的指标种数>=3的博文暂时称之为不规范性较严重的博文,这一比例大致15%。其中同一博文中使用超过6种的博文数有379篇,124篇来自用户12217613251篇来自用,02468xyz29篇来自用户122374455023篇来自用户0718xht12篇来自用户103chjianzhong10篇来自用户1229572832

博客文章不规范情况如下图所示:

为了分析上面列出的6个用户,为什么会频繁使用到各种不规范指标,我们对这几个用户所发表的博文数和博文平均长度(平均一篇博文中词或字的总数)进行简单统计,统计如下表,发现这些博文都是比较长,根据一般推算博文越长,其出现各种指标的概率可能越高(也许用户职业、工作、地域或生活习惯是等原因,暂且不做深入分析)。

我们可以根据需要,针对单个用户,除了统计其某一博文各种指标的词频、种数、总词频、使用到的指标种类等各种简单的计量指标,还可以呈现出谋篇博文具体用到的哪些字或词,如我们可列出某用户用到的指标的部分情况:

2)用户层面展示

同样地,数据集总用户数为1116,有982(近88%)个用户都出现了不同程度的不规范情况。我们可以发现有约59%的用户使用不规范的指标种数为<=3种。把使用不规范的指标种数>3的用户暂时称之为习惯性用户。

根据不规范性打分公式:

用户总体不规范性得分=log(1+单个用户不规范指标种数)*log(1+9种指标种数之和)*(9种指标的总频数之和/词的总数)

如下表,我们将不规范性得分top20的用户展示如下:

根据不规范性打分公式:

单指标不规范性得分=log(1+单指标种数)*(单指标的频数/用户文章篇数)

如下表,我们将单指标不规范性得分top20的用户展示如下:

根据用户总体打分和单项打分排名第1的用户排名情况:


3.论坛数据

论坛文章不规范情况如下图所示:


Copyright © 2015 国家社科基金重大项目 互联网环境下的语言生活方式与建设和谐的网络语言生活研究课题组版权所有
联系方式:华中师范大学计算机学院 邮政编码:430000 总访问量:120165次,当日访问:16次 [管理入口]