监测语料库2020年度数据分析报告
新闻来源:管理员      点击率:9455     

全年继续开展网络媒体语言监测语料库的建设与管理工作。其中,2020年新增的网络新闻语料主要来自新浪网的国内、国际综合新闻、财经新闻、军事新闻、科技新闻、娱乐新闻、体育新闻等6个类别下的新闻文档。我们通过网页自动下载、内容抽取、数据清洗等采集了400088篇新闻文档,每篇文档包含新闻标题、新闻时间、新闻来源、网络链接地址和正文内容等信息。2020年全年新增网络新闻语料共包含9560种符号,共计503565293频次。2020年的十大网络用语语料则主要来源于天涯论坛的旅游休闲、时尚资讯、天涯诗会、百姓声音、情感天地等68个类别的论坛版块,共自动采集了272616篇帖子,每篇帖子包含主题、作者、所在版块、时间和正文内容等信息。全年采集语料中共包含95146篇新帖,共计11104898个汉字,889681条帖子回复。

语料库.png

图1 网络媒体监测语料库首页


image.png

图2 语料库新闻语料


image.png

图3 新闻监测


image.png

图4 年度字词