Post

中文维基百科语料库

花了点时间把中文维基百科上的所有文章转换成便于自然语言处理的纯文本格式(去掉mediawiki的markup和文内链接)。维基百科的40多万个文章被分到90个xml文件里。每个文件解压后的大小在3MB左右。

下载地址

语料库遵从维基百科的文件共享协议,任何人可以免费自由使用。如果想表示感谢,你可以注明整理版本的语料来自九成的博客。

语料库的概况

维基百科版本:2012.03.26

总字数:67046114

所用汉字个数(繁体和简体):12740

所用汉字的出现频率统计可以在这里下载。其中出现次数最多的100个汉字为(汉字后的数字为出现的次数):

-----------

的 2118330

年 857434

在 688045

一 627815

中 564739

是 563451

大 459658

有 415591

人 403260

和 371381

為 370537

以 325686

了 320014

國 318864

日 295318

成 281525

於 276364

国 273351

月 271301

地 261861

他 256032

上 249562

之 242375

斯 238480

不 237748

为 232665

出 230349

主 212143

後 209165

行 209020

生 206170

其 206115

部 205218

及 204854

作 203364

名 199941

公 199112

到 196880

時 194284

而 193343

用 188553

被 187093

家 181608

分 181589

西 179870

由 174311

第 171622

本 167418

會 166957

法 164342

子 163721

與 163042

民 161304

文 161269

同 160227

多 159983

南 159342

學 155326

于 155202

方 154777

代 153034

学 152395

政 152085

特 147943

德 146360

最 146346

位 145570

自 145286

等 145039

任 144142

北 143963

也 142364

世 141894

個 141323

可 140489

新 140488

所 139465

加 138642

下 138547

前 137957

利 137284

后 137092

美 133807

三 132331

因 132202

立 132195

教 131624

克 130658

海 130237

得 129851

市 128188

球 128094

此 127992

高 124995

發 124500

建 124199

要 123941

軍 122390

入 120486

个 119196

This post is licensed under CC BY 4.0 by the author.