查看原文
其他

中文NER据集整理

刘聪NLP NLP工作站 2023-11-28

写在前面

大家好,我是刘聪NLP。

最近在做NER相关内容,跟实习生一起整理了一份中文NER数据,有已经开源数据,也有比赛数据,不找不知道,一找吓一跳,共整理了「22个」可用于中文NER任务。

之前,弄个Github项目,记录了自己整理的一些数据集,包括:中文摘要数据、中文机器阅读理解数据集和中文文本匹配数据。这次也将中文NER数据集,放到其中,

Github地址:https://github.com/liucongg/NLPDataSet

原始数据描述

数据集包括:CMeEE数据集、IMCS21_task1数据集、CCKS2017_task2数据集、CCKS2018_task1数据集、CCKS2019_task1数据集、CLUENER2020数据集、MSRA数据集、NLPCC2018_task4数据集、CCFBDCI数据集、MMC数据集、WanChuang数据集、PeopleDairy1998数据集、PeopleDairy2004数据集、GAIIC2022_task2数据集、WeiBo数据集、ECommerce数据集、FinanceSina数据集、BoSon数据集、Resume数据集、Bank数据集、FNED数据集和DLNER数据集等22个数据集。

清洗数据描述

为了方便数据使用,将上述数据进行了“BIO”标签转化,并每个json文件中的每行为一个独立的json数据,包含“text”和“labels”两个字段,如下:

{
    "text": str,
    "labels": list
}

数据样本及类别如下:

  • CMeEE数据集,共20000条样本,9种类别,为sym、dep、dru、pro、equ、dis、mic、ite和bod。
  • IMCS21_task1数据集,共98452条样本,5种类别,为Operation、Drug_Category、Medical_Examination、Symptom和Drug。
  • CCKS2017_task2数据集,共2229条样本,5种类别,为symp、dise、chec、body和cure。
  • CCKS2018_task1数据集,共797条样本,5种类别,为症状和体征、检查和检验、治疗、疾病和诊断、身体部位。
  • CCKS2019_task1数据集,共1379条样本,6种类别,为解剖部位、手术、疾病和诊断、药物、实验室检验、影像检查。
  • CLUENER2020数据集,共12091条样本,10种类别,为game、organization、government、movie、name、book、company、scene、position和address。
  • MSRA数据集,共48442条样本,3种类别,为LOC、ORG和PER。
  • NLPCC2018_task4数据集,共21352条样本,15种类别,为language、origin、theme、custom_destination、style、phone_num、destination、contact_name、age、singer、song、instrument、toplist、scene和emotion。
  • CCFBDCI数据集,共15723条样本,4种类别,为LOC、GPE、ORG和PER。
  • MMC数据集,共3498条样本,18种类别,为Level、Method、Disease、Drug、Frequency、Amount、Operation、Pathogenesis、Test_items、Anatomy、Symptom、Duration、Treatment、Test_Value、ADE、Class、Test和Reason。
  • WanChuang数据集,共1255条样本,13种类别,为药物剂型、疾病分组、人群、药品分组、中药功效、症状、疾病、药物成分、药物性味、食物分组、食物、证候和药品。
  • PeopleDairy1998数据集,共27818条样本,3种类别,为LOC、ORG和PER。
  • PeopleDairy2004数据集,共286268条样本,4种类别,为LOC、ORG、PER、T。
  • GAIIC2022_task2数据集,共40000条样本,52种类别,类别被脱敏。
  • WeiBo数据集,共1890条样本,7种类别,为LOC.NAM、LOC.NOM、PER.NAM、ORG.NOM、ORG.NAM、GPE.NAM和PER.NOM。
  • ECommerce数据集,共7998条样本,4种类别,为MISC、XH、HPPX和HCCX。
  • FinanceSina数据集,共1579条样本,4种类别,为LOC、GPE、ORG和PER。
  • BoSon数据集,共2000条样本,6种类别,为time、product_name、person_name、location、org_name和company_name。
  • Resume数据集,共4761条样本,8种类别,为NAME、EDU、LOC、ORG、PRO、TITLE、CONT和RACE。
  • Bank数据集,共10000条样本,4种类别,为BANK、COMMENTS_ADJ、COMMENTS_N和PRODUCT。
  • FNED数据集,共10500条样本,7种类别,为LOC、GPE、ORG、EQU、TIME、FAC和PER。
  • DLNER数据集,共28897条样本,9种类别,为Location、Thing、Abstract、Organization、Metric、Time、Physical、Person和Term。

数据下载

原始数据在上述的数据链接中就可以下载到,如果下载不到,或者想要直接获取所有数据的同学,可以私聊我。

清洗及格式转换后的数据,

下载链接:https://pan.baidu.com/s/1VvbvWPv3eM4MXsv_nlDSSA
提取码:4sea

数据读取

读取代码如下:

with open("msra.json""r", encoding="utf-8"as fh:
    for i, line in enumerate(fh):
        if i > 5:
            continue
        sample = json.loads(line.strip())
        print(sample)

结果如下:

{'text''中共中央致中国致公党十一大的贺词各位代表、各位同志:在中国致公党第十一次全国代表大会隆重召开之际,中国共产党中央委员会谨向大会表示热烈的祝贺,向致公党的同志们致以亲切的问候!''labels': ['B-ORG''I-ORG''I-ORG''I-ORG''O''B-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''O''O''O''O''O''O''O''O''O''O''O''O''O''O''B-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''O''O''O''O''O''O''O''B-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''O''O''O''O''O''O''O''O''O''O''O''O''O''B-ORG''I-ORG''I-ORG''O''O''O''O''O''O''O''O''O''O''O''O']}
{'text''在过去的五年中,致公党在邓小平理论指引下,遵循社会主义初级阶段的基本路线,努力实践致公党十大提出的发挥参政党职能、加强自身建设的基本任务。''labels': ['O''O''O''O''O''O''O''O''B-ORG''I-ORG''I-ORG''O''B-PER''I-PER''I-PER''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''B-ORG''I-ORG''I-ORG''I-ORG''I-ORG''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O']}
{'text''高举爱国主义和社会主义两面旗帜,团结全体成员以及所联系的归侨、侨眷,发扬爱国革命的光荣传统,为统一祖国、振兴中华而努力奋斗;紧紧围绕国家的中心工作,联系改革和建设中的重大问题以及人民群众普遍关心的社会问题,深入开展调查研究,就经济建设、侨务政策、文教卫生、对外开放、精神文明建设等问题,提出了许多宝贵的意见和建议,受到有关方面高度重视;致公党中央领导人多次参加中共中央和国务院举行的民主党派人士座谈会、协商会,参与国家大政方针的协商,认真履行参政议政、民主监督职能;广大成员在做好本职工作的同时,把科技扶贫、智力支边作为为社会主义建设服务的一项重要工作,不断开拓进取,取得了可喜的成绩,为促进社会主义物质文明和精神文明建设作出了积极贡献;结合自身的特点,充分发挥与海外联系广泛的优势,积极开展海外联络工作,为促进祖国的和平统一作出了不懈的努力。''labels': ['O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''B-LOC''I-LOC''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''B-ORG''I-ORG''I-ORG''I-ORG''I-ORG''O''O''O''O''O''O''O''B-ORG''I-ORG''I-ORG''I-ORG''O''B-ORG''I-ORG''I-ORG''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O']}
{'text''在此,中共中央谨向致公党中央以及全体成员致以崇高的敬意!''labels': ['O''O''O''B-ORG''I-ORG''I-ORG''I-ORG''O''O''B-ORG''I-ORG''I-ORG''I-ORG''I-ORG''O''O''O''O''O''O''O''O''O''O''O''O''O''O']}
{'text''不久前,中国共产党召开了举世瞩目的第十五次全国代表大会。''labels': ['O''O''O''O''B-ORG''I-ORG''I-ORG''I-ORG''I-ORG''O''O''O''O''O''O''O''O''B-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''I-ORG''O']}
{'text''这次代表大会是在中国改革开放和社会主义现代化建设发展的关键时刻召开的历史性会议。''labels': ['O''O''O''O''O''O''O''O''B-LOC''I-LOC''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O''O']}

总结

数据是基础,有了数据不一定可以SOTA,但是没有数据式万万不能SOTA的。

如果大家有其他的中文NER数据,欢迎补充!!!可以在评论中提出、也可以私聊我,也可以在github上pr。

请多多关注知乎「刘聪NLP」,有问题的朋友也欢迎加我微信「logCong」私聊,交个朋友吧,一起学习,一起进步。我们的口号是“生命不止,学习不停”。

往期推荐:

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存