手机游戏巴士

Google发布超难问答数据集“自然问题”:30万对问答,BERT都达不到70分

发表于:2025-01-22 作者:游戏编辑
编辑最后更新 2025年01月22日,郭一璞发自凹非寺量子位报道|公众号QbitAI世界上最大的冰盖在哪里?Google现在想到了一个办法能让AI来回答这个问题,他们开放了一个名叫自然问题(Natu...

郭一璞 发自 凹非寺

量子位 报道 | 公众号 QbitAI

世界上最大的冰盖在哪里?

Google现在想到了一个办法能让AI来回答这个问题,他们开放了一个名叫自然问题(Natural Questions, NQ)的数据集,能够训练AI阅读维基百科,并找到各种开放领域问题的答案。

就拿“世界上最大的冰盖在哪里”这个问题来说,在维基百科“Ice sheet(冰盖)”词条,看到“Antarctic ice sheet(南极洲冰盖)”这个部分的时候,找到了相关的一个自然段的描述,这是该问题的长答案

之后,从这一段中得到“南极洲是世界上最大的冰盖”这个消息,于是找到了短答案

南极洲。

另外,还有一些问题是直接用长答案回答的。

比如说,“汉语里的“中国”是什么意思”这个问题,答案在“Names of China”这个维基百科词条里,以一段话的形式解释。

整个数据集包含三个部分:

1、超过30万组问答,其中训练集有307,372组问答,包含152,148组长答案问答和110,724组短答案问答;

2、开发示例问答,包含有7830组“一问五答”的问答,也就是同一个问题,找五个人分别从维基百科中寻找答案,以此来衡量QA问答系统的表现;

3、测试集有7842组问答。

整个标注的过程中,需要标注者阅读整个维基百科页面,看看有没有这个问题的答案,之后一方面要找包含所需信息的长答案自然段,另一方面要从中找一两个单词或词组作为短答案,整个数据集的精确度超过90%。

数据集中所有的问题都是用户在使用Google搜索时提出的,QA问答系统需要阅读整篇维基百科相关词条的文章,也不一定每个问题的答案都能找得到,因此NQ要比以前的QA数据集更具挑战性。

另外,Google还为这个数据集定制了一个排行,衡量不同算法在NQ数据集上的表现,目前,无论是长答案还是短答案,BERT都处在排行榜上的领先位置。

当然,因为数据集刚刚推出,现在参赛选手比较少,只有Google自家的两个算法,BERT和DecAtt-DocReader。

不过,在这个数据集上,两个算法的表现跟人类相比还有不小差距,人类搜寻长答案的F1分数是87%,比BERT高了十几个百分点;搜寻短答案的F1分数是76%,比BERT高了二十几个百分点。

最后,这个数据集相关的论文Natural Questions: a Benchmark for Question Answering Research已经发表在了TACL上。

传送门

NQ数据集

https://ai.google.com/research/NaturalQuestions

论文:Natural Questions: a Benchmark for Question Answering Research

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/b8c26e4347adc3453c15d96a09e6f7f102293f71.pdf

GitHub

https://github.com/google-research-datasets/natural-questions

作者系网易新闻·网易号“各有态度”签约作者

2018中国人工智能领航企业

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

喜欢就点“好看”吧 !





0