当前位置:网站首页 >> 体育

百度机器阅读理解比赛评审结束挑战

时间:2019-05-14 23:49:51 来源:互联网 阅读:0次

近日,由中国中文信息学会(CIPS)、中国计算机学会(CCF)联手百度公司共同举行的2018机器阅读理解技术竞赛 圆满闭幕。来自全球各地的1062支参赛队伍,在百度提供的中文浏览理解数据集基础上,对测试问题进行不断探索,使得参赛系统水平得到显著提升。大赛更多信息可登录2018机器阅读理解技术竞赛官查看。赛后,获奖选手纷纷表示,百度向大众开放大规模中文阅读理解数据集意义深远。

共享优良数据集 百度直击行业数据缺失痛点

在机器学习领域,数据是机器学习的原料,也是推进行业结构转型升级的燃料,而对于个人研究者与高校学子来说,数据缺失成为研究的困境所在。作为的中文搜索引擎,百度在数据方面具有得天独厚的优势。2017年底,全球规模的BROAD百度AI公然数据集计划(Baidu Research Open-Access Dataset)正式启动,百度面向公众开放包括室外场景理解数据集、视频精彩片断数据集、阅读理解数据集3个数据集。

来自北京大学Dlib实验室的尹伊淳正是在阅读了百度DuReader数据集的论文后,才选择参与到本次百度机器阅读理解技术比赛中的。这批公开的、大规模、高质量的真实数据集大大激起了他对于这项工作的兴趣,使得他在终角逐中获得了总排名第二的好成绩。

本次机器阅读理解竞赛中百度提供给参赛者的,正是面向真实应用场景的大规模阅读理解数据集。该数据集是迄今为止的中文阅读理解数据集,其中包含来自百度搜索的30万个真实问题,每一个问题对应5个候选文档文本,以及人工撰写的优质答案。东北大学自然语言处理实验室知识图谱团队在赛后表示,数据集的开放使得机器阅读理解系统得以映照到真实的使用场景中。对于机器阅读理解技术研究者而言,百度数据集弥合了国内的真实场景语料多文档阅读理解数据集的空白,也为加速AI产品落地带来了启示。更多数据集论文可登录查看,供业界交流使用。

获奖团队好评如潮 百度数据集带来真实创想

在比赛中,选手们依托百度阅读理解数据集,参赛系统整体水平得到了显著提升。比赛期间排行榜高分不断刷新,ROUGE-L评价指标由初的35.96提升至终赛的63.38,接近半数的系统结果超过了基线系统。

赛后,就百度数据集的数量与质量,本次机器阅读理解技术竞赛的获奖团队,给出了一致好评。选手们纷纷表示,面向真实场景的大型阅读数据集,为自然语言研究引入了宝贵的创想。

终究在比赛中拔得头筹的北京奇点机灵科技有限公司(Naturali)团队表示,此次比赛数据会聚焦于实用场景,问题来源于真实用户,类型多样,其中来源于真实络文档的数据,有别于经过精心的文档,更有利于机器浏览理解研究从理想照进现实。

面向高校开源不断 百度助力AI人才培养与升级

作为一名机器学习方向的研究生,来自上海理工大学的王忠萌选手此前的研究材料以各种英文数据集为主。竞赛中与百度数据集的交汇,点燃了他对中文机器阅读理解的兴趣。正如评测委员会成员刘凯所说,此次比赛提供的数据,将帮助参赛者挖掘更多中文浏览理解问题,同时更深入地接触到实际的运用需求,终究起到引导参赛者关注中文机器浏览理解的目的。

百度中文数据集的公然,只是百度数据集分享计划的一小部分。百度通过本次比赛为学术界和工业界提供了一个公开的浏览理解技术交流平台,将大量优良的数据集与研究成果将触达到更多高校学子和企业研究人员,降低了AI研究的门槛,使得个人研究者也能积极参与到系统研发与调试中去。这不仅直接推动了AI技术的发展进度,还将大量潜在的AI人材吸引到行业当中,培养与成绩更多中国人工智能领域的精英技术人才,打造的行业生态。

经期延长要吃什么药
怎么能治好月经不调
月经后期小腹痛吃什么

相关文章

一周热门

热点排行

热门精选

Copyright (c) 2011 八零CMS 版权所有 Inc.All Rights Reserved. 备案号:京ICP0000001号

RSS订阅网站地图