微软、白宫和艾伦研究所为医学和NLP研究人员发布了冠状病毒数据集

今天,免费发布COVID-19开放研究数据集(CORD-19),该数据库包含来自世界各地的29,000篇有关冠状病毒家族的学术文章。这些数据集是微软研究院、艾伦人工智能研究所、美国国立卫生研究院(NIH)的国家医学图书馆、白宫科学技术办公室(OSTP)以及其他机构的工作成果。它包括了来自13000多篇学术文章的机器可读研究。其目的是授权医学和机器学习研究社区挖掘文本数据,以获得有助于对抗COVID-19的真知灼见。

“白宫与美国国家科学院、工程院、医学院和世界卫生组织合作,确定了几十个与COVID-19相关的高优先级科学问题,以告知采取行动的呼吁,”白宫首席技术官Michael Kratsios今天在电话会议上说。“人工智能可以非常强大地帮助科学家总结和分析信息。”

数据的收集伴随着一个行动的号召,敦促人工智能研究人员创建数据和文本挖掘技术来帮助医学研究人员。加强科学专业人员之间的数据共享和协作肯定可以在抗击COVID-19方面发挥作用。

“我们的目标在创建这个开放数据集和冠状病毒(Kaggle)问答挑战刺激的人工智能社区创建工具,可以帮助科学家们掌握成千上万的文章,使他们开发方法解决COVID-19大流行,”微软首席科学官Eric Horvitz说在电话。微软的一个工具被用来执行学术文章的全球索引和地图绘制。“随着整个生物医学领域每年都有100万篇新论文发表,人工智能作为科学家的关键伴侣将变得越来越重要。”

文本挖掘可以使研究人员评估假设,制定研究计划,了解开创性的工作,并做一些事情,如创建问答机器人。作为今天新闻的一部分,艾伦研究所的语义学者将对现有的与冠状病毒相关的研究进行适应性调整。

通过与feed的交互,你可以训练它来理解你的兴趣,以及它对你的意义。因此,虽然这个feed可能会以某种关于冠状病毒的顶级论文开始,取决于你与什么论文互动,你发现什么有用,什么没用,它会了解你的偏好。Semantic Scholar的总经理Doug Raymond在接受电话采访时表示:“因此每个学者的论文排序会有所不同,因为他们对这个问题的兴趣不同。”

Semantic Scholar的个性化自适应feed是基于艾伦研究所在ELMO和AllenNLP等语言模型上所做的工作来理解论文内容之间的关系。接受采访的机器学习专家表示,基于Transformer的文本生成和NLP技术是2019年最重要的进展之一,2020年还会有更多进展。

Raymond说:“这是因为在过去几年里,我们在NLP方面取得了重大进展,像这样的数据集的效用可能会比几年前更大,因为现在有更容易获得的工具。”

艾伦人工智能研究所所长奥伦·埃奇奥尼(Oren Etzioni)表示,人工智能可以帮助加速进展,并找到问题的答案,但他强调,人工智能将增强人类的能力,而不会独自解决问题。

多个组织正在使用NLP来对抗COVID-19。哈佛医学院开发了一种工具来查看相关数据,如患者记录、社交媒体和公共卫生数据。据报道,使用NLP等工具来搜索新闻文章、公共卫生数据和其他来源的BlueDot公司在世界卫生组织(World health Organization)发出警报之前就发现了COVID-19的爆发。在中国,像阿里巴巴云的达摩研究院这样的科技巨头正在应用最先进的NLP技术,对医疗记录进行文本分析,并由中国疾控中心的官员进行流行病学调查。上周,它的StructBERT在GLUE基准排行榜上被评为世界上性能最好的NLP系统。

像PubMed和微软的Academic Graph这样的网站,现在有供医学研究人员浏览的COVID-19资源页面。与arXiv.org和medrxiv.org等已出版文献和预印本资料库的合作将有助于保持数据的更新。Chan Zuckerberg Initiative和乔治城大学安全与新兴技术中心也同意贡献知识。白宫副首席技术官琳·帕克(Lynne Parker)今天表示,在过去的一周里,双方的共同努力已经取得了进展,Kaggle网站将列出最迫切需要解决的问题。

作为为期五年的合作计划的一部分,哈佛医学院和广州研究院将分享中国恒大集团提供的1.15亿美元研究资金。广州研究所的工作将由钟南山领导,他目前是中国2019n-CoV专家组组长,也是中国呼吸疾病国家重点实验室主任。

其他形式的人工智能被应用于对抗COVID-19,包括消毒机器人、通过深度学习来预测死亡率,以及通过CT扫描图像检测COVID-19。世界各国政府也开始使用GPS跟踪、自动筛选应用程序、文本提醒和智能手机运动跟踪等技术。其他正在进行的项目包括Abcellera和DARPA的大流行预防平台项目之间的抗体发现项目,以及旨在在60天内阻止疾病暴发的自动诊断,以使预防和治疗(ADEPT)成为可能。

一周前,白宫首席技术官Michael Kratsios在与苹果、亚马逊、脸书、谷歌、微软和推特等科技巨头的电话会议上,首次分享了这个研究存储库的演示。这次电话会议的目的是利用人工智能和科技公司收集的数据,找到对抗流感的方法。

有关电话会议的细节没有透露,但白宫表示,政府和企业讨论了信息共享和新技术工具的开发。匿名消息人士告诉《华盛顿邮报》,据报道,一名亚马逊员工为追踪旅行者提供了该公司的云报告服务。随着美国的COVID-19案件数量持续上升,特朗普总统多次被指责传播错误信息。

上周五,特朗普总统、副总统彭斯和其他政府官员宣布全国进入紧急状态,以加快联邦资金的发放。之后不久,他们就表示,谷歌正在创建一个筛查网站,该网站似乎承诺将提供广泛的覆盖。然而,谷歌在一份声明中表示,Alphabet的子公司Verily正在建设筛选项目——作为其项目基线的一部分——但在启动时,它将只在旧金山湾区的两个地点提供。使用本网站需要一个谷歌帐户。

周日,谷歌的首席执行官桑达尔·皮查伊(Sundar Pichai)宣布,该公司正在与美国政府合作,为那些想知道是否应该寻求医疗救助的人创建一个自我筛查网站。

发表评论

电子邮件地址不会被公开。 必填项已用*标注