亚马逊Alexa科学家依靠新颖的AI培训技术促进信息检索

支持搜索引擎的信息检索模型如果使用机器学习进行培训,则需要大量手动注释数据。这是因为他们不仅要处理一系列查询,还要处理与这些查询相关的所有数据。幸运的是,亚马逊Alexa部门的科学家详细介绍了一种方法(“基于内容的特殊重新排序的弱监督”),可以为需要较少人工监督的模型铺平道路。反过来,这些可能会将训练数据集的大小从数万个条目增加到数百万个,从而在未来建立性能更好的系统。

正如团队解释的那样,基于AI的检索算法通常在查询两种文档上进行训练:满足用户搜索信息的“相关”文档,以及有关但不紧密关联的文档。所讨论的文档由人类手动标记为相关或不相关,并且在训练期间,AI系统学习最大化它们分配给处理样本的相关性分数之间的差异。

相比之下,研究人员的方法利用了这样一个事实,即大量的信息检索培训数据 – 新闻文章和维基百科条目 – 已经与他们介绍的文章和章节中的相关文本相关联。换句话说,他们假设可以使用标题和标题代替搜索字符串用于培训目的。

该团队首先从纽约时报的在线存储库和维基百科中收集了数百万个文档标题对。从每对中,他们使用查询和相关文本(以及与查询有关但不紧密关联的文本)来训练机器学习模型。然后,他们从AOL挖掘了一个由客户查询和搜索结果组成的语料库建立基准,并应用了一种算法,为每个查询确定了相关和不相关的文本。最后,他们使用一组约25,000个手工注释样本和测试数据算法选择的样本来补充AOL数据集。

为了证明他们的方法的有效性,该团队分别在四个测试集 – 纽约时报,维基百科,AOL和手工注释集 – 中分别训练AI系统,并对前20个结果的累积相关性来评定每个称为“标准化折扣累积增益”(nDCG)的度量。他们报告说,在基线中,AOL数据集和称为位置感知卷积循环相关网络(PACRR)的AI架构的组合产生了最好的结果。在同一系统上,纽约时报的数据集使nDCG增加了12%。当系统根据难以给定新目标域中的数据区分的示例进行训练时,得分提高了35%。

发表评论

电子邮件地址不会被公开。 必填项已用*标注