Deepgram融资了1200万美元,为企业培训定制语音识别模型

Deepgram是Y Combinator孵化出的企业,专门设计语音识别模型。该公司今天宣布,它已经在A轮融资中筹集了1200万美元。该公司首席执行官兼联合创始人斯科特·斯蒂芬森(Scott Stephenson)表示,这些收益将促进Deepgram平台的发展,该平台帮助企业处理会议、电话和演示记录。如果一切按计划进行——如果Deepgram的规模最终与竞争对手相匹配——它可以通过突出关键结果来节省组织的宝贵时间。

“像Alexa和Siri这样面向消费者的技术为语音识别奠定了基础,”Stephenson说。“然而……预先构建的语音识别只能让你走这么远,在这个问题上投入资源也解决不了问题。在Deepgram,我们使用端到端深度学习创建了一个完全不同的解决方案,产生了一个更快、更准确、更可靠的解决方案,真正满足了企业公司的需求。”

Deepgram利用了一个后端语音堆栈,它避开了手工设计的管道,用于启发式、基于状态和完全端到端人工智能处理,混合模型在配备强大图形处理单元的PC上训练。每个自定义模型都经过从头到尾的训练,可以摄取从电话、播客到会议记录和视频等格式的文件。Deepgram对语音进行处理,并将其存储在所谓的“深度表示索引”中,该索引根据语音(而不是单词)对声音进行分组。用户可以根据发音来搜索单词,即使拼错了,Deepgram也能找到它们。

Stephenson说,Deepgram的模型能自动识别麦克风噪声、背景噪声、音频编码、传输协议、重音符号、配价等信息。情感,谈话的主题,演讲的速度,产品名称和语言。此外,他还声称,与行业基准相比,语音识别的准确率可提高30%,同时转录速度可提高200倍,并可同时处理数千条音频流。

很快,随着两项新功能的推出,这些模型将变得更加强大:实时流媒体和现场部署。实时流媒体将允许客户分析和转录语音,因为文字正在被说,而现场部署将提供一个私人的,可部署的Deepgram的产品的实例,用例涉及机密的,受监管的,或其他敏感的音频数据。

据Markets and Markets的数据,到2024年,语音识别市场的价值预计将达到215亿美元,而Deepgram并不是这个市场中唯一的参与者。Nuance、思科(Cisco)、谷歌、微软(Microsoft)和亚马逊(Amazon)等科技巨头提供实时语音转录和字幕服务,Otter等初创公司也提供这项服务。还有Verbit,它最近为自己的人工智能转录技术筹集了3,100万美元;去年12月,Oto公司获得530万美元,用于改善语音识别和语调数据;还有Voicera,它为该公司研发的AI融资2000多万美元,这些AI可以从会议记录中获得灵感。

但Stephenson表示,Deepgram在吸引客户方面并没有遇到太多困难。它目前有30多家,包括Genesys、Memrise、Poly、Sharpen和Observe.ai。

Wing VC领导了Deepgram的A轮融资,包括SAP.io、Y Combinator和Nvidia的参与,使迄今为止的融资总额超过1300万美元。这家总部位于旧金山的公司成立于2015年,由密歇根大学的物理学研究生诺亚·舒蒂(Noah Shutty)和Stephenson博士创立。

发表评论

电子邮件地址不会被公开。 必填项已用*标注