现代社会中,语音识别与智能搜索正在悄然改变着人们的生活、企业的运作方式。语音识别技术的发展也呈突飞猛进之态,据悉Deepgram正是这一方面势头强劲的参赛选手,来看看Deepgram到底有何优势吧!
语音识别技术是一项涉及心理学、生理学、声学、语言学、信息理论、信号处理、计算机科学、模式识别等多个学科的复合型技术,具有广阔的应用前景,如语音检索、命令控制、自动客户服务、机器自动翻译等。
可以预见,语音识别技术也将助力各大企业的发展。当今信息社会迫切需要性能优越的、能满足各种不同需求的自动语音识别技术。
据悉Deepgram正是这一方面势头强劲的参赛选手。Deepgram的语音识别模型亮点纷呈、优势突出,在价格、准确率、可靠度、实时速度和处理量都引人关注。不过,在这一竞争领域中,许多科技巨头都不甘示弱,纷纷参与进来,“谁主沉浮”尚属未知数。
飞速发展的语音识别市场
Deepgram是由知名创业孵化器Y Combinator支持的公司,主要业务为定制语音识别模型。近日,该公司宣布完成了一笔2500万美元的B轮融资,领投方为老虎环球基金Tiger Global。
Deepgram首席执行官兼联合创始人斯科特•斯蒂芬森表示,该笔融资将由于Deepgram平台的发展,以帮助企业实时处理会议、通话与演示。
据估计,得益于银行、医疗和自动化行业中新应用的发展,到2025年,声音与语言识别技术的市场价值将达到318.2亿美元。事实上,约五分之一的美国人每天都在使用智能音箱,而谷歌搜索中,语音搜索占比也超过了30%。
位于洛杉矶的Deepgram成立于2015年,两名创始人分别是密歇根大学物理系研究生诺亚·舒特,以及斯蒂芬森博士。斯蒂芬森博士曾参与加利福尼亚大学戴维斯分校主持的大型地下氙探测器设计,探测器用于搜寻暗物质,他还曾参与该大学主持的另一双相液体氙气探测器开发项目。
Deepgram使用的后端是在PC端上训练的混合模型、配备有高端图形处理器,不再需要手工设计管道,并取代了启发式、基于统计值和完全端到端的人工智能处理过程。
斯蒂芬森在一篇博文中写道:“过去几年中,我们看到语言识别市场正在以前所未有的速度发展。2020年3月,我们宣布进行A轮融资时,许多企业还没有充分认识到定制版语音识别技术会产生怎样的影响。当时,原有方式仍然行之有效,这些企业确实并不需要快马加鞭地采取新方式。
不过,新冠疫情的爆发迅速改变了这一切。大量企业被推上转折点,不得不快速调整数字转型战略,将原本历时数年、精打细算的工作压缩至仅仅几个月,还要迅速将原有团队训练成远程劳动力。”
“出类拔萃”的Deepgram模型
Deepgram的所有模型都是从零开始训练,可处理的文件类型众多,包括电话、播客、会议录音和录像。Deepgram平台会对语音进行处理,存储在“深度表征索引”中,该索引的分组标准为音节、而非单词。因此,用户能够用发音搜索单词;多数情况下,即便用户拼错,也不会影响Deepgram正常识别。
斯蒂芬森表示,Deepgram的模型可以识别麦克风噪声、背景噪声、音频编码、传输协议、口音、价(即能量)、情绪、对话主题、说话速度、产品名称和语言等各项信息。他还指出,与行业标准相比,Deepgram模型的语音识别准确率要高出30%、转录速度高出200倍,且能够同时处理数千同时播放的音频流。
由于具备实时流媒体功能,客户讲话的同时,Deepgram模型就能够进行分析和转录。同时,Deepgram模型还具有内部部署选项,保证了其产品的私有性与可部署性,可用于处理涉密、受监管或其他敏感音频数据。
目前Deepgram公司有60多家客户,包括创惟科技、忆术家、博诣、Sharpen和Observe.ai等公司。它在美国和菲律宾办公室的员工已经从9人增加到了95人,已经处理了超过1000亿口语词汇。
此外,该公司还推出了新的训练形式Deepgram AutoML,以进一步简化模型开发。
据斯蒂芬森称,Deepgram公司在2020年的常续性营收翻了两番,且预计在2020到2021年间还将继续增长三倍。
他说:“在过去的一年里,我们一直对数据获取、标记、模型训练和应用界面等关键领域进行投资,现在我们已经做好了扩大规模的准备。得益于大数据和云计算,我们现在能够从电子邮件、表格、网页、应用程序、聊天记录和短讯服务中获得大量用户和员工数据。目前,这些结构化的数据可供企业查看和使用,但也不过是冰山一角罢了……
我们正在训练这样的语音模型——它们能够学习并适应复杂的现实场景,还能考虑到客户的个性化词汇、口音、产品名称以及背景噪声等问题。我们将利用好这笔新融资,努力以更合理的价格,为客户提升准确率、可靠度、实时速度和处理量。”
ref:
https://venturebeat.com/2021/02/03/deepgram-raises-25-million-to-build-custom-enterprise-speech-recognition-models/
Illustration by Thierry Fousse from Icons8
-The End-
扫码观看!
本周上新!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
扫二维码|关注我们
微信:thejiangmen
bp@thejiangmen.com
点个“在看”,分享好内容