墨玉信息网

首页 > 正文

科技巨头的语音生意经

www.eunhae0718.com2020-02-01

语音识别正在成为人类和互联网之间一种新的主流交流方式。

生产/新商业评论

写作/军阀

最近,一份来自大西洋彼岸的报告成为许多人关注的焦点。

美国着名投资机构红树资本合作公司发布的这份《2019年语音技术报告》(以下简称报告)指出,语音经济将在2025年达到1万亿美元,正式超过移动应用经济。

人们已经捕捉到某种信号。

在过去几年里,谷歌、微软、亚马逊和百度等全球科技巨头一直在押注于语音领域。投射在人们面前的是以下明星语音产品:回声智能扬声器、Siri智能语音助理、谷歌助理谷歌语音助理、科尔塔纳(微软小娜)人工智能助理、阿列克谢语音识别引擎和百度杜罗斯。

一个显而易见的感觉是,语音识别正在成为人类和互联网之间一种新的主流交流方式。

但是在狂热的、渴望土地的赌博背后,人们不禁会想到柏拉图式的问题:什么是智能语言?它从哪里来?你又要去哪里?

One

Technology Giant攫取智能语音

不难从历史中找到语音技术的“线索”。

早在80年前,第一台能够合成语音的机器诞生在美国新泽西州茉莉山上的贝尔实验室。如果把语音技术的发展视为一束光,那么这个被誉为世界上最伟大的实验室就可以被视为它的起点。

1954年,蓝巨人国际商用机器公司和乔治敦语言学家成功开发出一种能将60个俄语单词翻译成英语的机器。不久之后,第一个基于计算机的语音合成系统问世,语音技术开始与日益增长的想象力相叠加。

人类不缺乏两种能力,一种是想象力,另一种是创造力。但是即使在今天,经过几十年的使用,也很难预测语音技术的发展轨迹。

当然,更难想到的是它将成为一个全球舞台。

对于智能语音技术,有一个生动的比喻远程控制中心。现在一切都趋向于形象化,发音自然成为下一种产品形式的“莫尔斯电码”。谁能制定密码规则,谁能控制全局。

这是一场持久战。

纵观当今世界智能语音交互市场的几个主要玩家,百度从2010年就开始开发语音技术,至今已经有近十年的历史了。美国亚马逊的阿列克谢花了22年时间;即使是最新诞生的谷歌助手,也已经积累了十多年的数据。

一千英里不是一天的工作。隐藏在今天的智能Siri、谷歌的助手、微软的小娜和百度的利基背后的是该行业的高科技呻吟。

今年年初,百度宣布了语音领域的四大技术突破。其中,在线语音领域全球首个流式多级截断注意力模型(SMLTA,均称为“流式传输多层注意力”)被业界评价为技术领域的“登月计划”。

在最近的人工智能开发者大会上,百度展示了“全双工免唤醒”能力,再次刷新了当前人机语音交互智能的上限。全双工免唤醒功能是小型助手5.0的一项重要技术创新。

在全双工状态下,除了实现非唤醒单词的连续对话之外,还有一个非常关键的技术突破,叫做“拒绝响应”,也就是说,很小程度上知道什么时候响应和执行任务,什么时候只听。简而言之,语音技术的突破使机器的性能更接近“真实的人”。

在现场,观众只感觉到更流畅的对话和更理智的智慧印象,但在这背后却有许多学术问题一个接一个地得到了解决。

在去年出版的第20期《中国专利评论》中,百度的声音、机器翻译和无人驾驶汽车相关专利获得了国内专利行业迄今为止人工智能领域的最高政府奖项。

其中,“语音专利”中涉及的新语音识别模型采用深度学习算法,在24小时内实时分析数百亿大规模数据,具有高性能计算,使得语音识别技术的准确率达到97%,解决了语音识别领域的关键和常见技术问题,被评为“十大佳作”

在人工智能开发者大会上,百度还推出了用于远场语音交互的洪湖芯片,可以实现远场阵列信号的实时处理、高精度超低虚警语音唤醒和离线语音识别。

另一方面,百度的明星产品小智能扬声器(Small Smart Speaker)今年第一季度销量达到330万台的超高,在中国市场排名第一。

显然,百度正在构建一个完整的语音交互技术,集成了底层硬件芯片、上层智能硬件系统、系统软件、语音客户端、语音服务器和后端。

诚然,语音技术将成为未来十年新的决定性主题。

2

“技术场景”是王

人工智能迄今已发展了三次。

第一波使用算法建立推荐引擎和提供互联网接入,推动了谷歌、亚马逊和脸书的崛起。

第二波帮助企业使用结构化数据来优化决策过程,这导致了像帕兰蒂尔(Palantir)这样的大数据公司的出现,它们挖掘大量结构化数据,发现人类肉眼和大脑难以发现的信息相关性。

现在第三波人工智能正在到来。人工智能已经获得了眼睛、耳朵和无数其他感官。它可以收集以前从未收集过的新数据,然后使用这些数据来促进更复杂的过程自动化。

这一变化明显不同于过去。正如李彦宏在最近一篇发表于《人民日报》的文章中所说,“作为引领这一变革的战略技术,人工智能对世界的影响将远远超过以往的工业革命。”

这是事实。在人工智能的浪潮下,许多领域的现有模型被重新塑造,应用场景被不断颠覆,生产关系也开始重新构建。

其中,发音是一个极其重要的环节。

摆脱了文本和屏幕的束缚,语音技术从根本上改变了人们与软件交互的方式,并可以完全取代移动应用程序,成为未来的主要通信方式。

如果人们与移动应用程序的交互是二维的,那么语音交互就是三维的。这种规模提升的竞争也带来了互联网的商机。

语音技术领域不断增长的融资额是最明显的例子。报告数据显示,今年语音技术初创公司的融资金额高达7.86亿美元,远远超过2018年的5.81亿美元和2017年的2.98亿美元。与此同时,每次融资的规模也在急剧上升。

百度是当之无愧的领导者。

作为最早部署人工智能的技术公司之一,百度凭借数十万台服务器和中国最大的图形处理器集群的计算能力,拥有基于超大规模神经网络、数万亿个参数和数万亿个样本的人工智能算法。

作为中国最大的搜索引擎公司,百度还收集了大量中文(尤其是普通话)音频数据,为百度语音识别系统Deep Speech 2的技术成果提供了基础数据优势和支持。百度美国人工智能实验室负责人亚当科茨(Adam Coates)表示,截至2017年2月,《深度语音2》中短语识别单词的错误率已经下降到3.7%,其转录某些声音的能力基本上是“超人”,使其能够比母语为普通话的人更准确地转录较短的查询。

引起更多关注的是百度技术的缩影,一款基于语音识别、图像识别、自然语言处理、用户肖像等技术能力的小型人工智能语音助手(DuerOS dialog人工智能系统)。

从2015年的“杜密”到2017年的杜罗斯(DuerOS),再到2018年的一系列小规模智能硬件产品,小规模人工智能语音助手保持稳定的迭代速度,不断整合新能力,以开放的态度构建软硬人工智能生态系统,更好地服务合作伙伴,成为名副其实的“智慧中心”。

从技术到产品,从产品到下游合作伙伴,可以看出百度的智能语音系统已经初具规模。结合技术和具体场景,百度在智能语音交互技术领域发挥着“标杆”作用。

3

语音,未来商业的关键

通用电气前首席执行官

《2019语音技术报告》中有一种观点:“语音交互已经颠覆了过去人机交互的现有形式。基于用户和设备之间语音交互的新关系已经开始建立。像从互联网向移动互联网的过渡一样,它对底层平台的新需求也在酝酿之中。”

从业务发展模式来看,有两种变化,一种是从上到下,另一种是从下到上。前者要求市场迅速调整其地位,并使用新的排列组合来应对新的变化。后者强调经验,形式上的变化更沉默,但更坚韧和持久。

语音技术对商业形式的影响与后者相同。

我们不妨对未来的商业雏形做一个预测:在未来的某个时候,我们将不再需要打字,但我们可以使用语音信箱手势,键盘将基本消失。有了语音技术的祝福,产品形式将彻底改变,没有屏幕智能手机、语音电子商务、语音广告、个性化品牌语音.

这个预测正在变成现实。

有数据可以证明这一点。根据Juniper的数据,在美国和英国,语音电子商务将在未来几年出现集中爆发,规模从2018年的20亿美元增加到2022年的400亿美元。

同时登陆的还有亚马逊的语音广告服务。消息人士称,亚马逊计划开发阿列克谢语音助理的商业价值,然后成立一个大规模的数字广告业务,测试包括视频在内的各种广告产品,为2018年广告收入的增长做准备。

频繁布局的背后是每个家庭对语音技术商业价值的确定性。

虽然智能语音技术还存在很多问题,但此时此刻,我们应该提前规划布局,建立良好的技术基础。当潮水再次到来时,我们可以利用它。

可以预见,中国智能语音市场也将成为这股浪潮中不可或缺的力量和重要参与者。正如已经在中国徒步旅行了三个月的英国大臣迈克贝茨所记录的那样,“这片土地从不缺少奇迹。”

热门浏览
热门排行榜
热门标签
日期归档