搜狗副总裁吴滔谈语音翻译硬件:不打价格战 因为我们有核心技术

2018-07-11 16:15 · 创客猫 今天


创客猫注:本文来源于TechCrunch国际创新峰会2018<杭州站>上,动点科技资深中文记者张林成与搜狗副总裁吴滔就人工智能与硬件为话题进行的深度探讨。

886bced20f60489191182a6faa5fb6d6.png

动点科技资深中文记者张林成(左)搜狗副总裁吴滔(右)

搜狗作为中国用户量第四大的互联网公司,搜索、输入核心业务线早已深入千家万户。在搜索、输入这两块业务稳定发展的前提下,搜狗作为一家技术驱动型公司,越来越强调自己和AI的相关性,并且开始尝试AI技术在现实场景中落地应用的实验,与此同时,其围绕泛AI所制定的硬件战略也逐渐浮出水面。 

搜狗在翻译领域也在不断积聚实力,随着不断在AI翻译领域实现技术突破和场景化落地,“翻译”俨然已经成为搜狗2018年新的关键词之一。一直以来无论是搜索引擎还是输入法,搜狗都是用软件的方式给用户创造价值,在AI浪潮中做硬件却有些“独辟蹊径”。

从今年第一季度开始到现在,搜狗已经连续发布了两款基于AI技术的翻译类硬件产品,搜狗旅行翻译宝和搜狗录音翻译笔。 

搜狗在2018年3月推出了首款智能翻译硬件--搜狗旅行翻译宝,具备离线翻译功能与拍照翻译功能,支持42种语言对话翻译,解决了旅游场景中用户听不懂、看不懂、不会说等真实痛点。该项产品在京东平台首发当日即告售罄,首日销售额破千万,成为销量黑马。 

搜狗旅行翻译宝并非行业首创,科大讯飞、网易等厂商此前都有过同类产品问世,但它对于搜狗的意义在于找到了一个让自身AI技术和具体应用结合的最佳载体,使其一举登上了AI战略高地。

面对搜狗AI翻译硬件的成功,很多人好奇“AI翻译硬件对比手机app优势在哪?为什么搜狗做了翻译APP还要做翻译硬件?” 

搜狗副总裁吴滔表示,翻译硬件的优势有三点:一、可离线;二、运算能力更强,使用更流畅;三、可实现手机无法使用的操作。

对于价格竞争,吴滔认为整个市场目前还到不了以价格竞争为主,更多的还是价值的竞争。吴滔强调,“但凡打价格战的都是没有自己核心技术的”。而搜狗对于这一点表示非常自信,并在后续会加大这个方面的投入,做到别人做不到的事情。 

吴滔表示:未来搜狗翻译智能硬件不会停止创新的步伐,会更多地发力垂直领域,为真实的使用场景量身定制,给用户带去更多实用性产品。 

172db6f7eeb14c6da80f66e40cbd7b01.png

搜狗副总裁吴滔

以下为对话实录:(经创客猫编辑,有所删减) 

张林成:吴总是负责硬件这方面,这也是很多人非常关心的一个问题,搜狗在之前做硬件是儿童相关的,包括手表、手环等等,现在正准备做一款众所周知的翻译宝的产品,我们为什么会选择这样一个方向?

吴滔:做儿童手表的时候大概是四年前,当时有一拨智能硬件的小浪潮,碰巧那个时候我有了自己的小孩,就想为他打造这样一款产品。今年开始,不光是搜狗,越来越科技的公司越来越硬,要做和硬件相关的公司。很多人问我,为什么你们要做硬件?但圈子中的朋友看到我的时候大家都反问,为什么你们不做硬件?我自身来看不是很喜欢“硬件”这个词,从PC互联网到移动互联网,包括物联网,我给内部团队来讲我们做的还是APP,只不过这个APP正好需要一个硬件的壳子而已,就像是移动互联网的时代为什么大家做APP,到IoT时代做一个硬件是趋势上的事情。

张林成:能不能透露一下儿童手表这块市场是怎样的情况,大环境来说手表手环好像都不太行,今年怎么样? 

吴滔:儿童手表经历了3-4年的发展,从市场规模来看还是一个稳定上行的趋势,但是现在儿童手表主要受限于两个方面。一方面在整个技术的迭代上,其实并没有把所谓的人工智能放到设备中产生更多的用户价值,这上面的突破比我自身想象中要慢。搜狗在AI上的布局相对来讲比较早,而且在核心能力上都有一些突破,但是如何把核心能力用到市场的产品中,现在来讲还没有特别好的载体。 

另外一方面硬件整体产业链的迭代还不够快,现在儿童手表大部分能够看到的设备、元器件都是几年前的手机或者是其他设备的配件,整个行业的供应链体系也没有迭代起来,导致了现在大量市场上的产品趋于同质化,这是现在这个阶段发展遇到瓶颈的挑战。但是我相信像手表这样一个形态,未来面对儿童一定是非常好的载体,真正带来智能或者改变他们的学习和生活方式。 

张林成:说到最近比较火的翻译产品,翻译产品和手表手环重心是怎样分配的? 

吴滔:这个东西没有所谓的重心的概念。大家知道搜狗一直以来在人工智能的布局上都是围绕着语言为核心来做的,最早两个相对比较热的产品:第一,输入法;第二,搜索,都是围绕语言的输入和输出。在AI时代通过整个公司的核心战略,往上叫做感知层,往下叫做认知层。语言感知层是两个方面:一是基于音频的识别我们做了很多事情;二是和图像相关的,包括OCR(Optical Character Recognition,光学字符识别),这些都是在语言感知层面做的事情。往下还有认知层面,因为感知层面行业里已经做了很多了,但是在搜狗在输入法和搜索上的积累,使我们有机会在自然语言理解上做更多的事情,输入法会从原来简单的输入工具把你想要的东西给你,变成一种对话的工具,通过AI会帮助人们来更好的回答别人的问题。搜索也是一样,原来搜索做了大量信息检索,最后还是要给出人很多结果,需要你寻找答案,现在我们把整个搜索结果中50%-70%变成直接的答案,这是基于我们对自然语言的理解,我们还建立了自己的知识图谱,会有极大的机会使搜索进化到问答。 

围绕感知、认知过程,你可以发现整个语言的闭环中我们形成了独特的交互能力,还有跨语言维度的交互,就是翻译。因为我们做语言,翻译也作为很重要的战略方向来做。翻译是这几年在人工智能深度学习领域进展非常快的,基本上达到了可用的程度。 

08d0fe5fa4494af9882bebb119c6600e.png

张林成:关于智能产品我很感兴趣,很多产品搞发布会的时候都会问这个翻译产品手机、APP就可以使用了,为什么做硬件,做硬件和做手机APP相比效果提升多少? 

吴滔:一方面确实现在有很多的APP,尤其是最近几年随着NMT的迭代,很多手机APP的翻译水平已经上升到比较大了,但是落地到具体的场景或者产品的时候还要看他们具体的使用方式。我们推行旅游翻译宝,打旅游场景,国外有几个大的痛点,当你真正使用这个产品的时候:一是手机交互模式还是有挑战的,一方面屏幕要按,和别人说话不太方便;二是识音范围相对比较近,因为手机是近场工作;三是我们看到很多产品网络不是特别稳定,在中国4G确实建立的非常厉害了,使用很流畅,到国外和别人沟通有四五秒甚至更长时间的延迟的话,整个沟通体验非常糟糕。 

所以,在定义这样一个产品的时候,我们打了两个核心的卖点:第一,想打离线,真正在设备上能够抛开手机独立使用,非常便捷、非常快捷。第二,在翻译宝上打的是视觉。大家知道在搜狗之前有一些竞品推出了类似的翻译产品硬件,遗憾的是都没有做视觉。但是我们调研过程当中发现往往视觉比语音更重要,特别像中国人、东方人,相对比较含蓄一点,不会任何人都去问,能够自己解决的问题就自己解决了,大量在视觉场景中,比如说路牌、菜单、商品信息还是需要解读这个事情的。如果我们要把一个好的技术做到离线,其实面临几个挑战:

第一,运算能力。大量手机从市面上看到的,特别是千元机的运算能力,现在我们叫做翻译宝,其实在里面有三个引擎在做:一是识别;二是翻译;三是语音合成。这三个模型放在云端是没有问题的,但是放在离线设备上对你的运作挑战非常大。

第二,做深度学习训练模型出来以后是巨大的,放到一个本地的设备对内存挑战也是很大的,翻译宝经过了压缩,现在基本上达到线上模型的四十分之一,放到独立硬件设备中,差不多把两个G左右的内存完全占满,两个G内存打开你的手机基本上没有办法用了。在这样一个时间窗口期要一个好的体验的话,独立的硬件设备还是必要的。但是从长远的未来看,比如有更多的MPU、TPU的加入,手机也许是有机会来解决这个问题。 

张林成:目前比较出名的是科大讯飞做的产品,微软和小米也在合作做类似的翻译产品,我们相对这两家竞争对手或者市面上更多的竞争对手,我们优势在哪里? 

吴滔:如果单独看一点,你的竞争壁垒都不完整,比如说ASR(Automatic Speech Recognition,自动语音识别技术),现在很多人都在做了,包括OCR一些技术,很多家都在做。搜狗的优点是:第一,整体核心布局的战略还是很清晰的,就是做语言和以语言为主体的。第二,以语言为闭环上我们核心竞争能力是很强的,在认知层面我们核心壁垒比较高,在对话层面,大家知道现在阻碍人工智能,最大的痛点还是满足需求不够好,为什么?在自然语言的理解,在对话体系中,我觉得还是有很大的空间需要提升的,在这上面我们是有输入法的,所以在对话以及对于自然交互上我们优势非常大。国际上好几个类似的我已经破了世界记录了,在对话体系上我们内部叫做“VUI”(Voice User Interface缩写,语音交互),这个上面我们有自己的独特优势,不是单纯把小米或者是讯飞拿出来看,在这个上面我们都是有很大的竞争壁垒。第三,我们是搜索引擎,在过去在行业里技术壁垒最高的产业。在中国做搜索是很少的,而因为我们是做搜索的,基于对于语言的理解,对于问答体系的理解,基于知识图谱,实际上我们把整个智能问答引擎搭建起来了。去年在整个江苏卫视的《一站到底》,一个旺仔机器人和人类选手做抢答,今年年初有视频答题大赛,搜狗很快能够组建这样一个答题助手,从语音流,通过ASR,理解主持人,因为很多问题是主持人念出来的,同时通过视频OCR能够快速的知道屏幕上的答案是什么,很快给你建议这种从对话到问答的完整能力。基于语音认知能力是我们的竞争壁垒,单独看市面上的竞争对手,无论是你刚才提到的名字,在这个上面搜狗对标他们都是具有自己独特的竞争力的,这一点我们非常有自信。 

张林成:说到价格,咱们这个市场是否到了打价格战的时候了,有没有这种可能性?因为小米比我们便宜,另外一家友商比我们稍微贵一点,我们是中间的。 

吴滔:现在整个市场还到不了以价格竞争为主,还是价值的竞争,现在来讲因为本身搜狗很多的AI技术投入成本是很高的,像人才的引进、研发时间都是投入非常高的,但凡打价格战的都是没有自己核心技术的。你看到很多翻译机,核心技术都是别人家的,真正有核心技术没有几家。包括语言,现在真正要把产品做到可用,不夸张的说,我们收到很多用户反馈,都在垂直受众中,评价搜狗翻译宝是第一个实用的翻译机。为什么这样评价?因为我们在技术上、在离线能力的技术上,做到和在线水平基本上是持平的,这一点是我们非常自信的,这个方面我们会持续加大自己的投入,我可以做到别人做不到的事情。这一点来讲我们不存在所谓的价格战,只有没有别人强大的时候价格可能是你唯一的优势。 

张林成:搜狗在接下来产品的发展规划,接下来我们出了两款翻译产品,可能有第三款翻译产品吗? 

吴滔:刚才我已经讲到了搜狗AI逻辑,在这个逻辑的基础上,产品一定会陆陆续续发展出来,但是还是会在几个领域:第一,关于语言的信息化,这个领域我们会做很多的事情,包括语音、包括图像,怎样把上面这些信息抽取出来。比如说和会议场景相关的,比如说同传,包括小的会议场景。包括为媒体朋友们、学生做一些录音、笔记,这些场景我们都在迭代。第二,我们有整体和语言交互VUI能力,同时也有一个完整的问答能力,结合起来是VPA(Vector Potential Analysis,矢量势分析)的能力。基于VPA的能力不同场景中我们也在尝试,无论是个人随身场景、车载场景、家庭场景,我们也许不会做泛需求的所谓的像音箱类的场景,但是我们会找到特殊场景垂直受众的产品,下半年会陆陆续续有3-4款智能硬件发布,请大家期待。 

(以上创客猫现场稿件,转载需注明来源。)

分享到: (更多)

标签: 吴滔搜狗AI