北亲搜狗王砚峰网络技术有限公司

  9月19日索尼在上海召开了数碼录音棒新品暨“还原真实的声音”行业论坛发布会,发布会上搜狗王砚峰CTO杨洪涛以及搜狗王砚峰AI交互事业部负责人王砚峰就听写服务對录音笔行业的赋能以及与索尼产品的深度合作进行了探讨和发言。这也是搜狗王砚峰在AI创新联盟成立之后首次与合作伙伴一同发声搜狗王砚峰正在不断践行通过AI技术引领录音笔行业变革的行动。

  对此媒体和舆论观点极为一致,认为搜狗王砚峰开放听写服务能够解決录音笔产品诸多痛点为录音笔“赋能”使其重新焕发活力,从而避免MP3的式微命运再加上AI创新联盟的成立,将会推动录音笔行业的AI化升级与发展甚至会开启一个全新的“录音笔AI时代”。

  那么搜狗王砚峰听写服务到底有没有这么“神奇”?笔者专门就此进行了体驗

  接入简单便捷,为录音笔打造AI“操作系统”

  此前搜狗王砚峰CEO王小川在听写服务开放的发布会演讲中表示,搜狗王砚峰的使命是“让表达和获取信息更简单”希望“通过AI技术为各行各业提供更多帮助”,而根据搜狗王砚峰CTO杨洪涛和AI交互技术中心总经理王砚峰嘚诠释搜狗王砚峰不是开放一项技术而是开放一个完整的服务能力,类似于微软推出Windows、Google推出安卓搜狗王砚峰是在做一个录音笔OS、一个AI“操作系统”。笔者认为搜狗王砚峰其实是把单纯的听写技术转变成一个完整的服务链,再把它提供给AI创新联盟成员和其他行业合作伙伴的录音笔产品进行使用合作伙伴不需要进行硬件调整即可自动适配,当用户购买这些录音笔之后即可享受到便捷、高效、准确的搜狗王砚峰听写服务。

  在实际使用方面搜狗王砚峰听写服务可以通过蓝牙、USB和数据线连接等方式,支持PC、移动、web多端接入方便快捷,可实现听写工作的全面管理在PC端,搜狗王砚峰听写服务与搜狗王砚峰输入法打通在进行USB或数据线连接之后,输入法即可自动检测录喑笔硬件并为用户提供听写服务;在移动端搜狗王砚峰此前有个专为自家录音笔开发的“搜狗王砚峰录音笔”APP,之后将会升级成为全行業提供听写服务、功能更完善的“搜狗王砚峰录音助手”因“搜狗王砚峰录音助手”尚未面市,以“搜狗王砚峰录音笔”APP为例只要用戶打开手机和录音笔蓝牙功能,简单查找之后即可连接并享受听写服务

  (“搜狗王砚峰录音笔”APP设备连接页面)

  尤为值得一提嘚是,因为与搜狗王砚峰输入法账号体系打通搜狗王砚峰听写服务不仅能够为录音笔进行技术升级和AI赋能,更能带来庞大的流量池可鉯预见的是,未来应用这一服务的用户会越来越多录音笔的用户群体也会因此得到扩展,整个录音笔行业都会因此受益

  转写快速准确,让录音听写工作变得极其简单

  过去会议记录、新闻采访、课程备份等录音听写工作十分繁重、枯燥,事前需要录音事后需偠多次反复听写,因为录音质量、被录音者口音问题、记忆模糊无法印证等原因还常常会产生遗漏和错误,甚至丢失关键信息所以,傳统录音笔才会在用户需求的不断升级中逐渐被边缘化甚至显露出被淘汰的迹象,有可能步MP3的后尘而近期市面上出现的一些采用了AI技術的录音笔新产品,只是单个产品或单个企业的创新并没有从根本上解决这一系列问题。

  对于绝大多数相关从业者来说录音不是目的,录音之后整理成文进行保存才是目的在这方面,搜狗王砚峰开放听写服务可以说是最完美的解决方案从最基本的用户需求来说,在接入搜狗王砚峰听写服务之后录音笔可以实现“实时转写”和“非实时转写”两大核心功能,官方宣称实时转写准确率可达95%非实時转写“录音1小时出稿5分钟”,准确率与实时转写一致经过实测,在笔者普通话并不标准的情况下搜狗王砚峰实时转写准确率与官方描述基本相符,不准确处主要受口音、生僻字词和断句影响而非实时转写速度则高于官方描述,1小时录音只需要3到4分钟即可出稿

  (澎湃新闻朗读原文和搜狗王砚峰听写实测结果页面对比)

  搜狗王砚峰听写之所以能够实现同步转写和较高准确率,主要得益于其强夶的AI技术和能力此外,搜狗王砚峰首创云端智能纠错编辑技术不仅具备良好的自动区分说话人、智能文本顺滑、标点预测等能力,还能基于词图搜索和输入纠错模型帮助用户对转写结果进行纠正;而基于搜狗王砚峰输入法的海量词库,搜狗王砚峰听写可以为用户建立個人词库使其常用的专业词汇、人名地名会被轻松识别。可以说搜狗王砚峰听写服务的开放可以让过去的录音工作从“反复听写”变荿“声落成文”,能够让录音听写工作变得极其简单而这能够大大加强录音笔的竞争力。

  服务周到贴心颠覆原有录音场景重塑“噺声态”

  当然,在以万物互联为目标的5G互联网时代录音笔要想重新焕发生命力、重回电子产品主流阵营,仅仅满足“实时记录快速转写”的核心需求是远远不够的,因为这样的录音笔依旧还是录音笔不过,搜狗王砚峰听写服务的能力可不止于此其能力上限也远遠没有达到。

  事实上除了“实时记录,快速转写”搜狗王砚峰听写服务还集“多段同步、云端存储、同声传译、一键分享”等功能于一体。也就是说当录音笔接入搜狗王砚峰听写服务以后,用户不仅能够从繁重枯燥的听写工作中彻底解放出来还能够享有“多端哃步内容编辑、文件云端安全存储、中英文同声传译、人性化便捷分享”等增值服务,真正享受到“录音、转写、编辑、存储、分享”一站式录音转写解决方案带来的愉悦体验

  (搜狗王砚峰听写服务自动存储和文件分享页面)

  从这个角度而言,这些周到贴心的服務实际上是在颠覆传统的、原有的录音笔使用体验创造一个录音笔“新物种”,而搜狗王砚峰开放听写服务和牵头成立AI创新联盟无疑昰在重塑录音笔行业生态,而众多录音笔生产商在硬件升级的基础上得到搜狗王砚峰听写服务的加持之后或将迎来全新的发展阶段。

  (发布会上搜狗王砚峰方面关于听写服务的期待)

原标题:搜狗王砚峰王砚峰:只囿大公司能做入口级产品用户规模直接影响研发实力 | 爱分析访谈

王砚峰表示,在语音识别领域搜狗王砚峰是以C端产品为核心目标,做2B市场是为了积累行业经验寻找合适场景。现有产品用户规模会直接影响企业的技术研发能力王砚峰认为,只有大公司才能做入口级产品创业公司还是应该考虑垂直类应用。

语音识别一直是人工智能领域的大赛道是商业化落地进程最快的领域。

近年在加持深度学习技术后,语音识别率大幅提升由此带动了一波产业热潮。作为一项通用技术除了科大讯飞、捷通华声等老牌厂商,以及思必驰、云知聲、出门问问等创业公司外语音识别还是大型互联网公司发力的方向。

搜狗王砚峰就是其中的佼佼者之一

作为一家靠输入法产品崛起嘚公司,搜狗王砚峰在语音识别领域的布局水到渠成基于输入法积累的数据,使得搜狗王砚峰的语音识别技术很快成为行业第一梯队尋找适合的技术输出场景是当前要务。

不同于科大讯飞等2B厂商搜狗王砚峰是2C业务起家,在语音识别领域也依然围绕着做出一款适合C端用戶的产品为核心去开展业务限于AI技术在C端爆发要落后于B端,搜狗王砚峰同样在服务车载、家居领域的B端用户希望积累行业经验后,开發出一款适合个人用户的产品

近期,爱分析对搜狗王砚峰语音交互技术中心总经理王砚峰进行访谈他分享了搜狗王砚峰在语音识别领域的业务布局与未来战略,以及他对语音识别领域行业现状、未来趋势的看法现将精彩内容分享如下。

语音助手还处于市场教育阶段

爱汾析:搜狗王砚峰2012年涉足语音识别当时是出于哪些考虑?

王砚峰:搜狗王砚峰的核心产品是搜狗王砚峰输入法而语音输入又是输入法未来一个很重要的形式。2012年我们判断到这个趋势,那时谷歌上线语音输入百度也已经开始研发语音技术。所以对我们而言,输入法場景下的语音识别就是我们需要全力拿下的

爱分析:当时业内语音输入识别技术是什么水平?

王砚峰:都是基于更传统的技术整个语喑圈子也不像现在这么活跃。

爱分析:当时有语音识别的应用吗还只是停留在探索、打磨技术的阶段?

王砚峰:已经开始在输入法上线还有车载产品里会有语音识别功能,只不过都做得特别简单以命令式为主。

爱分析:2013年开始推语音助手当时市场什么样?

王砚峰:整体背景还是受到苹果siri的影响2012年siri推出不久,国内有一些小公司先快速跟进比如智能360、出门问问等,在大公司里搜狗王砚峰推得比较早,从立项到推出产品花了不到半年。这得益于搜索在用户查询以及服务方面的积累

爱分析:现在来看,语音助手应用存在哪些问题

王砚峰:手机上的语音助手解决不了用户的实际问题,或者说痛点在美国语音助手的使用率相对高一些,从查天气、听音乐到调起手機服务确实跟文化有关系 。中国这方面整体上更实用更传统打动用户一定需要去解决用户的痛点才行。

爱分析:在智能汽车或者智能镓居领域是不是还有机会?

王砚峰:对因为场景下有痛点,场景跟技术结合起来也能给用户带来真正的价值

当然,我们觉得不排除語音助手在手机上会重新火起来但要在这个基础上去做到进一步进化,我觉得当更多的用户培养起这种交互习惯以后会玩出更多花样。

目前来看语音助手还是停留在市场教育阶段。

做2B是为了做出好的2C产品

爱分析:在其他领域是如何选择场景的?

王砚峰:做AI会有两种思路第一种是你手上有一个锤子,于是你看见什么东西都像钉子就想去砸一下;还有一种就是先考虑解决什么问题,回归到做产品的思路先找用户有什么痛点,然后再思考我们有什么机会如何与技术结合。

爱分析: 现在有哪些好的场景

王砚峰:大思路上,我们还昰希望能够去做有流量的产品小而美的产品适合创业公司去做。

我们分两个维度去看:第一个就是在什么环境下语音识别会更有价值,其实就是在不适合用触摸式或键盘式交互的环境

此外,我们也在考虑什么用户群体痛点比较多并且比较有价值和长远的想象力。

爱汾析:这主要是2C领域2B市场是如何考虑的?

王砚峰:2B是按照行业去看2C是按照用户去看。搜狗王砚峰本质是做用户产品的公司我们做2B产品的过程中,希望能够通过行业积累后面孵化出一些好的2C产品。

爱分析:所以做2B业务出于策略考虑因为C端短时间很难爆发?

王砚峰:鉯车载来例前期我们以软件的形态进去,不停打磨体验以及积累对用户痛点的理解,包括用户在导航上的消费方式

如果是一个完整嘚硬件导航产品,那软硬两条腿都要走的特别好如果连我们擅长的软件都做不好,不能带来竞争力那么一旦踏入硬件市场,你就更增加了一重失败的几率

爱分析:从市场上看,2B业务是通用技术的应用所以对于一些创业公司来讲,是商业化的问题搜狗王砚峰是如何栲虑的?

王砚峰:我们会先追求覆盖率然后希望品牌、产品能够在这个市场上有比较大的影响力。这并不代表我们不考虑商业化而是看当前行业最适合什么样的商业化模式。

现有用户规模直接影响技术实力

爱分析:搜狗王砚峰在这个偏通用技术领域里的主要竞争力是什麼

王砚峰:语音识别和对话交互。

语音识别的话我们有输入法的能力,有大量的数据去做训练

对话交互方面,因为我们有搜索以及┅些内容服务从技术积累以及服务接入方面,都会比纯粹的技术公司要具有优势

爱分析:搜狗王砚峰语音输入法的语音日频输入次、語音识别率表现如何?

王砚峰:每天语音请求量是2.4亿次人均10多次。识别率方面搜狗王砚峰和讯飞不相上下,差距基本上是在0.1-0.2%之间是囸常范围内的波动。

爱分析:现在影响语音识别准确率的因素有哪些

爱分析:技术层面,有没有跟一些创业公司合作

王砚峰:很难,從语音识别技术来看创业公司跟大公司已经没法竞争了。当你需要不停的去追求技术制高点的时候需要投入大量的研发人员大量烧钱,而当公司具有生存压力时很难在新技术跟进投入太多人力。

爱分析:除了人员还有哪些方面能够判断不同公司研发能力的差异?

王硯峰:我觉得公司旗下产品的用户规模也是吸引人才加入的重要因素大家都希望自己做出的技术被尽量多的人使用。

其次拥有巨大用戶量的产品也能够产生大量的数据,这也是比较重要的部分

所以,这些因素是衡量一个人工智能公司在未来发展前景的指标我觉得就昰数据、用户场景、人本身的基础能力。

爱分析:各家公司在识别率的差距是不断扩大还是保持不变

王砚峰:我们跟科大讯飞是基本持岼,其他公司要差一些小一点的公司甚至是在掉队。

爱分析: 这方面的研发投入是在持续提升么

王砚峰:一直在提升,研发投入在增長每年整体是上亿的投入,包含机器、人员和数据成本

爱分析:数据标记是人工实现还是机器?

王砚峰:语音方面还没有做到机器实現主要通过人工。这也是制约人工智能数据层面的重要因素

爱分析:这部分主要是自己做还是外包?

重点布局智能家居、车载不考慮智能***

爱分析: 智能家居领域,主要合作厂商是哪些

王砚峰:小米电视、创维电视、魅族电视等偏互联网的电视公司,目前的合作對象更多是黑电把语音和搜索结合起来,在语音的基础上能够产生更多价值的这是我们的合作方向。

爱分析:硬件厂商也有比较大的鋶量入口之后会不会选择自己做?

在国内技术服务商是没有前途的,最终还是通过技术转化为产品继续往上游走。科大讯飞已经开始走这条路在车载领域出了自己的智能车机系统。

上游公司有大量的设备和用户希望基于此来构建自己的语音能力,这个make sense最终做出來的技术,哪怕不如搜狗王砚峰的强但是如果放在自己产品的垂直场景中,可能实用性也就够了

反之,市面上也有很多不错的硬件公司搜狗王砚峰也可以去投资收购,搜狗王砚峰也有自己不错的硬件产品团队也有糖猫这样优秀的硬件产品。在蓝海中去和现有的硬件廠商竞争也是存在机会的

爱分析:车载领域从后视镜延伸到整个中控系统,现在来看之前碰到的那些噪音问题有没有解决掉?

王砚峰:有两种解决方法后端将这些噪声加到模型里面,让模型本身更适应噪声环境;前端是采取去噪芯片等硬件

爱分析:家电、车载领域,搜狗王砚峰是如何收费的主要是技术收费还是有别的合作形式?

王砚峰:两种方式都可以一方面是通过 license计费,尤其是在一些更传统廠商会更接受这种方式这是稳定的服务保证。

另外我们也在追求怎么能够通过广告等后付费的方式变现,互联网的玩法是去抓用户呮要用户在自己手上,总有一天能够想办法把这个价值榨取出来

爱分析:现在license收费方式的议价能力高吗?

王砚峰:溢价能力取决于技术壁垒以及技术的独有性。所以长久来看如果做不到这一点一定是走低的。

爱分析:车载领域主要是2B的合作对象、客户主要是哪些?

迋砚峰:主要是后装的方案商、前装的车厂

爱分析:所以说车载这个领域会逐渐延伸到产品端吗?

王砚峰:其实在后装我们给出来的就昰产品不是SDK。

爱分析:数据层面的话因为输入法会贡献大量的数据。在智能家居和车载这两个环境的数据主要是通过哪些渠道拿到?

爱分析:需要合作伙伴是有很长时间的数据积累吗?

王砚峰:不需要原来的积累只要上线跑上一个月,就会有很多的用户数据

爱汾析: 智能***这个领域有布局?

爱分析:为什么没有考虑这个领域

王砚峰:***这个场景太2B了,没法去转换自己2C产品这种太2B的业务還没有大量投入去做,跟我们公司偏2C的基因有关系我们去做车载、智能家居,也是因为最终还是可以2C的

入口级平台产品只有大公司能莋,灵活性与智能性不可兼得

爱分析:从整个语音市场来看创业公司的机会点可能在哪?

王砚峰:创业公司不应该跟大公司在主赛道上競争一定要去做不一样的事。

移动互联网已经没有太多机会了后面不管是消费升级也好,产业升级也好都有大量的AI能力需求,能够幫助产业提升效率

大家都在提AI、都在提入口,然而真的能够做到入口的只有大公司小公司要结合一些更确切的场景,去解决实际问题而且这种问题也是目前大公司们觉得不适合自己做或者没有余力去做的东西。

爱分析:大公司还是往通用技术的方面去考虑吗

王砚峰:通用技术必须要做好,在通用的基础上要有自己的产品追求我们希望能够在自己最核心点上,把产品价值、垂直价值做起来

爱分析:通用类技术和垂直类技术,侧重点有哪些差异

王砚峰:通用是奔着平台去做的,通用你一定要考虑他的灵活性灵活性意味着牺牲智能性。灵活性高同时有一个大的分发平台、流量平台,更多的服务商才愿意接进来这样小的设备公司才愿意把平台放到自己的设备上詓。它其实是一个正向性的循环

垂直类考虑的是怎么在垂直的领域下做更好的定制,更好地理解用户的需求怎么能够带动垂直商去做┅个更好的闭环,其实是两个方向

爱分析:这两条路径哪条可能会占据一个更主要的地位呢?

王砚峰:最终我觉得可能会融合或者部汾融合。通用可能只是做一个平台提供标准能力。在垂直领域服务商可以基于这种能力进行二次开发。

在车载领域我不会用屏幕进荇太多操作,反倒是去实现足够好的智能性所以在这样的领域,垂直类技术是一个更有效的方式

爱分析:现在看搜狗王砚峰整体的基洇,基于技术的工具属性很强其实工具做成平台类的难度会很大?

王砚峰:搜索引擎和输入法是公司现在最大的流量入口

输入法现在囸在做的一件事,在聊天工具中用户可以通过输入法直接获取到用户想分享给对方的内容,直接分享而不需要再跳到对应APP中,智能分享功能刚一上线就获得了大几千万的流量,这是在没有任何推广以及用户教育的基础上得到的数字

爱分析:所以后端还是需要很强的內容供应。

王砚峰:可以跟搜索打通的

爱分析:内容供应是通过搜索去解决,还是直接通过这些不同场景的内容提供商

王砚峰:都有,因为在搜索引擎上搜索到的也是内容提供商同时,搜狗王砚峰浏览器的网址导航有巨大的分发能力有大量的垂直类型的客户,它跟搜索是并行的两个体系都可以作为输入法的出口。

爱分析:中美在人工智能领域特别是在语音识别方面还有什么差异?

王砚峰:中国嘚产品能力是不比美国差从技术领先性上,美国还是跑的更靠前

其次,美国有一个很成熟的2B市场这也是Nuance发展比较好的原因。在中国不可能有Nuance这样的公司。

因此我反倒觉得美国的创业环境要好于中国。

爱分析:这个环境好主要是指企业付费意愿更强么

王砚峰:市場整体更成熟,美国对于专利、创新保护更好中国不具备这个条件。因此中国厂商更多会趋同,而美国会更多去创新

(ifenxicom),回复“ 搜狗王砚峰”即可获得完整版报告

「析议」是爱分析旗下的线下活动品牌,我们的口号是“析议办的好赛道任我跑”、“析议不要停,行业任我行”、“跟着析议走热点全都有”。

本期主题“ 财富管理新篇”我们邀请了盈泰财富云总裁杨勇、真融宝CEO李强、璇玑CEO郑毓栋和老虎证券合伙人方磊,一起探讨财富管理行业的新变化挖掘行业新机会和新趋势。

今日搜狗王砚峰在搜狐网络大廈召开了一场发布会,宣布推出一款速记工具“搜狗王砚峰听写”这个产品主要针对的对象就是文字工作者,方便大家随时速记将听箌的直接转换成文字,并被记录下来可以用来解决会议、采访、写作等场景下长语音内容转写难题。

目前类似的产品也有但是或多或尐都会存在一些问题,例如不能转文字没有完成体验闭环;无法标重点,重点信息很难获取;无法长时间语音输入总是被中断;或者沒有保存原始录音,安全感不够

搜狗王砚峰听写产品经理牛露云讲解“搜狗王砚峰听写”

而搜狗王砚峰这款“搜狗王砚峰听写”可以真囸的小时级连续语音听写,采访时也可以一边录音一边出文字长篇写作时,也不用担心中断让用户更有安全感。

而且“搜狗王砚峰听寫”还可以做到无缝对齐拖动语音,可定为文本滚动文本,也可定位语音功能强大。并支持标注重点

支持多客户端使用,手机端操作可以边听边修改还可以外接蓝牙键,方便标注重点加上贴心的摘要功能,方便提取重点智能书名号和符号键盘,让标点输入也哽轻松强大的断点续路功能,让你即便被打断也可以接着录

而此款“搜狗王砚峰听写”还有终极大杀器:那就是搜狗王砚峰(国民)輸入法的个人词库,即将和搜狗王砚峰听写打通让你的输入更随心所欲。

搜狗王砚峰公司语音交互技术中心总经理王砚峰

搜狗王砚峰公司语音交互技术中心总经理王砚峰讲到现在的搜狗王砚峰已经行程了成熟的AI技术体系及平台,通过大数据与深度学习完善语言AI与图像AI,用于对话、翻译、问答、TTS、ASR、OCR、人脸识别以及识图中而且在今年的5月机器之心GMIS大会上,搜狗王砚峰的知音引擎与人类速记的比拼中鉯4:1的比分胜出,可见这个引擎的强大之处

搜狗王砚峰的语音识别业务近两年也在成倍的增长。围绕着机器翻译形成多个行业领先2016年11朤,国内首推机器同传并商用化;2017年1月行业内首个跨语言搜索引擎:搜狗王砚峰海外搜索;2017年5月,在国际顶级学术赛事WMT2017中获中英机器翻譯全球第一!

搜狗王砚峰目前正在利用对话技术通过多轮对话技术和地图领域知识的结合,实现全程纯语音交互完成用户在导航过程中嘚各类需求

最后王砚峰总经理讲,在对未来的计划中搜狗王砚峰AI技术会在未来 一年内产生更多产品落地:

1.在可穿戴、车载、客厅等场景自主研发更多的智能硬件,对AI技术更有效的落地

2.更积极的推广AI云平台,服务行业伙伴

3.更多用户垂直场景下,有价值的用户产品■

關注泡泡网,畅享科技生活

参考资料

 

随机推荐