标贝科技的语音合成 芯片怎么样?怎么体验到合成效果?

标贝科技:人工智能的高层建筑取决于数据基础设施-中新网
标贝科技:人工智能的高层建筑取决于数据基础设施
日 11:12 来源:  
  11月1日电 数据显示,2016年中国数据总量占全球数据总量的14%。据预测,到2020年,中国的数据总量将占全球数据总量的20%,届时中国将成为世界第一数据资源大国和全球的数据中心。
  数据已经成为了人工智能时代的基础设施
  然而这些科技创新的动作,基本上属于远离应用的高层建筑。不管是企业,还是普通用户,这些顶尖的科技计划都只能被当做膜拜的对象,并不能对生活真正起到什么实际帮助。
  其实,真正改变人们生活的是已经投入使用的人工智能技术。其中语音识别、图像识别等技术是应用最为广泛的技术。
  AI风口下
语音技术先行进入人们生活
  AI语音技术的广泛应用,通过效率的提升,场景的便捷,重新定义了用户体验。
  语音识别(Automatic Speech Recognition)是以语音为研究对象,通过语音信号处理和模式识别让计算机自动识别人类口述语言。简单来说,就是让机器可以听得懂人话。
  在具体的生活中,语音识别技术解放了人类的双手并提高了效率。在一些基本操作中,无需要每个字都操作键盘或点击屏幕了。一分钟400字的速度靠打字是无法超越的,所以特定场景下,语音的技术可以大大的提升人机的效率。
  传统神经网络受限于数据不足,硬件功能不强大等因素;而深度神经网络则有几十上百层,每层有很多节点,更逼近人脑的思维能力,同时借助于大数据,极大地提升了语音识别准确率。
  数据服务质量决定语音产品体验
  在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。
  这给从事语音技术领域的创业企业造成了很大的困难,如何获得优质的数据资源是直接影响产品体验的核心问题,大多数的语音技术产品依赖于成熟专业的数据服务公司。
  数据服务的质量不仅决定产品的体验,更决定企业的生存和发展。这让企业选择数据服务公司的时候非常谨慎,然而近一年来,数据服务领域悄然杀出一匹黑马,收到了众多互联网巨头的合作要约。标贝(北京)科技有限公司成立于2016年2月,短短一年时间,已经成功为多个互联网巨头公司AI产品提供了不同规格的数据服务,并于近日正式获得全国高新技术企业认定。这个还未被广泛大众熟知的企业,其技术其实已经通过应用渗透到了大众生活的各个角落。
  标贝科技是典型的幕后工作者,语音识别与合成是一件苦差事。在整个语音产业链条当中,标贝科技处于数据服务环节,具体而言,包括语音合成和语音识别项目,其中技术含量较高的语音合成又包括发音人选择、语料设计、语音采集、数据处理、语音深度加工等步骤,为客户提供一整套的定制化数据服务。数据类型上包括文本数据、语音数据等。
  语音合成技术分两种,第一种称为拼接法。把语音里面所有的语料基础片段都录好,再根据需要,择取语音单元,并拼接成具体话语,这种方法需要大量的语音录制。第二种称为参数法。基于有限的语料数据通过参数模型训练,合成新语段,参数法的优势在于对录音数量要求较少,几千句话就能出一个合成效果。标贝科技合成部负责人王艳茹表示,无论客户用哪种合成技术,都离不开专业的语音数据服务,而标贝最核心的任务恰恰是提供优质的语音数据,让客户可以专心于合成技术的研发,快速实现高质量的合成系统。
  提供优质的语音数据只是结果,过程还包括语料设计,语音采集,音字标注、韵律标注、声韵母切分等模块。在语料设计方面,标贝科技在前期就针对客户需求制定不同的语料设计方案,不同领域采用特定的语料;在语音采集方面,为了保障语音质量,标贝安排专人全程监督录音棚录制过程,确保源头语音素材品质;在数据处理环节,标贝先通过计算机程序预处理,再由人工完善矫正,这样不仅提高了工作效率,还提高了数据处理的准确性。
  传统的人工标注算是一种劳动密集型工作,难以大规模拓展和复制,但是标贝科技基于深度学习的预处理系统,不仅可以大幅改善自动处理的正确率,而且效率提升达10倍之高,可以大大降低数据加工周期。
  除了提供成熟的基础数据服务之外,标贝科技还可以针对语音合成系统提供一整套的TTS前端解决方案,包括分词词性、韵律、多音字、数字符号等,这套方案使得合成系统的前端模块达到行业领先水平,从而使语音合成效果更加接近真人发声的状态。
  标贝科技还拥有一支庞大的识别项目团队,提供语音采集、转写、语音标注、平行语料、图片采集、图片标注业务,其中语音采集包括情感采集、国内方言和普通话、少数民族语言(藏维蒙)、定制年龄语音采集(包括儿童老年人)以及国外语种(50多个国家),图片采集包括人脸(自然和情感)、道路(汽车、街景)、手写体等。
  标贝科技投入运营时间不久,已经凭借高质量的数据服务在业界享有良好的口碑,在未来,标贝科技还将继续推动业务智能化,除了通过人工智能技术把简单的标注处理的更好,还将努力通过技术手段提升后期合成的准确度。
  随着人工智能技术的高速发展,语音技术将在日趋成熟的技术上继续蓬勃发展,更多能听懂人类,或者能与人类深刻交流的智能产品将不断丰富大众的生活,这一切都将基于准确、高效、优质的语音数据服务的支撑。以标贝科技为代表的数据服务公司,也将在追求突破创新的过程中,扎实做好幕后工作,帮助客户盘活各类大数据资源,充分挖掘海量数据中有价值的信息,实现数据价值最大化,以推动相关技术、应用和产业的创新。(完)
【编辑:刘博】
 |  |  |  |  |  |  | 
本网站所刊载信息,不代表中新社和中新网观点。 刊用本网站稿件,务经书面授权。
未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。
[] [] [京公网安备:-1] [] 总机:86-10-
Copyright &1999-
chinanews.com. All Rights Reserved标贝科技 | 中国智能音箱已入局全球市场 双重商业模式迅速扩张标贝科技 | 中国智能音箱已入局全球市场 双重商业模式迅速扩张标贝科技百家号最近,全球知名创投研究机构CBInsights发布了有关中国智能音箱市场和业务模式的研究报告,这是“中国人工智能”系列报告的第三部分。这份报告将目光转向低成本、高容量的智能音箱市场,探讨新的商业模式是如何模糊市场竞争路线的。报告指出,2014年,亚马逊发布了内置人工智能助手Alexa的智能音箱Echo,这标志着一个家庭自动化新时代的到来。在近四年的时间里,亚马逊的Echo音箱一直主导着智能音箱市场。现在,智能音箱的普及程度越来越高,智能音箱也越来越商品化,而且成了一种全球性的现象。早期进入智能音箱市场的亚马逊正在失去它的市场份额——不仅仅是因为它的竞争对手谷歌,还有中国新兴的智能音箱玩家的出现。调查数据显示,2017年第一季度,亚马逊智能音箱的全球市场占有率高达80%,紧随其后的谷歌有19%,阿里巴巴和小米的市场占有率均为0%。而到了2018年第一季度,数据发生了明显变化:亚马逊的智能音箱在全球的市场占有率下降至28%,“后来者居上”的谷歌占到36%,其次是阿里巴巴12%的市场占有率、小米7%的市场占有率。另有调查数据显示,中国是全球第二大消费市场,仅在2016年就达到了4.3万亿美元的消费支出(美国以12.5万亿美元排名第一,日本排名第三,2.7万亿美元)。根据Juniper Research调查公司的数据,中国智能家居市场在2018年将达到近230亿美元。智能音箱和人工智能语音助手正成为这一市场中不可或缺的一部分。以下是CB Insights的分析师对智能家居市场的预计情况的汇总。随着中国智能家居市场的升温,谷歌和亚马逊等老牌企业正面临新的竞争。利用CB Insights的数据,我们深入了解新兴市场的参与者、合作伙伴、商业模式,以及中国在推动低成本、高产量的智能音箱市场方面所扮演的角色。美国公司没有给中国市场提供足够的服务不论是亚马逊的Echo音箱还是Google Home智能音箱都没有渗透进入中国市场。除了美国科技公司在中国面临的严格监管之外,中国的自然语言处理也很复杂(有130种方言和30种书面语言),这使得语音识别成为了一个巨大的挑战。在美国的大型科技公司中,只有苹果的智能助手Siri支持普通话。该公司的Homepod智能音箱目前只支持英语,还没有在中国进行发售。这让中国市场得不到美国企业的充分服务,而本土企业正在利用这一点。智能语音是中国政府在全国首批人工智能应用领域的四大主要关注焦点之一,另外三个领域是医疗保健、智能城市和自动驾驶汽车。中国的大型科技公司已经在中国大举投资。阿里巴巴在中国年度购物盛会“双十一”中以15美元的价格开始发售其天猫精灵智能音箱。百度最近将其在中国发售的智能音箱产品之一的价格从39美元下调至14美元。这些低价格使得小公司几乎不可能参与市场竞争。新兴商业模式模糊了竞争界限进入智能家居市场的中国企业正在部署一种双重商业模式,以获取全球市场份额,并在中国扩张业务:首先,他们与美国科技公司合作,将他们的硬件搭载微软小娜和Alexa等人工智能助手,在中国以外的地区销售智能音箱。其次,他们正在与中国的智能语音创业公司合作,或者公司内部开发对话式的人工智能软件,在中国境内销售,而美国的科技公司在中国市场面临着严格的限制。下面是一些公司采用这些方法的例子。联想为了进入智能音箱市场,联想与亚马逊合作,在美国推出内置Alexa软件的智能音箱。在推出之时,该公司的智能音箱价格比同等规模的亚马逊Echo音箱要低50美元,而且据说音质也更好。这符合亚马逊最近与第三方硬件制造商合作的趋势,即将Alexa的语音软件作为服务出售,从而扩大Alexa的市场渗透率和用户基数。为了进一步提高其硬件能力,联想与领先的音响设备制造商哈曼卡顿合作,生产音质更好的音箱。三星子公司Harman Karson也与亚马逊建立了合作关系,以销售自己的Alexa音响,这进一步模糊了全球竞争的界限。但对于在中国国内的销售而言,联想则是利用人工智能创业企业AISpeech开发的语音识别软件,开发了单独的音箱模型。MOBVOI谷歌在2015年投资6000万美元支持Mobvoi,这是该公司首次直接在中国投资。这家创业公司生产语音手表、音响和智能镜子。Mobvoi的智能发言人TicHome在全球范围内配备了谷歌助理,但在中国,谷歌仍然面临严格的限制,Mobvoi出售其智能音箱,并内置了自己的语音对话软件。(注:谷歌本月收购了中国电商巨头京东的少数股权。据报道,这两家公司曾讨论在京东购物网站上出售Google Home音箱,虽然目前还不清楚谷歌在中国采取何种模式扩张业务,以应对目前的市场限制。)京东也是最早推出智能音箱的中国厂商之一,这款名为DingDong的智能音响采用了领先的语音识别公司iFlytek的人工智能软件。小米独角兽公司小米是中国领先的手机公司之一。(独角兽”公司是指成立10年以内、估值超过10亿美元、获得过私募投资且尚未上市的企业。)该公司正在开发自己的人工智能助手,与亚马逊的Alexa合作,并有可能整合微软小娜,推出新的智能音箱产品线。这一合作可能会让一直在智能音箱竞赛中远远落后于谷歌、亚马逊和苹果等美国科技公司的微软在市场中获得一席之地。除了智能手机和扬声器,小米还在中国销售各种各样的消费电子产品,包括智能电视、吸尘机器人、智能灯具,甚至还有电饭煲。考虑到它对人工智能的关注(它最近组建了一个500人的人工智能团队),我们可能很快就会看到它的人工智能助手问世。语音市场中的百度、阿里巴巴和腾讯中国最大的三家科技公司——百度、阿里巴巴和腾讯——正将自己定位为在从医疗保健到无人驾驶汽车等一系列行业的人工智能领域的全球领导者。智能音响是这三家公司共同关注的领域。百度百度希望其DeurOS平台成为全球主要的会话人工智能软件,与亚马逊Alexa直接竞争。在今年第四季度,百度推出了一款名为“Raven H”的智能音箱,它的名字来自于去年被百度收购的人工智能助手初创公司Raven Tech。尽管百度的智能音箱在其对话的人工智能平台DuerOS上运行,该公司同时也依靠外部伙伴进行硬件设计。Raven H公司与瑞典一家名为“Teenage Engineering”的公司合作,发明了一种与市场上其他公司都不一样的音响。下面是Raven H的照片,还有一个由Teenage Engineering公司拥有专利的无线扬声器。去年,百度还收购了总部位于美国的自然语言处理创业公司kitt.ai,该公司曾得到亚马逊Alexa基金的投资。在今年第一季度,该公司在中国境外地区推出了第一款搭载DuerOS系统的商用硬件产品:在日本推出了一款集智能音箱、智能台灯和投影仪三大功能为一身的产品。DuerOS受到的是中国数据的培训,但百度在2011年收购了日本输入法编辑器Simeiji后,百度获得了理解并支持日本用户的对话和语法的条件。百度也在韩国申请专利,且已在韩国有了专利技术,同时它也在为进入东南亚市场做准备。例如,一项名为“基于人工智能和终端设备的人机交互方法”的专利(如下图所示)似乎将语音识别和面部识别技术结合起来,就像亚马逊的Echo一样,将其应用到类似于消费者的机器人设备上。除了美国和中国等主要消费市场外,该公司在日本和韩国申请了该专利。阿里巴巴阿里巴巴宣布,自2017年7月正式推出以来,已售出超过100万台天猫精灵智能音箱。天猫精灵使用人工智能语音助手AliGenie,与亚马逊的Alexa进行竞争。AliGenie类似于Alexa,用户可以给AliGenie添加至少100种技能,还可以通过AliGenie在阿里巴巴的电子商务网站上用自己的声音购物。据The Verge报道,这些命令中有许多可以通过说出“天猫精灵”来激活。AliGenie可以通过手机摄像头识别物体,包括4万个药品包装、儿童书籍封面和更多的东西。其医疗保健功能主要针对中国老龄化人口和视力障碍人群。除了智能家居外,阿里巴巴还在为10万间万豪国际酒店客房配备智能音响设施,提供礼宾服务。腾讯最近,Tecent加入了智能音箱竞赛,但它的强大之处在于其微信的用户群,其微信用户群有近10亿人左右。它的智能音箱Ting Ting将可以访问微信的应用和服务,比如发送语音信息,免提。从CB Insights平台上进行对腾讯语音在美国申请的专利的搜索得到了超过了50个结果,包括语音处理和认证方法。与美国争夺市场份额对智能音响主导地位的竞争并没有放缓。来自中国企业的廉价音响可能日益威胁到正在研发硬件的美国大型科技公司,迫使它们专注于人工智能软件开发。但即使是在人工智能软件领域,两国的科技巨头也瞄准了同样的市场和合作伙伴。例如,亚马逊与之前提到的Harman Kardon合作,销售装有Amazon Alexa的Harman智能音箱。而百度已经与Harman单独合作,将其对话人工智能平台DeurOS整合到Harman的汽车中。Sonos最近推出了与Alexa集成的智能音响,计划在2018年底前支持苹果的Siri和谷歌助手。Sonos也在与中国的初创公司Rokid合作,以解决中文支持的问题。在智能音响方面,中国企业无疑在国内拥有优势,但在全球范围内,它们面临的最大挑战是,与Facebook、亚马逊、微软、谷歌和苹果公司相比,它们缺乏外语用户数据。它们在智能家居领域的国际扩张,可能将取决于在特定市场上的合作或收购大数据公司,类似于百度在日本推出其人工智能助手阿拉丁时的做法。为了实现这些目标,更多的国际合作、投资和收购可能正在酝酿之中。标贝科技 | 音领智能未来本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。标贝科技百家号最近更新:简介:人工智能数据服务提供商作者最新文章相关文章400-050-8080
北京 朝阳区
提示:如在投递及面试过程中遇到招聘方的任何收费行为,则存在诈骗风险,请务必提高警惕!举报
标贝(北京)科技有限公司注册于2016年2月,是注册在中关村数字电视产业园的拥有自主知识产权的研发型企业。标贝专注于互联网综合数据服务的公司,提供文本、语音和图像等多种数据类型的服务。
凭借在数据加工处理方面的优势,致力于为客户提供快速、准确的专业数据服务,从而帮助客户盘活各类大数据资源,充分挖掘海量数据中有价值的信息,实现数据价值最大化,以推动相关技术、应用和产业的创新。公司拥有领先的技术优势和强大的资源整合能力,公司在全世界范围内开展业务。以语音数据为例,掌握国际主流标注体系Tones and Break Indices(ToBI),可采集、加工普通话、英语、粤语、日语、韩语及方言等各类数据,支持客户进行语音合成或者语音识别系统的研发工作。公司已与包括顶级互联网公司在内的百度、嘀嘀、乐视、猎豹等国内外多家企业及研究单位建立了良好的合作关系,并成功为其提供数据服务。
[北京 通州区]
[北京 海淀区]
[北京 东城区]
,可查看联系方式哦!
关注英才微信,轻松跟踪应聘进展
扫二维码,主管排队等你勾搭
ICP经营许可证编号 京ICP证060405号 京ICP备号-12 京公网安备37号 Copyright (C) 北京五八信息技术有限公司 版权所有标贝科技 | 爱说唱、初音未来、小冰...今天我们来说说那些AI歌手们
当下,说唱文化正逐渐在中国流行起来。自去年夏天一档说唱类节目横空出世以来,社交网站上的话题几乎都被它包圆了,以至于今年要播出的第二季还未见踪影,就已经引爆了观众的期待感。这类节目把说唱歌曲这类小众文化带到更广泛的人群面前。但对于普通用户来说,比起流行歌曲,“说唱”显然更有难度:节奏、押韵,说唱文化中的嘻哈态度都让人望而却步。但是最近,人工智能好像为我们解决了一部分难关。在百度7月4日举办的AI开发者大会上,百度副总裁沈抖携说唱歌手孙八一,发布了一款名为“爱说唱”的智能小程序:用户只需选择背景音乐,然后随便说出一段话,就可自动生成一段堪比专业的RAP歌曲。人人皆可RAP?听上去很吸引人。作为人工智能的新尝试,爱说唱获得了不少目光,毕竟没有freestyle也没问题了。那么,还有哪些人工智能已经在乐坛上出道了?今天小贝就带大家来盘点一下那些AI歌姬们。初音未来、洛天依说起“虚拟偶像”,几乎所有的宅友们脑海中跳出的第一个名字便是“初音未来”,作为世界上第一个举办演唱会的虚拟歌手,世界第一公主殿下的名号可以说是响彻云霄。初音未来,是2007年由Yamaha的VOCALOID系列语音合成程序为基础开发的虚拟少女偶像。对,你没有看错,这个葱色双马尾辫的少女的缔造者,是雅马哈。说到雅马哈,估计大家脑子里首先跳出来的会是:事实上,看起来“不务正业”的雅马哈产品还包括钢琴、电子琴、数码钢琴、等乐器,音效芯片、XG声卡、影音处理机器、系统处理机器、专业音响机器、半导体至电子产品、防音工程及高尔夫球用品都属于业务范围之内。总之,就是让你弹雅马哈、听雅马哈、用雅马哈、玩雅马哈、打雅马哈....我整个人都雅马哈了2004年,雅马哈开发了电子音乐制作语音合成软件核心引擎VOCALOID,就是初音未来和她的中国风妹妹洛天依的核心。根据目前主流的语音合成方式,Vocaloid采用的是“拼接合成”技术,使用者可以通过输入歌词和音符的方式直接生成歌曲。如果需要创作一首新的曲子,使用者需要规划歌词和音调,编辑歌词和音调。并且可以对生成的"唱词"进行各项微调,包括呼吸力度、口的开合甚至颤音,令原本破碎的声音数据变为连贯的类人电子声音。采用这种方式来创作,可以实现对歌曲最精确的控制,最大限度展现创作者的音乐想法。但另一方面,也很需要作者调整各项参数的功力。微软小冰不同于初音未来这种天生歌姬,微软小冰是半路出家,唱歌的原理也不一样。虚拟歌手需要录制好的声音库,再通过重新拼接声音库中的片段形成歌曲;而小冰唱歌是根据输入的信号做出发声的反应,也就是机器学习。第四代的小冰在音调、音质、自然度、衔接上都有了极大的改进,此外又加上了换气的声音和人类的演唱技巧,大大提高了演唱的自然度。佐藤莎莎拉佐藤莎莎拉是由基于HMM合成技术的声音创作软件CeVIO Creative Studio创造的虚拟歌姬,因其酷似真人的声音,被粉丝称为站立在现实和动画的交界处的女主角。CeVIO Creative Studio采用的算法在本质上与VOCALOID的"拼接算法"不同,HMM合成通过提取人声中的特征量建模,可以最大程度保留人声的特征,经过后期可以与VOCALOID媲美甚至更加接近人声,在声音的拟真度上可以说也并不逊于今天的小冰。在某种意义上,虚拟歌姬和小冰都是利用技术降低了艺术创作的门槛,但根本性的不同在于对这一问题的回答:科技在艺术创作中应该扮演什么样的角色?显而易见的是,小冰所代表的无疑是一个激进的科技派:利用科技的发展降低、乃至消除艺术创作的门槛,让技术引导人类的进步。而Vocaloid方面,尽管YAMAHA公司也一直在不断探索前沿的语音合成技术,在音乐创作上采取的却是最为传统的姿态:提供一个乐器,但将创作的自由完全归还给创作者。这种态度最大程度上回归了艺术的本源:人的自我表达,但另一方面,也在客观上保留了创作的门槛。在Vocaloid的圈子里,真正创造价值的仍然是创作者本身,在这里,技术让位于了人类。当然,以小冰的人工智能水平,我们并不需要讨论“人工智能威胁论”之类的东西,但现实的问题确实摆在眼前:在艺术创作领域,“大众”、“简便”的工业化生产似乎已经近在咫尺,而这种流水线生产真的就能完全取代专业而精密的调教了吗?对于创作者而言,“艺术创作”究竟是怎样一种行为,而对于观众们来说,他们欣赏艺术作品时,希望接收到的又是什么呢?小贝认为,艺术创作所赋予观众乃至社会的,并不是简单地文字优美、曲调生动,而应该是一种来自于现实社会的思想。标贝科技 o 音领智能未来
没有更多推荐了,感谢赞赏!给好友秀一下吧
内容棒,扫码分享给好友
让语音助手更像人,要做出哪些努力?
标贝科技是一家2016年2月组建,6月开始正式运营的语音合成公司。凭借不到30人的小团队和仅仅1人的市场兼销售,他们在成立当年便与百度、滴滴等大企业展开合作,确立了自己在语音合成领域的位置。语音合成对多数人而言并不是多么陌生的技术,大家都知道这一技术应用在哪些地方。百度地图、滴滴出行等出行类app,喜马拉雅小雅音箱、Rokid若琪等智能音箱,出门问问等语音助手都被我们熟知。他们的声音背后,都有标贝的方案。语音的背后是智能。标贝科技在产业中所处的位置,是人工智能的人机交互部分,这部分可进一步细分为语音识别、语义分析(2017年在国内骤然兴起的NLP)及语音合成三个领域。诚然,作为一家创业公司,标贝科技需要面对不少先行者乃至巨头;幸运的是,科大讯飞、捷通华声等老前辈把更多精力集中于语音识别,近些年国内的创业同行们也普遍专攻NLP,语音合成则相对是市场认知较晚、从业专家较少的领域。国内最早研究语音合成的团队,一些在国家机关如中科院,一些集中在高等学府如北大、清华、中科大等,一些则在科大讯飞、捷通华声等公司任职。最初的语音合成技术,应用于银行叫号机、火车站广播等跟互联网没啥关系的产品。严格来说,那个时代的语音合成并不是人工智能的细分领域;也因此,在需求变化后,当语音合成离不开人工智能,这个行业需要一定程度的「从头再来」,这也就给了标贝科技等创业公司以机会。虽然尚属创业公司,但标贝科技的创始团队及其核心技术人员普遍有着六、七年以上的从业经历,他们来自科大讯飞、捷通华声、百度等大企业,不仅是这一曾经的冷门行业中为数不多的高级人才,彼此之间的合作也早有年月。此次出来创业,以创始人刘博为首的标贝科技,打算带着语音合成的专业知识和经验,全面拥抱人工智能时代。仅仅提到「语音合成」,不足以描述标贝科技的垂直程度,实际上他们更专注于语音合成背后的数据库及其加工方式。简而言之,机器说话可以理解为对人类说话的一种模仿,但人类说话并没有一种固定的模式——拿高德地图来说,林志玲语音包和默认语音包能一样么?基于林志玲创建的语音数据库,可能就比来自其他人的更受欢迎一些。更细微的差别不止于此。一个成年人在兴奋时什么语气,沮丧时什么语气,正午什么音调,子夜什么音调,工作时如何用词,私密时如何用词,可能都会有显著区别。对于社会而言,10年前人们普遍的说话方式,及今天人们普遍的说话方式,差异也是一听便知。比如你现在走进屋子来录音。你刚刚进来时的声音,和你坐了一个小时后的声音,其实是不一样的。如果用这种有瑕疵的数据库来做语音合成,就很难避免不自然、不像人的地方。消除语音助手的「机器味」,或至少避免严重的违和感,产品背后的语音数据库就一定要与产品调性匹配,并且与时俱进——同样是神似真人的声音,你大概不希望打理日常琐事的语音助手,是2006年黄健翔解说足球比赛那个风味吧?标贝所做的事情,就是通过构建更完善、更优质的数据库,让机器发声更自然、更贴近真人,也更适合产品自身的需要。使用过小雅音箱或若琪(这两款音箱的语音合成都来自标贝)的朋友大可自己判断,和其他产品相比,哪些声音听起来更舒服。标贝科技创始人刘博表示,从数据库切入市场也有另一重考量,在于数据库更有说服力。比起对技术的解读,直接展示手中的资源更容易打动客户。不过,如今的标贝也推出了比数据库更直观的产品——免费、公开的,让不了解自己「为什么做不好语音合成」的客户明白问题出在哪儿。发现问题后,有些问题可以通过技术层面的改善解决,有些则必须调整数据库本身。这时,标贝积累的资源就能派上用场。基于更好的数据库,很多努力都可以事半功倍;对于企业来说,既然没必要重复造轮子,提前做好准备的标贝,就顺势成为了许多企业的首选。毕竟,时代已不同以往,想要在人工智能领域取得优势,细节非常重要。不管说的内容是什么,有人说话让你听着很舒服,有人则让你很烦躁。声音是一个与体验密切相关的东西,合格的就是合格,不合格的就是不合格。不合格的声音再怎么做些微改善,也达不到今天的要求。而不合格的声音带来的,则是顾客对产品评价的全面下降。回忆一下,在与通常的语音客服交流时,听着那种语速极慢的机器声音逐个蹦字「XXX请按1,XXX请按2……」,你的第一需求是否是「马上转接人工」?类似语音客服的存在,不仅没有很好地缓解人工客服的压力,更是浪费了客户的时间。不管对企业还是对社会,这种听起来就像机器的声音,都有改善的必要。「人工智能兴起之前,市场没有对语音合成的需求。所以直到2015年、2016年,这个行业才有创业的机会。」刘博说,标贝能很快与各行各业、很多公司开始合作,也正因为语音合成的圈子太小,谁做了什么、做得怎么样,圈里人都一清二楚。团队实力强劲的标贝,很快便受到关注,业务起步迅速也是情理之中了。正因为行业以前有点「隐形」,从业人员太少,现在的人工智能公司,无论做智能音箱、语音助手还是儿童玩具,都极难找到足够人才组建自己的语音合成团队。这时,由行业精英组成的,为数不多的几家创业公司,会对市场起到举足轻重的支持作用。标贝科技也因此被凯泰资本看好,于2017年10月拿到1000万元规模的Pre-A轮融资。值得一提的是,从成立初期一直到2018年,标贝提供的主要服务就是数据库及部分算法,从一个相当垂直的角度切入市场,打造了良好口碑。但今年开始,考虑到越来越多的新公司、小团队也加入了人工智能大军,而他们需要的更可能是完整的语音合成方案,标贝也推出了自己的语音合成全套服务。那么,哪些行业最可能成为标贝的客户呢?刘博透露道,虽然目前能见到的还不多,但人工智能语音很快就会在泛文娱方向发力,尤其是游戏及儿童玩具等。刘博说,游戏中的NPC引入人工智能后,就能应对更多的情况,不再重复向玩家播放两三句固定台词。这不禁令我想起《上古卷轴5:天际》的一些智能NPCmod。mod虽然带来了更丰富的内容,无非也只是从一个小框架跳到一个大框架里,用mod作者的努力代替了游戏团队的更新。但智能化的NPC,则能跳出框架,进入一个真正自由的领域。届时,游戏,尤其是近年火热的开放世界游戏,显然会给玩家带来更丰富多变的体验,也能极大延长游戏的寿命。与此同时,若将更好的语音合成技术应用于机器人,则家用机器人就会更有陪伴感,更适合照顾小孩、老人。今年的中国,机器人娱乐很可能成为重要的一环,我们不妨——谁是智能的,谁还停留在「银行客服」水平。同为创业公司也想求报道(请或加编辑微信 zy )?只要你们对产业正在产生影响、或未来可能有颠覆效应,就都是我们的关注对象——无论大小。
*文章为作者独立观点,不代表虎嗅网立场
发表,并经虎嗅网编辑。转载此文章须经作者同意,并请附上出处()及本页链接。原文链接:https://www.huxiu.com/article/233736.html
未来面前,你我还都是孩子,还不去下载 猛嗅创新!
别打CALL,打钱
最多15字哦
后参与评论}

我要回帖

更多关于 语音合成助手 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信