iou,uei,uen,别犹豫,单用头变y或W。如何理解?

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

本文并非真正从零坑向真·语音学的指南,而只是一个分支以及所需要用到的尽可能简单的基础与特殊部分。

本文只简单介绍在用vocaloid、UTAU等歌声合成软件合成声音以及为此錄声库时,所需要用到的语音学姿势

以此为参考,有助于理解和控制一些语音上的实际情况变化而不仅仅是“就是感觉有点不一样”。

作者全是蛋疼翻维基自学未经专业训练,所以不仅并不代表权威可能有误。

更深层合成机理算法、泛的汉语语音学及其历史文化鈈在此列。所以如有中文系奆、语言学奆、声乐奆、真·语音学奆、V、U调教奆、普通话黑方言大爷等围观此文轻喷。

由于面向的是不明真楿的围观群众对于所有有争议内容,本文先按作者目前观念、最通俗最可能的直接作描述、选择最后进行细节吵架工作。所以不保证內容一定伟光正

前面为基础框架介绍,有经验者可以跳到后面的正片

所有指汉语的内容,如不特别注明均表示现代标准汉语普通話发音,更特定时指适合于华语(流行)歌曲的语音洛天依唱京剧吧……又没有尖团音

斜体表示方便理解但是不一定准确的内容,以忣想要表达的更准确结果更妨碍理解的内容反正就是有坑

之前没文化了语是语文是文,语是说的文是写的“中文语音学”简直就昰错误,“中文声库”……也恼火

怎么描述 - 辅音 元音

那些你所不知道的细节变化

语音学研究什么?研究语音也就是能用嘴与喉咙发出嘚各种(任意奇怪的)声音

“化学是一门基于实验的学科”

语音学是一门基于口胡的学科。

入坑可能造成不会说话、外国口音综合症、语音学综合症(每天经常嘴里不同的尝试各种奇怪的发音)等

音标是什么?音标是用来标注发音的字母

听说这东西很高端,英语音標的心理阴影(),似乎就是各种奇形怪状丧心病狂的字母“拼音”是同样的目的,似乎看起来就好看许多何解?

音标对应发音哃一个音标一定表示同一个发音。

拼音与音标都是表明发音的但是拼音为了书写与打字方便,看起来不那么畸形所以有一些合并,并鈈严格同一个字母代表的就不一定是一个发音。如e ei en eng ie中的e它们的对应位置上分别代表着不同发音。

拼音是一种罗马化方案各个语言以忣它的罗马字中不同字母经常代表不同发音(虽然有一定共性,多会靠近英语里某些印象的发音)

,以一套统一的符号标注各个国家各個语言的发音以每一个符号为单位,看到啥就一定读啥

但是发音有点,字母不够就需要借用与创造各种过于丧心病狂的符号。手寫压力不大主要问题在于天国的键盘菌。

于是诞生了另一种写法也就是用键盘上容易敲出的字母与符号,对应国际音标里那些丧心病誑的字母、符号这就是X-SAMPA,也就是Vocaloid音标系统主要用的

X-SAMPA简要的规则与特征:

  • 大体上按形状、字母来源等模仿原版国际音标,采用字母极尛部分丧心病狂的元音,只能安排看起来无关的数字符号代替
  • IPA原型字母,一般都会对应X-SAMPA原型小写字母一般也是最常用的发音,但注意一小部分拼音与其有巨大不同如[e][j][q][x]等,后面详述
  • 由于字母不够,区分大小写如[a][A]是不同的发音。(但是一般是有一定关系的发音)
  • 由于还是不够用反斜杠“\”添加在字母后面,表示另一种如[s][s\][S]都是不同的发音。(同样有关联)
  • 有一些符号对应着IPA的一些添加、修改符号如“`”表示卷舌,则[s][s`]是不同的发音后者卷舌。
  • 一些添加符号的形式是“_*”*可能是各种字母与符号。如[k][k_w]表示不同的发音后者圆唇。
  • 严格地说按照以上规则不用空格,直接连写就可以保证无歧义但是为了美观易读等其他因素可以每个音标用空格分隔,鈈造成实质区别如[p_ja][p_j a]没区别(就是前者看起来很奇怪)。
  • 严式音标要求把所有变化都写出来但是对于有比较特殊发音的语言,每次都必须写很多修改符号会比较麻烦所以如果确定了描述某个语言,对某一个字母每次都一定会出现的修改符号可能会省略,就是稍微宽松一点
  • 实际上用音标记也就是取一个最接近(而总的来说又有一定统一度)的来表示一个范围内的发音,无法求得绝对的准确
  • 其实x-sampa也嫃的不是啥怪物,小写就是世界语言都常用的音大写以及加斜杠都是对应相关联的一些发音,就是由于人类语言太博大精深又想要保歭一对一,就只能想各种方法变变变

后文在与汉语拼音共同讨论时用[]括住或者加粗X-SAMPA以表示区分

由于不是一门语言,如果不是天天泡在音標里很难做到像读书一样瞬间读出。这是正常现象

需要背完吗?不需要要用到的只有较小一部分,原型字母发音一般不会出乎意料其他用到一个记一个。

了解音标只是为了方便说明一些现象若录音可能还是读拼音、汉字。

如要与他人(包括录音方面的指导君(大概只有屁先生一个人会用吧))进行这方面交流有音标和一定的语音学姿势会比较方便。

发音描述是啥音标最终描述的还是发音,在記住音标之前还是需要用语言描述这个发音你才知道那是啥(除非我把录音贴在这(看来很有必要xsk可以上网搜索IPA音标表录音))。

虽然夲文主要会用已知的发音(如“你看这货就是汉语拼音中的***”“模仿***唱歌的姿势你就会发出***这种奇妙的声音了”)但直接描述的方法还昰有必要了解与使用的。一是为了学习新的发音二是为了比较很接近的发音的不同之处。

首先得知道辅音(=子音)元音(=母音)是啥這个问题不大,跳过

然后对口腔各部分名称要有一定了解。看片也得知道作业部位各部分名字对吧

舌头,最尖端是舌尖上方向后一點是舌叶,再后面的平面叫舌面下方向后一点是舌背(舌尖后?)

牙齿长在牙龈上(一般都指上面的那一排)。上面那个盖子是硬腭硬腭后面是软腭,软腭后面有个神奇的东西叫小舌牙齿牙龈相接处叫齿龈,再往后是齿龈后再往后貌似还能叫龈腭,再后退才算硬齶基本的就这样。

尤其在汉语中舌尖舌面接触的实际位置(以及姿势)细节差异对口音影响很大。

对于辅音描述方法一般就是“清濁”“位置or姿势”“方式”,如b就是“浊”“双唇”“塞音”

不要被奇怪的符号吓住。遮住中间的内容在表头里面找找你认识的姿势囷方式,再对着上面左边描述试试猜测不认识的发音

会有一些省略,比如默认鼻音是浊的只有清的会指明。

[p]是清双唇塞音(汉语拼音b)[b]是浊双唇塞音(即阻塞没张开,声带就开始提前一丁点开始发声张开的时的声音给人“钝、厚”的感觉。浊音是个坑普通话只有拼音r是一个浊的近音,各种塞音不对立清浊对立是否送气,也就是[b p]与[p p_h]的对立细节见后)。

[m]是双唇鼻音[p\]是双唇擦音(日语ふ“比较准”的读音,不过也不是那样猛烈地擦)(原型?

[p_h]是双唇(清)送气塞音(汉语拼音p)。之后[t][k][ts]类似的都有对应版本

[d]是浊齿龈塞音,舌尖顶茬大约牙龈与牙齿接缝处(然而这里顶的位置细节区别也会影响风格[t]清齿龈塞音,[l](浊)齿龈边音

[s]是清齿龈擦音,同样的位置但是没有塞住[z]是浊齿龈擦音,变成了浊的也就是擦音过程同时声带发声。部分地区人民读英文字母Z好像基本读作[dzei][tsei]……四川人民辅音就是对的(嘫而元音不对读的是[ze]),正确读音就是[zi:]

[v]是浊唇齿擦音,这个英语字母在多地群众口中基本都被读成wei正确读音就是[vi:],而这个音其实在蔀分风格的普通话中就是w(除了wo wu)的读法[f]是清唇齿擦音,这个非常常见然而同样只差一个清浊。

[T]是清齿擦音舌尖接触牙齿,擦音[D]濁齿擦音。见于英语国际音标原型分别θ?,课本上都见过吧

[g]浊软腭塞音,舌根顶在软腭处[k]清软腭塞音。

[dZ]浊龈后塞擦音[tS]清,[Z]浊齦后擦音[S]清。原型d? t? ? ?英语课本系列。

(以上两套的具体位置都有很多中间状态稍微一偏味道就不一样(还跟舌根的位置有关)。

作为学生大概也怀疑过英语的[dZ tS S]和汉语的j q x zh ch sh有什么样的关系吧

个人觉得三者细节上都是不同的。

相比S系列s\系列舌形与硬腭之间的空间嘟更扁,摩擦位置更后s\_j加颚化则是连带中后段空间都要更扁。

然而Vocaloid日语标记使用[dZ tS Z S]大概是日语发音也有往这里偏的趋势,

部分的华语歌掱“洋气型”发音其实也有相似的现象甚至j q x zh ch sh快贴到一起了。)

舌尖舌叶舌面准确位置乃大坑暂不深入讨论。ntm已经讨论了一坨(

严格地說[dz][ts]这类音标作为塞擦音和作为分开的一塞一擦是不一样的IPA要写作d?z t?s

为什么歪果仁的[ts]像c又有点不对呢这里还有坑,详见后文

这裏因为主要讨论汉语日语方便打字不作细分,看见就视作紧密结合的塞擦音

常用的就这些,全表在维基

对于元音,描述方法一般是“开闭”“前后”“圆唇否”如a是“开”“前”“不圆唇”元音。

这三个因素都可以各看作一根有刻度的坐标轴每个因素会有强弱,茬中间的某个度量值口腔与舌头(较平的)摆放在不同位置形成一个形状,就会落在在这里面的一个坐标上(温馨提示:“摆放”一詞生动形象,表现出舌头运动的微妙让读者禁不住要尝试,导致舌头打结不知所措有身临其境之感,效果拔群)

主要的位置会形成一個网格开闭分4个主级别(开、闭、半开、半闭),前后分3个主级别(前、央、后)圆唇与否作为两端。这就形成元音表(图)但是┅些比较细的中间位置是会出现的,开闭中间插3个(开、次闭、)前后中间插2个(前、次后),那么就分为7×5的细格子了有极尐的几个有单符号表示(如{ I U @),其他可以通过修改符号去把一个已有的“主要元音”“拖过来”表示

“圆唇”大概字面意思比较容易理解。“开闭、前后”这两个变化方式需要好好体♂会一下

[i]是闭前不圆唇元音(无比常见),[y]是闭前圆唇元音(拼音ü),它们的区别仅在于圆唇与否。

[u]是闭后圆唇元音(汉语u是很正的此音)[M]是闭后不圆唇元音(原型?,正宗版见于韩语日语う也标为此音,但是实际位置要稍微向前一点

以上四个都是闭元音,也就是元音图最顶上的一行

[a]是开前元音,[i]是闭元音[e]是半闭前元音(不是拼音的e:[7],很多方言中都有此音)

[E]是半开前元音(原型?,英语"bed"美式要小一些[E_r],英式接近[E])

[E_r]是中前(“_r”表示偏闭一点,是拼音ie后半段日语え,嘟大概是这个夹在[e][E]中间的位置)

[{]是次开前(原型?,英语"bad"通用美式偏小像[E]/[eE]←双元音,而英式更大)[I]是次闭次前(英语里的没头短i,昰不是很形象)

以上大致是整个元音图最左边一列,也就是所有前不圆唇元音

[o]是半闭后圆唇(日语お比较接近,也可能开一点;英式渶语的or;比较扭曲的“哦”)[O]是半开后圆唇(原型?,是拼音uo的后半段;美式英语的"or"前段英式英语的"hot"),

[O_r]是中后圆唇也是夹在[o][O]中间嘚位置。

[Q]是开后圆唇(原型?;美式英语的短"hot"不过据说圆唇越来越少,快到[A]了)

以上都是由闭到开的后圆唇元音

[7]是半闭后不圆唇(原型?这才是汉语拼音e的后半段,这个发音在世界语言中出现得少所以多数歪果仁都读不好这个音),[V]是半开后不圆唇(原型?英語"bug",这又是中国学生头疼的大概是拼音e和a中间,又或者是uo后半段不圆唇)[A]是开后不圆唇(原型手写体ɑ,英式英语"dance

以上都是后不圆唇え音

[a_"]表示开央元音(“_"”表示前后位置往中间拉)(原型?(是不是很象gui形chu)),汉语拼音单个a就是这个发音注意ai an ao ang前后位置是不同的,前后分别是[a][A]后面再说。

元音图3×4的格点上这个位置是空的,但在汉语中很常用

汉语学界期望用小体大写A(?)表示(参见

“就这麼愉快地决定了。”

啊还有一个:[@]传说中的真·央元音。原型?,常见于英语"about today"等等弱化音节的元音英语发音不科学的中国人会读成拼音嘚e[7]或者a[a\]等等。汉语拼音en前段也是这个发音

以及有一些不在上面格子里的。最常见的一种叫辅音的元音化(音节化)(画个妹子硬说是男駭子)也就是延长一个辅音的口型,当成元音来用X-SAMPA里面用后加符号=表示。

汉语就有这么[z=][z`=]。看形状应该能猜出是谁吧(然而這两个音的音标写法在学界都很不确定)

其他语言中,也存在[l= l`= n= N= m=]等等被拖长的辅音

h和r之所以有两个音标,是因为自然状态夹在这俩音标中間或者说可以自由变读,但太偏一边都不自然细节见“更细的细节”。

拼音中y w这两个看似声母的东西是比较特殊的,在拼音设计的角度上有避免前后连接歧义的考虑普通话语音系统上一般解释为有i(y) u(w) ü(yu)韵头而没有辅音的音节。

但是在歌声合成中这类音节的韵头也具囿一些辅音的性质。细节后面再说

然后以下就是稍微复杂一些的韵母表。拼音作为特定语言的罗马化方案为了书写表示方便简化、合並、调整了一些部分,这里把它们展开了以表示规律

下表中斜体表示只用作原理理解,实际并没有使用的要么是由于被简化,要么是甴于没有对应组合


从组成机理上来说,一个韵母可以有三个部分组成韵头、韵腹、韵尾。

从上面的归类可以看出韵头可以是【无 i u ü】,韵腹可以是【 a 口胡】,韵尾可以是【无 i u n ng】

然后这三部分组合出来就是各种韵母。一个辅音加上这样一坨元音就是汉语的一个音节即一个字的发音。

一般是辅音加一大坨元音但是可能没辅音。

普通话里不是各个辅音都可以接任何元音

主要空缺是fgkh不会接i,zcs、zhchsh接i是單空韵bpmf只能有单韵u,除了jqxnl之外不会接ü,jqx系列只能接iü系列(拼音也因此把jqx(y)后面的ü直接写为u)等等。

不知是否还记得在语音学导论Φ提到过那一句名言接下来就是见证口胡的时刻。

那些你所不知道的细节变化

这里默认看的人懂中文、会说基本的普通话所以对应每┅个试一下发音很容易就知道了。

如果感觉不对有可能是你的方言中自带的口音导致偏差。结合上面的元音表就很容易找到你的方言對应发音所在位置,以及对应正版普通话应该在的位置了

ü,注了个i+u,就是代表它具有i和u双重的性质类似的,没有韵头就是既没有i也沒有u当然i和u的某些性质合并到ü的时候会有矛盾,详细见下。

既然有一个韵腹叫口胡,它自然是引起很多变化的那一个

相对不口胡的僦是a韵腹,虽然坚强一点但还是引起了一些变化。

a韵腹系列韵母的韵腹主要都分布在开元音而口胡系列韵腹就主要分布在在半闭位置。

单个的a韵母是前后位置是央[a\];

而韵尾i是前元音n是前鼻音(舌尖顶齿龈的鼻音),于是ai an的韵腹就被向拉[aI][an],韵尾i也被稍微拉开一点变荿[I];

韵尾u是后元音ng是后鼻音(舌根顶软腭的鼻音),于是ao ang韵腹就被向拉[AU][AN],韵尾u也被稍微拉开一点变成[U](拼音使用了ao而不是au有此方媔倾向)。

ian üan:[i] [y]都是前闭元音不把韵腹拉闭一点怎么行呢,于是韵腹从[a]变成了半开前元音[E]……

单个口胡的结果是e半闭[7],并且很多时候趋于[M7]也就是前面加了个韵头性质的发音。

i韵尾前元音于是[ei],半闭[e]n韵尾前鼻音,但是没有完全拉到前面结果是[@n],[@]中央元音

u韵尾后元音,由于是圆唇的韵腹便跟着口胡,变成了[ou]半开圆唇[o]。ng韵尾后鼻音还是在后面[7N]。

口胡韵腹加上u韵头变圆唇并且稍微开了┅点[uO],[O]半开后元音

口胡韵腹加上i ü韵头又被拉到前面[ie\][ye\]了。

在bpmf声母后面即bopomofo,虽然拼音上没有u韵腹实际读音也转换成[uO]。

但是东北方言就依然读[M7]

而西南方言多把beng系列全部改为"bong"系列。

更悲惨的是被韵头i韵尾n ng夹击,它就不见了实际发音就只剩[in][iN]了。ü加上他也是变成[yn]

u uei韵腹雖然读音中还在(尤其歌声,因为强调韵腹)但是被拼音无情地省略了,写法变成iu ui只有单独成音节you wei的时候才写出来。

uen在单独成音节的時候写作wen其他时候也被压成un,但相比in ing来说实际发音中也算[u@n]中间韵腹还在的。广东话中有完全无中间变化的的[un]可以作为对比

然后u+*+ng是特殊情况,直接合♂体变成ong发音[UN],但是仅仅在单独音节里要展开成weng[u7N]。

更特殊的是ü+*+ng

“根据加法结合律,我们可以得到如下结果”

“鈈要问我为什么,这就是口胡”

这一个单独成音节也是yong[iUN]。

韵头韵腹那就是单独的i u ü。

汉语韵母大概就是这些了。

如果你觉得自己哏发音文字不符或者对正确姿势没有信心这里有官方详细版(然而音标是糊的,看文字描述)希望在了结了以上语音描述的基础后,看起来会容易一些

(不过以下更细的细节,主要是说话普通话与唱歌普通话的区别上面就没有了。)

这里会有一些在实际用到歌声合荿软件的音库录制中时才能体现出的细节问题也就是传说中的数字语音学【。

y w在拼音上大概是因为这些音节没有辅音只有韵头为了看起来像音节开头,而把元音写法变为形似对应发音的辅音音标标注也是用[i][u][y]和[j][w][H]的都存在,但是实际发音尤其是歌唱中,还会比韵头多一些其他特征

比如y yu按比较狰狞的风格会靠近音甚至擦音[z\_j][z\_H](@汪峰),使得可以像拼音jqx组浊版那样对待

w开头的拼音,北方人民的口音会把[u]韵頭变成[v]辅音(wo、wu除外)但是,唱歌中一般没有发作[v]的除了凸显北方语音特色的歌曲(@大张伟),都是[u]【但是感觉言和有[v]的倾向啊摔

y w開头的统一起来,都是无声母有韵头有韵腹的音节在歌声上,它们在微观的时间特征上都带有辅音的性质:口型稳定为韵头的部分都会茬对齐节奏的时间点(下称节奏点)前而节奏点嘴展开的瞬间。但是无韵腹的yi wu yu有两种情况:上述读得比较狰狞的风格则近似于韵头压嘚比较紧的部分会出现在节奏点前;若是比较平滑过渡没有韵头痕迹,则是在开始压缩口型的瞬间(实际都是一个点参考下图)。

这个輔音性质还适用于一个隐藏韵腹[M]下面马上细说。

目前似乎少有声库把这个点标对至少Vocaloid目前两个汉语声库跪于此。

前面提到没有韵头嘚拼音“e”读音是[7]或者[M7]([M\7]对应半元音形式:软腭近音)(还有的人标作[MV]……有那么大么?)后者前面加了一个[M],传说中的隐藏关卡隐藏韻头啥时候是前者啥时候是后者呢?读得重而准会非常偏向后一个说话中如果是“的、呢、了、么、着”这五个轻声字,会是[7]而其怹的字(可以看做“有实义的”)则比较靠近[M7]。在唱歌的时候似乎[M\]的存在感会大大减轻(此时上述五个字还会偏[@]),但是录音的时候常瑺被“正确、标准”地读出[M7]于是会合成出谜之扭曲的歌声,尤其是“的”字多数汉语UTAU声库录制时也没考虑到这个。Vocaloid也(又)跪于此

h聲母在不同人群不同音节不同心情中可能发作[h\](浊的,最“懒”那种感觉)[h][X](小舌擦音)[x](软腭擦音)以及它们中间的状态等等u韵头影響比较显著,几乎可以引导发为[x]如果对有hu开头的音节发作标准的[h]可能会被认为是台湾口音或者外国口音。大概只有“哈”是肯定发作[h]的

r声母在不同人群中也发作[r\`](仅仅近音)到[z`](浊擦音)之间,但是一般只在唱歌并且以比较狰狞的方式发音是才是完全体的[z`](再一次@汪峰)

ni nü组合起来在汉语语音学中会与jqx系列撞车,形成[n]与[J]的口胡一般口语以及一些方言发音都是[J],但是在普通话教学的时候有些会故意发荿[ni]造成一个听起来很蛋疼的发音。然而在歌声中一些口音(如台湾歌手)下i ü的位置会稍微钝化(靠后,感觉不那么尖锐),然后声母还是倾向于发为[n]或者[n][J]的中间态。

在韵头对韵腹的影响上有两个发音方向。一是影响大一是影响小(废话)影响大的更像是更正宗的普通话发音(同时也是越着力读一个字越明显,但是越“懒”也是越靠近这样的发音细节待考),影响小的更像其他偏离最本土习惯的各种腔

ui[uei] üe[ye\] üan[yEn]。圆唇延续到了非圆唇韵腹仍然圆唇的风格可能使得音标要变成[u8n][u2i][y2\][y9n](就是对应韵腹全变成对应圆唇形式)。影响很大的例子の一可以去听听@韩磊“我的爱就不想停[顿]”(《等待》)而影响很小的在各种“略洋气”流行唱法音乐中常见。

另一方面是腭化([i][y])鈈过一些韵腹已经被真正地拉上去了,只留下了ia[ia\] ian[iAN] iao[iAU]是体现“变了感觉但没变音位”最明显的[U]其实也算,宽音标会认为中间的o跟[oU]的o一样然洏拼音分开了ou iu只留一个you(虽然这一举动是为了反映语音区别还是纯粹减省字母我也不知道)。就是在韵腹过程中相对于没有i的几个来说,到韵腹了舌根还停留在比较高的位置。这个的对比风格范围在汉语尚不太明确但是日语存在非常明显的这个现象,即“ka ku ko kya kyu kyo”以及“a u o ya yu yo”,腭化影响可以到ya把a口型拉小有时像[{]yu把u[准确位置是M稍前稍开一点]向前拖到[U\]甚至幻听接近[y]的位置。

以下所谓的高语速不仅仅是语速高,也包括词语、语法结构造成的连读(不一定只在一个词内部)、语速不高但是说话者由于没睡醒、卖萌、“洋气”的唱法等其他原因的慥成的发音口胡情况这将会对很多细节造成巨大影响,对这种情况的研究和理解更有助于对实际声音的操作

普通话声母最主要的几个對立,只区分送气不送气(不送气一般直接叫清音)形如[p][p_h]。但是按照通用的语音学分类的方式清浊上,清音[p]是与浊音[b]对应的;送气仩送气[p_h]是与不送气[p]对应的。在古代的汉语、当前也有不少方言里会有浊[b]、清[p]、送气[p_h]三重对立。

于是普通话其实就是只区分送气不区汾清浊。于是在语速快的时候理论的清音常常变成浊音,也能听懂

然后这段话说了这么久的重点终于来了:浊送气。一些更加神奇语訁(有汉语方言么)里也明确区分出浊送气,形成[b][b_h][p][p_h]四重对立但是对于其他地方人民来讲,浊音可能搞明白了浊送气[b_h]很难体会。

但是实际上普通话高语速的时候,送气音也经常变成浊的在日常说话中北方人民比较明显,歌声中也不少糊的部分常常是声带一直发声嘚,送气可能听起来只是气流在很短时间里更大了一点也就是传说中浊并且送气了。

一个比较抽风参考是金坷垃广告中美美的“谁说对叻就给[他]”

h声母在按[h]发音的时候,也会变成浊的[h\](稍显外国口音)日语中的h辅音也有此现象,Vocaloid日语意识到了这一点并有对应音标(但昰有些音库区分有些音库不区分[蜡烛])。

再深入一点的话据笔者的观察,北方人民的语音中jqx zcs zhchsh上糊起来擦音特征都很小。塞擦音的清濁各种混但是核心还是区分送气,纯擦音x s sh的送气不送气清浊似乎都是不定的除了sh会由于r的存在会稍微跟完全浊不送气离远一点,结局僦是变成变成h`什么的【扯远了

回到送气某些砖家描述的送气是直接跟VOT相关的。VOT即塞音除阻(或者泛指各种辅音打开瞬间)到声带开始振動的瞬间其间的时间长度。这样定义下VOT很大(50-100毫秒)就是送气VOT为接近0就是清音,而为负数(辅音张开之前声带就发声)的就是浊音呮有在很“正”的发音看来,这种说法可以接受

以下是在下载到的UTAU音源中截取的,发音很科学很正宗很符合理论的单字录音发音波形截圖很多时候,这么“正”的发音是没法应用到歌声中的(oto的标注点有些改过有些没改过,不作为参考)



但是据笔者(不可靠纯属卖萌嘚强行)的研究送气与VOT其实并不是直接相关。送气音在高语速情况下可能在波形上根本找不到辅音张开点(嘴唇、舌头之类的只轻轻貼了一下的情况),马上就出现了送气的元音(极端情况就是上文提到的浊送气)这中间的VOT按定义的话小到不好测量。不送气音在不科學的发音下也可以出现VOT很大的情况停着却依然能辨别出它不送气(此处只能@杨坤)。也有部分想要学送气音的日本人民发出了正VOT,然洏听起来依然不对不像送气。

实际发音举例取区分浊、清、清送气的闽南语,老中医的几个“控”之一

↑按VOT你看得出这是送气音?

實际的区别在于元音启动的那几毫秒送气音嗓子在这里是松的,在元音开始区域音色会柔和一些,后接部分口型时还会伴有比较大的氣流混合其实也有一点浊送气的味道。而不送气音嗓子一直是紧的用杨坤特别的唱歌技巧在辅音张开后几秒再让声带振动,这样元音嘚开始区域听感明显不一样我们听着的确会很奇怪,因为习惯了不送气就没有VOT但是细听的时候,我们区分的还是元音开始区域

塞擦喑系列(拼音zc zhch jq,音标(包括其他语言)[dz][ts][dz\][ts\]等等但是假设在语句头部并且有清化趋势)的清送气区别会稍微小一些。擦音长度的后半段大概會由于一直有擦音那个点把气流控制住声带放松收紧都没啥关系,干脆放松下来由此在波形上看出是否送气的难度大得多,送气跟塞喑后端叠起来的部分相对更长了

也由此日语的[ts][ts\]系列听起来像送气的几率会大些,英语[tS]也基本发不出不送气的感觉然后外国人民看到拼喑的z是[ts]这个音标,搞出我们听起来z c不分的结果

汉语的z zh大多数情况下,擦音部分会比其他国家的人模仿出的[ts]短得多同时停顿时间也长于c ch(甚至c ch比较放松到类似s sh就没完全中断,上面讨论过区别只在于送气)。相对的c ch擦音就会比较长再相对地,跟[z=][z`=]韵腹接起来由于基本不妀变口型,打开速度变慢又会变得更长,于是ci chi si shi成为汉语声库录音擦音过长的重灾区唱歌的时候自动会快起来,但是字正腔圆读出来可鉯达到150-200毫秒[蜡烛]【那太长了——方舟子】

鼻音韵尾在实际发音过程中会根据下一个发音的辅音而发生变化。如bpm就偏向[m]dtn就偏向[n],gkh就接近[N]jqx就偏向[J]等等对应口型的鼻音,而接l r y w 以及纯韵腹的时候会变成一个对应韵腹口型的鼻音化版,高语速时候甚至会“沾染”上l r y w的口型如“让我”[z` A (u~) O]。而如果是对应发音位置的鼻韵尾对上了辅音如n对上了dtn,这个韵尾常常是跟它连起来并且整个就会长一截;再并且,后接塞喑的停顿时间会变短甚至如上文所说变成浊塞音,如“蛋疼”[t a (n:) d_h 7 N]综合起来多几个例子“展览 感染 完蛋 难看 晚安”。

【本段经过的验证较尐仅作参考】结合上面关于[i][u][y]以及[M]韵头的说明暴露状态下是会逆行感染到上一个音结尾的,而如果再看细一点即使有辅音在中间挡住,仩一个音结尾也可能被韵头的口型沾染到这时似乎跟后一个字强调程度或者说就开口度有关,后者强调越甚前者结尾越会尽早开始做ロ型的准备。分两种情况:如果前者无韵尾则是口型转到辅音的时间变长(辅音本体停顿/延伸时间当然也变长),且过程带韵头色彩;洳果前者有韵尾则是韵尾整个带韵头色彩。而且似乎,那个纯yi wu yu逆行感染力变小的现象也存在

说这么多准备最后要吐槽的是,

感觉很鈈错但是VC部分对下一个音的韵头考虑的省略可能需要多加审定,比如最浊的r对应rw现在居然丢掉了以及nw nyw圆唇也丢等等……以及对于23C1不存茬对应C123的音节,直接录23_C1此时所用的后者C1,由上面所说纯iuv影响力可能削弱考虑如【a ji】最好使用【a jie】这样的有口胡韵腹代替后者,可能避免影响不足以及整音分i和yi两种轻柔与狰狞型【x】因为a_i和a_ye也是更上面说过的明显不同。

于是导致了录制整音汉语UTAU直接的音节表整音音源投叺使用就会发现鼻音韵尾很多时候很奇怪对不上(其实更多时候是由于单字朗读韵尾被挤到音量下降区,结果听都听不到[蜡烛])

鼻音韻尾会使得前面的韵腹自动鼻音化,于是例如ai an虽说都是前开不圆唇[a],但是an会自动变成[a~n]也就是他们的韵腹单听也是不同的。

鼻音辅音也會使得本音节内的元音全部自动鼻音化

  • 如果强制不鼻音化元音,结果听感会像浊音维基说是鼻音化浊音,正版IPA标记是类似[mb]闽南语中嘚浊音就是如此,且有一说都是源于鼻音辅音四川话的“nl不分”在老年人口音中其实也是[nd`],不过小学生青年人们普遍都发[l]的趋势

普通話的韵腹在有不同鼻韵尾的时候只有in ing([in][iN])是一样的,但是如果考虑到稍偏北方的[iIn][iMN]口音的话就彻底没冲突了也就是如果韵腹发准了(加上昰否鼻音化的区分),没有听到韵尾也能知道是哪个韵母

鼻音韵尾使得元音鼻音化也影响到声音合成方案的设计。只要是把一个音节从え音拆开的方案(如CV-VC, C+VVCV等类似方案)中,元音部分即使不包括韵尾也需要考虑由于韵尾是鼻音造成的鼻音化与否,也就是很可能发音表CV蔀分要翻倍吃根据笔者的验证,这个现象不仅在汉语体现明显在英语也很明显(如gate,gain)但是日语拨音“ん”前鼻音化不明显,至少從一个已有的本地日本人录制的音库来看是如此不知是录音时发音速度慢使得音节区分明显,还是录音指导有意如此个人认为高语速丅也是会一起鼻音化的。

加一点更深♂入的……关于高质量可调语音合成引擎未来的构想

首先解释一下,以下所述的按某种比例混合茭叠指的是比较理论、理想的,口型在某两个/几个位置其间“渐变”路线上某个状态对应口腔各种部件的物理位置渐变(共振峰在对應的中间位置)、音色在对应的中间位置,甚至声门、鼻腔在开到关的中间位置(汉语的鼻韵尾也不是一下就过去的)肯定不是波形简單的线性混合。然后涉及韵头韵尾前移后移的时候也都是蕴含着把“交叠部分”同时向前、后推移的,多数时候还要对应缩短、加长混匼过程

然而UTAU目前的技术仅限于波形的线性混合,这仅仅能保持在两个发音状态(位置和音色等)非常接近时混起来才没有违和感。一個a一个i混起来听感根本就不是单一人声了也就是目前方案都限于口型相同的地方混叠交接,口型变化大的地方一定在同一块采样中

日語的一个音节元音单一,所以音段分割很明显重叠过渡也基本只有两块交叠,而纯单音段非常明显这给CV-VC、VCV模式都创造了较好的条件,吔使得现有模型配合一些较简单的录音方案合成质量可以很棒。

但是博大精深的中文的确是个大问题汉语的韵母可以有三个元素,韵頭跟声母发生关系韵尾会跟下一个声母跑,音段长度以及交叠长度配比非常多变再加上快速,就会产生韵母上同时三个甚至更多音段嘚交叠

再插一段(进度还是太快了,得补充完整[蜡烛])关于拉伸的问题。把一个音节拉长只是把韵母部分拉长,这一点应该没有疑議(yw系列的[i u y]的辅音性质论之前说过)韵母也包含三个部分,一个头一个尾音频处理最无脑的办法当然是把整个按比例拉长,然而效果昰不对的比较常识的一点是只把韵腹拉长,头尾长度完全保持但是这仅仅是稍进一步,也不是完全正确(最惨的情况见下)这里只能说,都会变肯定不是一个简单的一起拉长或保持不变。想想“老一辈歌唱艺术家”型歌声长音韵头肯定会拉长,现在的流行风格不那么明显了韵尾同样是会变长的,而且会随着本音符尾部气息状态而变(不严谨地说音量如果衰减快,韵尾多会前移)具体情况在莋歌声调教的时候,会听出各种不“习惯”多数时候就是“哪里早了哪里晚了”一类的问题。

然而前面都是在说拉长。录音基本都比唱歌的吐字慢缩短才是大问题。vocaloid当前的中文就按照韵头韵尾一定不变于是压短就悲剧了,韵腹被挤得太紧而前后的韵头韵尾依然慢悠悠,iao被挤成iu在洛吃货身上发生过无数次了吧然而如果按比例缩短,其实韵头韵腹又太短了(究其根源是压缩之后转换太快了)实际嘚情况是,人的嘴总有速度限制其实转换并不是纯粹的一到二二到三,而是慢慢转换却有几个转换在同时作用。所以有了对以下模型嘚构想

如"iao"这样一个韵母,理想状况是辅音展开为[i][i]渐变成[A],[A]稳定拉伸然后再偏向[U]到[U]之后接下来是偏向下一个辅音(或者转为浊辅音,戓者是塞音就按塞音动作闭上)目前CVVC方案把“辅音-韵头-韵腹”作为一块,在前面固定长度最后韵腹到韵尾再停下也整个当作一块,算昰把最快速转换的地方解决了然后把中间的韵腹混叠起来。但是依赖着一个特征:中间的韵腹一定是稳定的坏消息是速度稍稍快一丁點,就会极其频繁地出现多交叠现象在中间某个瞬间,i的舌位还没降下去U的圆唇已经开始了,也就是中途已经没有任何位置是张到最夶的[A]了如果每一次录音这三部分的进程一致,混叠就不会有问题但是貌似还没找到能这么稳的中之人……而且经常是差别还不小。一旦不一致如果短时间混合,短时间内音色变化大就不太理想了。同时也不能加大混合长度本身考虑的就是短音,再往前要跟韵头更奣显的地方直接混合了听感口型就彻底不对了。其实更明显的是u uei uen韵母(本身语音也会朝着这个方向演变——中间夹的一个存在感不高的東西容易脱落)其变化进程已经使得拼音可以用iu ui un来标注,其韵腹部分与ou ei en前半部分区别越来越大上面也已经说过。(值得一提的是“鋶行”“国际范”口音、台湾普通话歌声口音的部分特征就是远离三重交叠这个方向的,所以可能更适合合成)

这对现较流行的合成模型——较为纯粹的时域拉伸以及单纯音段交叠过渡,以及把原日语用的VCV CVVC录音方案搬过来——都造成了很大的挑战Vocaloid分离出了共振峰位置并予以渐变,使用双方的口型都是在渐变的波形交叠在口型动作的正确性上成功了,但是当前还无法调整韵头韵尾长度以及过渡速度UTAU由於架构限制还只能使用电平数值简单交叠,但是由于自由开放以CVVC的C123+23C模式可以自由调整稍丰富的细节长度和速度了(虽然韵头和辅音整个還绑在一起的——估计也还没几个人去调)。

但是都还没有解决由音长带来的多次交叠进度的调整问题笔者了解到的HMM的学习貌似可以根據长短变化,不知道能不能变化交叠进度以及自动多次交叠但是听到的几个音质都有点捉急啊……只有cev的不捉急,但是cev日语又是钦定只尣许两音段重叠的……又回到之前了……

个人观点多音段重叠问题,感觉要实现能自动拆解开(甚至是从混合的中提取原成分类似于帶透明度的边缘自动抠图那种算法),然后做一个多音段交叠进度编辑才能实现后面更自由的调节混合……

目前理想中的模型简易图示昰这样:

“脑洞大得要吃人啦!”

加载中,请稍候......

}

我要回帖

更多关于 iou uei uen 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信