关 于。。。)抽 雪 茄 一 月 多 少 钱

三,险润喊晰保猫妇故力(俐断吸卿叫时磁劝一)雀利应在么问在...得不关注的问题.而月如出现被保险人在投保时具有保险利益,而后在保险合同...

0
}

关系取(Relation Extraction)的概念字1988年在MUC大会上提出是信息取的基本任务之一,目的是为了识别出文本实体中的目标关系

知识图是语义关联的实体,它将人们对物理世界的认知转化為计算机能够以结构化的方式理解的语义信息关系取通过识别实体之间的关系来提取实体之间的语义关系。在现实世界中关系的提取偠比实体提取复杂得多,自然句子的形式也多种多样所以关系的提取比实体提取困难得多。

关系取主要分为两个任务:

    • 直接从文本中取结構化文本关系

关系取的发展主要也分为三个阶段:基于规则、传统机器学习和基于深度学习其中机器学习又包括监督学习,无监督学习半监督学习。深度学习主要是监督学习和远程监督学习下面分别介绍这三种框架的经典算法。

通过手写规则来匹配文本实现关系的提取。主要是分为两种

2.1 基于触发词 (基于模式)

假设X和Y表示公司类型,可使用如下模板表示收购(ACQUISITION)关系当满足下述模板,则表示两個实体指称在这个句子中具有收购(ACQUISITION)关系

当匹配出以上模式时候,就可以根据规则提取出实体之间的关系(XAcquisition,Y)

2.2 基于依存关系(语法树)

以动词为起点构建规则对节点上的词性和边上的依存关系进行限定。

2.3 基于规则的RE优缺点

    • 可以针对特定的垂直领域
    • 在小规模数据集囧桑容易实现
    • 特定领域需要专家构建费时费力
    • 每条关系都需要人工构建

监督学习从训练数据中研究模型,并预测测试数据的关系类型輸入时自然语句,输出时预定义的关系集合由于在RE任务中的向量都是来自非结构化的数据,所以需要对文本不同层次的语言进行形式化对于文本的处理方法主要是两类:特征向量法(Feture Vectors/Eigenvector )和核函数法。

3.1.1基于特征向量

主要是从上下文信息词性,句法中提取出一系列的特征姠量然后通过分类算法,如:

所谓的特征向量也就是一个实例的向量表示x x i x^i xi就是N维特征向量的第i个元素。

通过核函数计算两个实体之间嘚相似度来训练分类模型。核心在于如何设计核函数
监督学习方法的准确率和标注数据的质量、数量成正比,且不能拓展新的关系受限于训练语料库,也不适合在开放领域进行关系取因此学术界开始转向半监督和无监督的学习方法。

半监督学习又称弱监督学习利鼡模型的假设,对少量的数据进行标注(freebase)在不足的条件下提高模型在标记样本中的泛化能力,未标记的数据为Corpus text

在论述Snowball之前,先看Boost strap,他昰介于监督学习和半监督学习的算法

根据已知的标记数据seed库,生成规则在利用该规则在text中进行遍历,生成新的规则新规则入库,作為标记的数据进行重新遍历缺陷就是如果生成的一个规则不准确,这个错误的规则会在库中逐渐增大导致正确率逐渐降低。


接下来Snowball基於这个缺陷进行了改进。

关 于 该 算 法 的 介 绍 看 我 这 篇 博 客 \color{red}关于该算法的介绍看我这篇博客
关于该算法的介绍看我这篇博客
关于该算法的介绍看我这篇博客


snowball在2000年被提出提供了一种从文本文档生成模式和提取元组的新技术,此外snowball还介绍了一種策略,用于评估在提取过程的每次迭代中生成的模式和元组的质量只有那些被认为“足够可靠”的元组和模式才会被雪球保留,用于系统的后续迭代

然后,每个候选tuple都有许多帮助生成它的模式每个模式都有相应的匹配程度。snowball使用这些信息以及关于模式选择性的信息來决定将哪些候选元组实际添加到它正在构建的表中

通过计算模式的置信度来决定该模式是否被选择,反之错误的模式产生更多错误的え组同样的,错误的元组也可能生成无关的模式通过不断迭代产生更多错误的tuple,(as the name(Snowball) implies).如果一个元组是由多个高得分的模式所产生的它的置信度就会高。

3.4 无监督学习—聚类

监督和半监督学习都需要提前确定关系的类型事实上,在大规模语料库中人们往往无法预测所有类型的实体关系。一些研究者试图通过基于聚类思想来解决这一问题

无监督关系提取是由Hasegawa等人在2004年的ACL会议上首次提出的,随后的大多数方法都是在Hasegawa的基础上改进的结果表明,聚类方法在关系提取中是非常可行的

首先,他们通过爬虫获取新闻文本然后根据文章的来源开始分类。然后根据句子的语义结构,提取出满足一系列约束条件的基本模式聚类实体将这些实体按照基本模型进行映射,形成次级聚類使每个次级聚类包含的实体之间的关系相同。

无监督方法通常需要大规模的语料库作为支持利用语料库的冗余度,挖掘可能的关系模式集确定关系名称。该方法的不足之处在于关联名称难以准确描述低频关联的召回率低

参考:鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴.深度学习实体关系取研究综述[J].软件学报,):.

基于深度学习的关系取,主要是有监督学习和远程监督学习其中有监督学习主要有pipeline和Joint。

  • 鋶 水 线 \color{red}流水线 线NER串联RE在实体识别完成的基础上直接进行实体之间关系的取;
  • 联 合 学 习 \color{red}联合学习 :基于神经网络端到端模型,同时完成实体的识别和实体间关系的取
  • :缺少人工标注数据集,比有监督多一步远程对齐知识库给无标签数据打标的過程而构建关系取模型模型的部分,与有监督领域的流水线方法差别不大

基于DL的RE任务框架如下:

  1. 获取有标签数据:有监督方法通过人笁标记获取有标签数据集,远程监督方法通过自动对齐远程知识库获取有标签数据集;
  2. 构建词向量表示:将有标签句子分词将每个词语編码成计算机可以接受的词向量,并求出每个词语与句子中实体对的相对位置作为这个词语的位置向量,将词向量与位置向量组合作为這个词语的最终向量表示;
  3. 进行特征提取:将句子中每一个词语的向量表示输入神经网络中利用神经网络模型提取句子特征,进而训练┅个特征提取器;
  4. 关系分类:测试时根据预先定义好的关系种类将特征提取出的向量放入非线性层进行分类,提取最终的实体对关系;
  5. 評估分类性能:最后对关系分类结果进行评估;


监督实体关系取框架演化流程

As the name implies,流水线就是将NER和RE两个任务串联起来进行在NER的基础上进荇RE。首先针对已经标注好目标实体对的句子进行关系取,最后把存在实体关系的三元组作为预测结果输出。主要是基于 RNN,CNN,LSTM 及其改进模型的网絡结构

1 基于RNN的关系取

RNN 在处理单元之间既有内部的反馈连接又有前馈连接,可以利用其内部的记忆来处理任意时序的序列信息,具有学习任意長度的各种短语和句子的组合向量表示的能力,已成功应用在多种 NLP 任务中。

基于 RNN 模型进行关系取的方法由 Socher 等人[46]于 2012 年首次提出,此方法为分析树Φ的每个节点分配一个向量和一个矩阵,其中,向量捕获组成部分的固有含义,而矩阵捕捉它如何改变相邻单词或短语的含义.这种矩阵向量 RNN 可以茬命题逻辑和自然语言中学习操作符的含义,解决了单词向量空间模型(singleword vector space models)无法捕捉到长短语的构成意义,阻碍了它们更深入地理解语言的问题

RNN 楿比于前馈网络更适合处理序列化输入,但 RNN 也存在着以下两个缺点:

  • (1) 在网络训练时,RNN 容易出现梯度消失、梯度爆炸的问题,因此,传统 RNN 在实际中很难處理长期依赖,这一点在 LSTM 网络中有所改进;
  • (2) 由于 RNN 的内部结构复杂,网络训练周期较长,而 CNN 结构相对简单,主要包括前置的卷积层和后置的全连接层,训練更快速.

2 基于CNN的关系取

CNN 的基本结构包括两层:其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等,减少了网络中自由参数的个数.由于哃一特征映射面上的神经元权值相同,所以 CNN 网络可以并行学习.

Zeng 等人在 2014 年首次提出了使用 CNN 进行关系取,利用卷积深度神经网络(CDNN)来提取词汇和句子層次的特征,将所有的单词标记作为输入,而无需复杂的预处理,解决了从预处理系统中提取的特征可能会导致错误传播并阻碍系统性能的问题.圖 3 描述了该论文用于关系分类的神经网络的体系结构.网络对输入句子提取多个级别的特征向量,它主要包括以下 3 个组件:词向量表示、特征提取和输出.图 3 右部分显示了句子级特征向量构建过程:每个词语向量由词特征(WF)和位置特征(PF)共同组成,将词语向量放入卷积层提取句子级特征.图 3 左仩部分为提取词汇级和句子级特征的过程,然后直接连接以形成最终的句子特征向量.最后如图3 左下部分,通过隐藏层和 Softmax 层得到最终的分类结果.

甴于梯度消失、梯度爆炸的问题,传统的 RNN 在实际中很难处理长期依赖,后面时间的节点对于前面时间的节点感知力下降.而 LSTM 网络通过 3 个门控操作忣细胞状态解决了这些问题,能够从语料中学习到长期依赖关系.

Yan 等人在 2015 年提出了基于 LSTM 的融合句法依存分析树的最短路径以及词向量特征、词性特征、WordNet 特征、句法类型特征来进行关系取,该论文的模型图如图 4 所示.首先,如图 4 左下部分,利用斯坦福解析器将句子解析为依赖树,并提取最短依赖路径(SDP)作为网络的输入,沿着 SDP,使用 4 种不同类型的信息(称为通道),包括单词、词性标签、语法关系和 WordNet 上位词;在每个通道中(图 4 右部分是每个通道嘚细节图),词语被映射成向量,捕获输入的基本含义,两个递归神经网络分别沿着 SDP 的左右子路径获取信息,网络中的 LSTM 单元用于有效信息的传播;之后,洳图 4 左上部分,最大池化层从每个路径中的 LSTM 节点收集信息,来自不同通道的池化层连接在一起,然后输入到隐藏层;最后,使用 Softmax 输出层用于关系分类。

4 流水线方法存在的问题

  1. 错误传播:实体识别模块的错误会影响到接下来的关系分类性能;
  2. 忽视了两个子任务之间存在的关系:丢失信息,影响取效果;
  3. 产生冗余信息:由于对识别出来的实体进行两两配对,然后再进行关系分类,那些没有关系的实体对就会带来多余信息,提升错误率.

相比于流沝线方法,联合学习方法能够利用实体和关系间紧密的交互信息,同时取实体并分类实体对的关系,很好地解决了流水线方法所存在的问题

联匼学习方法通过实体识别和关系分类联合模型,直接得到存在关系的实体三元组.因在联合学习方法中建模的对象不同,联合学习方法又可以分為参数共享方法和序列标注方法:参数共享方法分别对实体和关系进行建模,而序列标注方法则是直接对实体-关系三元组进行建模.下面分别对這两种方法进行说明。

针对流水线方法中存在的错误累积传播问题和忽视两个子任务间关系依赖的问题,基于参数共享的实体关系取方法被提出.在此方法中,实体识别子任务和关系取子任务通过共享联合模型的编码层来进行联合学习,通过共享编码层,在训练时,两个子任务都会通过後向传播算法更新编码层的共享参数,以此来实现两个子任务之间的相互依赖,最终找到全局任务的最佳参数,实现性能更佳的实体关系取系统.茬联合学习模型中,输入的句子在通过共享的编码层后,在解码层会首先进行实体识别子任务,再利用实体识别的结果,并对存在关系的实体对进荇关系分类,最终输出实体-关系三元组.

针对流水线方法中存在的错误累积传播问题和忽视两个子任务间关系依赖的问题,基于参数共享的实体關系取方法被提出.在此方法中,实体识别子任务和关系取子任务通过共享联合模型的编码层来进行联合学习,通过共享编码层,在训练时,两个子任务都会通过后向传播算法更新编码层的共享参数,以此来实现两个子任务之间的相互依赖,最终找到全局任务的最佳参数,实现性能更佳的实體关系取系统

在联合学习模型中,输入的句子在通过共享的编码层后,在解码层会首先进行实体识别子任务,再利用实体识别的结果,并对存在關系的实体对进行关系分类,最终输出实体-关系三元组。

Miwa 等人在 2016 年首次将神经网络的方法用于联合表示实体和关系,其模型图如图 5 所示.在该模型中,实体识别子任务和关系分类子任务共享编码层的 LSTM 单元序列表示(编码层包括 LSTM 单元和隐藏层).该方法将实体识别任务当作序列标注任务,使用雙向序列 LSTM 输出具有依赖关系的实体标签;之后,通过在双向序列 LSTM 单元上堆叠双向树结构 LSTM 的方法,使关系分类子任务和实体识别子任务共享编码层嘚 LSTM单元序列表示,同时,在关系分类子任务中捕获词性标签等依赖特征和实体识别子任务中输出的实体序列,形成依存树,最终根据依存树中目标實体间的最短路径对文本进行关系取.但该模型中的关系分类子任务和实体识别子任务仅共享了编码层的双向序列 LSTM 表示,从严格意义上来说不昰真正的联合模型.但是该模型的提出,为之后真正意义上联合学习模型的提出奠定了基础,是基于深度学习方法做联合学习模型的启发者

基於参数共享的实体关系取方法,改善了传统流水线方法中存在的错误累积传播问题和忽视两个子任务间关系依赖的问题.但因其在训练时还是需要先进行命名实体识别子任务,再根据实体预测信息对实体进行两两匹配,最后进行关系分类子任务,因其在模型实现过程中分开完成了命名實体识别和关系分类这两个子任务,仍然会产生没有关系的实体这种冗余信息.为了解决这个问题,基于新序列标注方法的实体、关系联合取方法被提出.

Zheng 等人在 2017 年提出了基于新的标注策略的实体关系取方法,把原来涉及到命名实体识别和关系分类两个子任务的联合学习模型完全变成叻一个序列标注问题.在该方法中,共包含 3 种标注信息:

  • (1) 实体中词的位置信息{B,I,E,S,O},分别表示{实体开始,实体内部,实体结束,单个实体,无关词};
  • (2) 实体关系类型信息,需根据实际需要自定义关系类型并编码,如{CF,CP,…};

该方法能使用序列标注的方法同时识别出实体和关系,避免了复杂的特征工程,通过一个端到端的神经网络模型直接得到实体-关系三元组,解决了基于参数共享的实体关系取方法可能会带来的实体冗余的问题.新序列标注方法的模型图洳图 6所示.在该端到端的神经网络模型中,对输入的句子,首先,编码层使用 Bi-LSTM来进行编码;之后,解码层再使用 LSTM 进行解码;最终,输出模型标注好的实体-关系三元组。

3 联合学习存在的共性问题

联合学习方法包括基于参数共享和基于新序列标注的实体关系取方法:

  • 前者很好地改善了流水线方法中存在的错误累积传播问题和忽视两个子任务间关系依赖的问题;
  • 而后者不仅解决了这两个问题,还解决了流水线方法中存在的冗余实体的问题.
  • 泹这两种方法对于现今有监督领域存在的重叠实体关系识别问题,并未能给出相关的解决方案

4 监督学习的关系取核心公式

4.3 基于远程监督的RE

Mintz於 2009 年首次提出将远程监督应用到关系取任务中,其通过数据自动对齐远程知识库来解决开放域中大量无标签数据自动标注的问题。远程监督標注数据时主要有两个问题:噪声和特征提取误差传播.

下面按照 PCNN及其扩展模型、LSTM、COTYPE、深度残差网络的顺序来进行远程监督领域实体关系取的主流方法介绍.

1 基于 PCNN 及其扩展模型的实体关系取

  • 基于 PCNN 和多示例(MIL)的实体关系取
  • 基于 PCNN 和注意力机制(ATT)的实体关系取
  • 基于 PCNN、注意力机制和实体表示信息的实体关系取

2 基于 LSTM 的实体关系取方法

He 等人提出一种 SE-LSTM 结合多示例学习的方法来解决远程监督中错误传播、错误积累问题。

  • a) LSTM 网络取实体对方向性信息(图 10 左上部分):HE 等人首先将句子的最短依存路径(SDP)分割成两个子路径作为 LSTM 结构的输入,自动地取特征,以此来取实体对的方向性信息;

  • b) CNN 网络提取句子整体信息(图 10 右部分):尽管 SDP 对关系取非常有效,但是这并不能捕捉到句子的全部特征.针对此问题,作者将全部句子放进 CNN 网络,进而取句子的铨部信息(sentence embedding);

  • c) 特征融合(图 10 左下部分):最后,将 LSTM 隐藏层单元以及 CNN 的非线性单元相融合,通过 Softmax层来标注实体对对应的关系

3 基于 COTYPE 联合取模型的实体关系取方法

还没看论文(参考文献3)

4 基于深度残差网络的实体关系取方法

}

【关】《唐韻》古還切《集韻》《韻會》《正韻》姑還切音瘝。《說文》以木橫持門戸也《韻會》要會也。又《玉篇》扃也《正韻》塞門也,門牡也又關津。《周禮·地官·司關》司關掌國貨之節以聮門市。《註》界上之門也《禮·王制》關譏而不征。《易·復卦》先王以至日閉關。又墓門也《周禮·春官·巾車》及墓,嘑啓關陳車。《註》關,墓門也。又《集韻》通也《書·五子之歌》關石和鈞。《疏》關通衡石之用,使之和平。《易·同人註》雖是同人卦下之辭,不關六二之義又《韻會》關,所以閉也《楚辭·招魂》虎豹九關。《註》使神虎豹,執其關

【树】〔古文〕《唐韻》常句切《集韻》《韻會》《正韻》殊遇切,殊去聲《說文》生植之總名。《左傳·昭二年》季氏有嘉樹,宣子譽之。《禮·祭義》樹木以時伐焉《淮南子·原道訓》萍樹根于水,木樹根于土。又《爾雅·釋宮》屛謂之樹。《論語》邦君樹塞門又《揚子·方言》牀謂之杠。北燕、朝鮮閒謂之樹又獸名。《儀禮·鄉射禮》君國中射則皮樹中。《註》皮樹,獸名。謂皮作樹形以射之。又姓也。《後魏·官氏志》樹洛于氏後改爲樹氏。又《唐韻》《廣韻》《集韻》《韻會》《正韻》臣庾切音豎。扶樹也《徐鍇曰》樹之訁豎也。種樹曰樹《易·繫辭

【】《唐韻》敕鳩切《集韻》《韻會》《正韻》丑鳩切,音瘳字重文。《說文》或从由引也。《莊子·天地篇》挈水若,其名爲橰。《陸機·文賦》思軋軋其若又拔也,除也《詩·鄭風》左旋右。《傳》矢以射。《小雅》楚楚者茨,言其棘。又《揚子·方言》讀也《詩·鄘風》中冓之言,不可讀也《傳》讀也。《箋》猶出也。又收也《揚子·太經》羣倫緒。《註》各收其業,以成歲事也。又《廣韻》通作紬。亦引也。又《集韻》留切,音儔。義同。

【紫】《廣韻》將此切《集韻》蔣氏切,音呰《說攵》帛靑赤色。《釋名》紫疵也,非正色五色之疵瑕,以惑人者也《論語》紅紫不以爲褻服。《郉昺疏》紫北方閒色。《又》惡紫之奪朱也《何晏註》紫,閒色之好者又水名。《史記·司馬相如傳》紫淵在其北。《註》文穎曰:西河穀羅縣有紫澤其水紫色。又姓《廣韻》出《何氏姓苑》。又同孳《荀子·非十二子篇》紫然洞然。《註》紫,與孳同。柔弱之貌。漢典考證:〔《釋名》紫,疵也,非正色。正色之疵瑕,以惑人者也。〕 謹照原文正色之疵改五色之疵。〔又同絮《荀子·非十二子篇》紫然洞然。

【叶】《玉篇》古文協字。《後漢·律曆志》叶時月正日。餘詳十部六畫。又《集韻》同旪。《前漢·五行志》次四曰旪用五紀《註》師古曰,旪讀曰叶又《正韻》同汁。《張衡·西京賦》五位相汁,以旅于東井。《註》汁、叶同。(葉)《唐韻》與涉切《集韻》《正韻》弋涉切,音枼。《說文》草木之葉。《陸游詩註》吳人直謂桑曰葉。又世也。《詩·商頌》昔在中葉有震且業。又《博雅》聚也又書冊。《歐陽修曰》唐人藏書皆作卷軸後有葉子,似今策子又姓。《通志·氏族略》葉氏,舊音攝,後世與木葉同音。又與通。《儀禮·士冠禮》贊者洗於房中,側酌醴,

}

我要回帖

更多关于 10块左右的烟哪些好抽 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信