当前位置:99696大富豪棋牌 > 今日头条 > 99696大富豪棋牌有监督词义消歧方法,      不

99696大富豪棋牌有监督词义消歧方法,      不

文章作者:今日头条 上传时间:2020-01-05

雷锋网 AI 科技评论消息,AAAI 2019 已于月初落幕,国内企业也在陆续公布自家被录用论文名单。本届大会共收到 7700 余篇有效投稿,其中 7095 篇论文进入评审环节,最终有 1150 篇论文被录用,录取率为 16.2%。

前言

词义消歧,句子、篇章语义理解基础,必须解决。语言都有大量多种含义词汇。词义消歧,可通过机器学习方法解决。词义消歧有监督机器学习分类算法,判断词义所属分类。词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义。

上海交通大学与云从科技联合创新实验室论文《Dependency or Span, End-to-End Uniform Semantic Role Labeling》被 AAAI 2019 录用,在这篇论文中,模型通过对谓词、论元评分,以及谓词和论元的一个双仿射变换,同时实现了对谓词的识别、以及谓词与论元的联合预测。以下为对该论文的详细解读。

LTP语言云平台

有监督词义消歧方法。基于互信息词义消歧方法,两种语言对照,基于大量中英文对照语料库训练模型可词义消歧。来源信息论,一个随机变量中包含另一个随机变量信息量(英文信息中包含中文信息信息量),假设两个随机变量X、Y的概率分别是p(x), p(y),联合分布概率是p(x,y),互信息计算公式,I(X; Y) = ∑∑p(x,y)log(p(x,y)/(p(x)p(y)))。互信息,一个随机变量由已知另一个随机变量减少不确定性(理解中文时由于已知英文含义让中文理解更确定),不确定性,熵,I(X; Y) = H(X) - H(X|Y)。对语料不断迭代训练,I(X; Y)不断减小,算法终止条件I(X; Y)不再减小。基于互信息词义消歧方法对机器翻译系统效果最好。缺点,双语语料有限,多种语言能识别出歧义情况也有限的(如中英文同一个词都有歧义)。

99696大富豪棋牌 1

      不支持离线调用;

基于贝叶斯分类器消歧方法。条件概率,上下文语境,任何多义词含义都跟上下文语境相关。假设语境(context)记c,语义(semantic)记s,多义词(word)记w,多义词w在语境c下有语义s概率,p(s|c),p(s|c)

p(c|s)p(s)/p(c)。p(s|c)中s取某一个语义最大概率,p(c)既定,只考虑分子最大值,s估计=max(p(c|s)p(s))。语境c在自然语言处理中必须通过词表达,由多个v(词)组成,max(p(s)∏p(v|s))。

p(s)表达多义词w某个语义s概率,统计大量语料最大似然估计,p(s) = N(s)/N(w)。p(v|s)多义词w某个语义s条件词v概率,p(v|s) = N(v, s)/N(s)。训练出p(s)和p(v|s),一个多义词w消歧计算(p(c|s)p(s))最大概率。

无监督词义消歧方法。完全无监督词义消歧不可能,没有标注无法定义词义,可通过无监督方法做词义辨识。无监督词义辨识,一种贝叶斯分类器,参数估计不是基于有标注训练语料,是先随机初始化参数p(v|s),根据EM算法重新估计概率值,对w每一个上下文c计算p(c|s),得到真实数据似然值,重新估计p(v|s),重新计算似然值,不断迭代不断更新模型参数,最终得到分类模型,可对词分类,有歧义词在不同语境会被分到不同类别。基于单语言上下文向量。向量相似性,两个向量间夹角余弦值比较相似性,cos(a,b) = ∑ab/sqrt(∑a2∑b2)。

浅层语义标注,行之有效语言分析方法,基于语义角色浅层分析方法可描述句子语义角色间关系。语义角色,谓词,施事者,受事者,事情发生时间,数量。语义角色标注分析角色信息,计算机提取重要结构化信息,来理解语言含义。

语义角色标注依赖句法分析结果,句法分析包括短语结构分析、浅层句法分析、依存关系分析,语义角色标注分基于短语结构树语义角色标注方法、基于浅层句法分析结果语义角色标注方法、基于依存句法分析结果语义角色标注方法。过程,句法分析->候选论元剪除->论元识别->论元标注->语义角色标注结果。论元剪除,在较多候选项中去掉肯定不是论元部分。论元识别,二值分类,是论元和不是论元。论元标注,多值分类。

基于短语结构树语义角色标注方法。短语结构树表达结构关系,语义角色标注过程依赖结构关系设计复杂策略,策略内容随语言结构复杂而复杂化。分析论元剪除的策略,语义角色以谓词中心,短语结构树以谓词节点中心,先平行分析,和受事者不同一层,如果当前节点兄弟节点和当前节点不是句法结构并列关系,作候选论元。论元识别,二值分类,基于标注语料库做机器学习,机器学习二值分类方法固定,谓词本身、短语结构树路径、短语类型、论元在谓词位置、谓词语态、论元中心词、从属类别、论元第一个词和最后一个词、组合特征。论元标注,机器学习多值分类器。

基于依存句法分析结果和基于语块语义角色标注方法。论元剪除过程,基于句法结构不同。基于依存句法分析结果语义角色标注方法基于依存句法直接提取出谓词-论元关系。剪除策略,以谓词作当前节点,当前节点所有子节点都是候选论元,将当前节点父节点作当前节点重复以上过程直至到根节点。基于依存句法分析结果语义角色标注方法论元识别算法特征设计,多了有关父子节点特征。

融合方式,加权求和、插值。

语义角色标注当前不是非常有效,依赖句法分析准确性、领域适应能力差。新方法,利用双语平行语料弥补准确性问题,成本提高许多。

信息检索无论是谷歌还是百度都离不开TF-IDF算法,简单有效但缺乏语义特征。

TF-IDF。TF(term frequency),一个词在一个文档中出现频率。IDF(inverse document frequency),一个词出现在多少个文档中。同一个词在短文档出现次数和在长文档中出现次数一样多,对于短文档价值更大。一个出现概率很低的词一旦出现在文档中,价值大于其他普遍出现词。在信息检索领域向量模型做相似度计算非常有效,曾是google发家必杀技。聊天机器人软肋,只考虑独立词,没有任何语义信息。

隐含语义索引模型。TF-IDF模型,所有词构成一个高维语义空间,每个文档这个空间被映射为一个点,维数一般比较高且每个词作一维割裂词与词之间关系。把词和文档同等对待,构造一个维数不高语义空间,每个词和每个文档被映射到这个空间一个点。数学,考察文档概率,词概率,联合概率。设计一个假想隐含类包括在文档和词之间,选择一个文档概率p(d),找到一个隐含类概率p(z|d),生成一个词w概率p(w|z)。根据观测数据估计p(d, w)联合概率,z是一个隐含变量,表达一种语义特征。利用p(d, w)估计p(d)、p(z|d)和p(w|z),根据p(d)、p(z|d)和p(w|z)求更精确p(w, d),词与文档之间相关度。设计优化目标函数对数似然函数,L=∑∑n(d, w) log P(d, w)。p(d, w) = p(d) × p(w|d),p(w|d) = ∑p(w|z)p(z|d),p(z|d) = p(z)p(d|z)/∑p(z)p(d|z),p(d, w) =p(d)×∑p(w|z) p(z)p(d|z)/∑p(z)p(d|z)=∑p(z)×p(w|z)×p(d|z)。

EM算法,按照最大似然原理,先随便拍一个分布参数,根据分布归类到某一部分,根据归类重新统计数目,按照最大似然估计分布参数,再重新归类、调参、估计,最终得出最优解。每一个训练数据做归类,p(z|d,w),先拍一个p(z)、p(d|z)、p(w|z),p(z|d,w)=p(z)p(d|z)p(w|z)/∑p(z)p(d|z)p(w|z),分子是一个z,分母是所有z和。p(z|d,w)最大似然估计的概率估计(E过程),对每一个训练样本做归类,根据归类好数据统计出n(d,w),根据公式p(z) = 1/R ∑n(d,w)p(z|d,w)更新参数。p(d|z)=∑n(d,w)p(z|d,w) / ∑n(d,w)p(z|d,w),分子是一个d和,分母是所有d和,计算p(d|z)最大似然估计。p(w|z)=∑n(d,w)p(z|d,w) / ∑n(d,w)p(z|d,w),分子一个w和,分母是所有w和,计算p(w|z)的最大似然估计。重新计算p(z|d,w),p(z|d,w)=p(z)p(d|z)p(w|z)/∑p(z)p(d|z)p(w|z)。不断重复上面EM过程使对数似然函数最大,L=∑∑n(d, w) log P(d, w)。
通过以上迭代得出最终p(w, d),词与文档之间相关度,利用相关度做检索。

词词之间相关度,p(w, d)乘以转置,p(w,w) = p(w,d)×trans(p(w,d))。用户查询query关键词构成词向量Wq, 文档d表示成词向量Wd,query和文档d相关度,R(query, d) = Wq×p(w,w)×Wd。把所有文档算出来相关度从大到小排序就是搜索排序结果。

隐含语义索引模型,相比TF-IDF,加进语义信息、考虑词词关系,根据语义做信息检索,更适合研发聊天机器人做语料训练和分析,TF-IDF更适合完全基于独立词信息检索,更适合纯文本搜索引擎。

参考资料:

《Python 自然语言处理》

http://www.shareditor.com/blogshow?blogId=88

http://www.shareditor.com/blogshow?blogId=89

http://www.shareditor.com/blogshow?blogId=90

欢迎推荐上海机器学习工作机会,我的微信:qingxingfengzi

语义角色标注旨在发现句子的谓词 - 论元结构。它以句子的谓词为中心,分析句子中各成分与谓词之间的关系,即句子的谓词(Predicate)- 论元结构。谓词是对主语的陈述或说明,指出 " 做什么 "、" 是什么 " 或 " 怎么样,代表了一个事件的核心,跟谓词搭配的名词称为论元。语义角色是指论元在动词所指事件中担任的角色。主要有:施事者、受事者、客体、经验者(Experiencer)、受益者(Beneficiary)、工具(Instrument)、处所、目标和来源等。

  支持分词、词性标注、命名实体识别、依存句法分析、语义角色标注;

例如:" 小明昨天晚上在公园遇到了小红。"

  不支持自定义词表,但是你可以先用其他支持自定义分词的工具(例如中科院的NLPIR)把文本进行分词,再让ltp帮你标注

" 遇到 " 是句子的谓词," 小明 " 是谓词的发起者,角色为 " 施事者 "," 小红 " 是谓词的接受者,角色是 " 受事者 "," 公园 " 是谓词的发生地点,据说是 " 处所 " 等。

     支持C#、Go、Java、JavaScript、Nodejs、PHP、Python、R、Ruby等语言调用;  

作为自然语言处理的一项基础性任务,语义角色标注能提供上层应用的非常重要的语义信息。例如在阅读理解应用中,把语义角色标注作为输入的一部分,可以帮助阅读理解应用更加准确确定各部分的语义角色,从而提高阅读理解的准确性。

99696大富豪棋牌,     还有一些错误响应、频率限制、重要说明(这几个我至今也没用到);

比如:" 小明打了小华 " 和 " 小华被小明打了 ",这两句话语义完全一致,但由于被动语态引起的主语和宾语位置上的变化,当提问 " 谁挨打了?" 时,阅读理解算法在处理这两句时,有可能会给出不同的答案。但如果我们把语义角色标注也作为阅读理解的输入信息,由于两句话中 " 小华 " 都是 " 受事者 " 角色,问题也是在问 " 受事者 " 是谁,这时阅读理解算法往往比较容易给出一致准确的答案。

正文

明确了一个句子中各个成分的语义角色,可以更好的帮助自然语言的理解和处理。比如在 " 信息提取 " 任务中,准确的提取出动作的发出者信息;在 " 阅读问答 " 中给出事件发生的时间、地点等。因此,语义角色标注时很多自然语言理解与处理任务的基础,对于实现自然语言处理意义非常重要。

官方网址:

传统的语义角色标注是建立在句法分析的基础上的,但由于构建准确的语法树比较困难,基于此方法的语义角色标注准确率并不高,因此,近年来无句法输入的端到端语义角色标注模型受到了广泛的关注。这些模型算法,根据对论元的表示不同,又划分为基于区间和基于依存(dependency)两类方法,不同方法的模型只能在对应的论元表示形式上进行优化,不能扩展、应用到另一种论元表示上。

使用文档:

99696大富豪棋牌 2

在线演示:

图一 Span 与 Dependency 统一语义角色标注架构

各种语言调用实例可以到Github上下载:

我们的论文则通过提出一个统一的谓词与论元表示层,实现了将论元表示形式的统一(参见上图中的 Predicate&Argument Representation 层),因此,该模型可以接受不同论元表示形式的数据集进行训练。

例如Python版本的:

此外,我们的模型通过对谓词、论元评分,以及谓词和论元的一个双仿射变换,同时实现了对谓词的识别、以及谓词与论元的联合预测(参见上图中 Biaffine Scorer 层)。我们的单一模型在 CoNLL 2005、2012(基于 Span 的数据集)和 CoNLL 2008、2009(基于 Dependency 的数据集)SRL 基准数据集上,无论是在自主识别谓词、还是在给定谓词的情况下,相比于学术上目前已知的算法,都取得了较领先的结果,尤其是在 span 数据集、给定谓词的情况下,我们的单一模型甚至在所有指标上领先于已知的 Ensemble 模型。结果可参见表二、三、四、五。

Step1:注册

本文由99696大富豪棋牌发布于今日头条,转载请注明出处:99696大富豪棋牌有监督词义消歧方法,      不

关键词: