当前位置:99696大富豪棋牌 > 新闻动态 > 不逐字翻译了,这些语言的常用词汇中

不逐字翻译了,这些语言的常用词汇中

文章作者:新闻动态 上传时间:2019-10-06

一项对10种不同人类语言的大数据分析表明,这些语言的常用词汇中,都是正面词汇更多,并且这种现象不受词汇使用频率的影响。[1]研究论文于2月10日发表在《美国科学院院刊》(PNAS)上。果壳网科学人对论文第一作者,美国佛蒙特大学的彼得·谢里丹·多兹(Peter Sheridan Dodds)进行了采访。

(Stella.S/译)一项对PubMed数据库中的论文的分析显示,科学家在描述自己的研究时,语气越来越乐观了。

  • 表征Google图书语料库:对社会文化和语言演变推论的极限;
  • 语言演变是否停止?英文小说中词汇动荡的缩放表明不是;
  • 社会媒体形象分析公共卫生;
  • 旅程与笔记:为非商业用途设计社交计算;
  • 中继链接模型在演进网络中的涌现和消退;
  • 图形与自循环和给定度数序列的连接;
  • 通过具有跳跃的多维步行表征定向和无向网络;
  • 交叉依赖关系真的很稀缺吗?;
  • 行人疏散动态社会群体实证研究;
  • Pokemon Go玩家中众包的出现;

Twitter as a Corpus for Sentiment Analysis and Opinion Mining
Alexander Pak, Patrick Paroubek
Universit´e de Paris-Sud, Laboratoire LIMSI-CNRS, Bˆatiment 508,
F-91405 Orsay Cedex, France
alexpak@limsi.fr, pap@limsi.fr

早在1969年,就有心里语言学家提出了波丽安娜假说(Pollyanna Hypothesis),该假说认为人类在交际过程中,普遍更喜欢使用带有正面色彩的词汇。然而,以往的研究都没能对此进行有力证明。这一次,研究者们利用大数据分析,对这一假说进行了更深层次的探究。

据荷兰乌得勒支大学医学中心的研究者说,从1974年到2014年,积极正面的词汇——比如“新颖”(novel)、“鹅妹子嘤”(amazing,令人吃惊的)、“富有创新”(innovative)和“前所未有”(unprecedented)——在论文标题和摘要中的出现频率上升了将近九倍。诸如“令人失望”(disappointing)和“悲观”(pessimistic)这样的负面词汇的出现频率也增加了——虽然程度没有正面词汇那么大,但仍然是在统计上显著的。

表征Google图书语料库:对社会文化和语言演变推论的极限

地址: http://arxiv.org/abs/1501.00960

作者: Eitan Adam Pechenick, Christopher M. Danforth, Peter Sheridan Dodds

摘要: 将Google图书数据集中的频率趋势视为各种单词和短语的“真实”受欢迎程度的指标是诱人的。这样做可以使我们得出关于给定主题的文化感知演变的定量强烈的结论,例如时间或性别。然而,Google

作者来自于法国第二、全球前五十的巴黎南大学。

研究者首先选取了10种来源和文化背景不同的语言,包括:英语、西班牙语(墨西哥)、法语、德语、葡萄牙语(巴西)、韩语、中文(简体)、俄语、印尼语和阿拉伯语。在这些语言中,研究者重点关注了那些使用频率最高的词汇,“但由于不可能将一种语言中的所有词汇都按使用频率排序,因此我们分语料库(corpus,在语言学上意指大量的文本,通常经过整理,具有既定格式与标记)进行研究。”多兹向科学人解释说。研究共使用了24个语料库,来源包括书籍、新闻报道、社交媒体、网络、电视剧和电影字幕以及歌词。

精神病学家克里斯蒂安•温克尔斯(Christiaan Vinkers)和他的同事们搜索了PubMed数据库中含有25个“积极”词汇和25个“消极”词汇的论文(这些词汇是作者们通过人工分析论文,以及查询thesaurus网站上的近义词列表挑选出来的)。他们发表在《英国医学杂志》(British Medical Journal )上的研究显示,在标题或摘要中包含其中任意一个积极词汇的论文比例,从1974年到1980年的平均2%,上升到了2014年的17.5%。在同一时期,有用到那25个消极词汇的论文比例,则从1.3%上升到了2.4%。

Books语料库受到一些限制,使其成为文化流行的晦涩面具。一个主要问题是语料库实际上是一本图书馆,其中包含每本书之一。因此,无论作者是否被广泛阅读,单一的多产作者因此能够将新的短语插入Google图书词典中。有了这个理解,Google图书语料库仍然是一个重要的数据集,被认为比文字更像词典。在这里,我们显示出一个明显的问题特征是由于纳入了科学文本,这些科学文本已经成为整个二十年代语料库日益重要的一部分。结果是学术文章典型的词汇激增,但一般情况较少见,例如以引用形式引用时间。我们通过审查和比较1800

2000年间几十年间英语数据集统计分歧的主要贡献来强调这些动态。我们发现,与第一版的小说数据集和两个未经过滤的英文数据集都有明显的区别,只有英文小说数据集不受专业文本的严重影响。我们的研究结果强调,在使用这些数据集来绘制关于文化和语言演变的广泛结论之前,需要充分表征Google图书语料库的动态。

从今以后主要写概要,读完一段之后再来说,不逐字翻译了。

多兹表示:“我们以往对英语常用词汇的研究发现,带有正面色彩的词汇更多,在此基础之上,我们想要了解这一现象是否也存在于其它语言当中。”从各个语料库中,研究者们最终选取了每种语言最常用的约1万个词汇,并让以各语言为母语的人给每个词汇的正面程度打分。最终,每个词汇获得了50次评分,总评分次数为500万次。

99696大富豪棋牌 1PubMed中1974-2014年发表的论文内,积极词汇(青色曲线,具体词汇见*所示)、消极词汇(红色曲线,具体词汇见**所示)以及“新颖”(novel)一词的出现频率变化。图片来源:Nature News

语言演变是否停止?英文小说中词汇动荡的缩放表明不是

99696大富豪棋牌,地址: http://arxiv.org/abs/1503.03512

作者: Eitan Adam Pechenick, Christopher M. Danforth, Peter Sheridan Dodds

摘要: 最基本的兴趣在于量化一个语言词汇的长期增长,因为它发展到更完全地覆盖了文化的沟通需求和知识空间。在这里,我们将探讨Google图书2012英文小说语料库所反映的英文单词的使用动态。我们批评了二十世纪下半叶发现出生率降低和死亡率上升的早期方法,显示死亡率受到强加于任意现场的时间限制的强烈影响,并没有大幅增加。我们通过跟踪各种相对频率阈值中字通量的量来提供强大的原则性方法来检查词汇演化。我们表明,虽然英语的整体统计结构在其原始Zipf分布方面保持稳定,但我们发现有持久的“词汇动荡”的证据:跨越频率阈值的词从十年到十年的词汇与词的超线性比较排名并展示我们连接到Zipf定律的缩放休息。为了更好地了解变化的词汇,我们研究了Jensen-Shannon对跨越频率阈值的单词的分歧的贡献。我们也发现,有关小说的学术着作在2012年英文小说语料库中有很强的代表性,并且表明将来修改语料库应该试图将关键作品与小说本身分开。

摘要

介绍这篇推特是今年新型产物,所以研究较少。论文主要是着眼于搜集舆情分析与观点挖掘的语料库,进而进行的语言分析和解释。利用语料库进行情感分类,确定正面、负面、中性情感。实验评价表面我们提出的方法很牛逼。我们研究中的方法以英语为例,但技术可以用于任何其他语言。
(大哥希望你不是在吹牛逼)

本文由99696大富豪棋牌发布于新闻动态,转载请注明出处:不逐字翻译了,这些语言的常用词汇中

关键词: