首页信息科技计算机人工智能 在大成讲坛,讲出你的精彩!

作品简介:

计算机语言通过形式化模型和计算机程序分析处理文字。本文集从文字语义、文字信息处理技术等方面阐释中国计算机语言学的研究进展。

更多
收起

关键词:

计算机语言学 前沿
CNKI语言文字
中国知网
主编的其他文集 更多>>
2189人阅读
第1章 语言、文字
1.基于特征结构的汉语主谓谓语句语义标注研究
陈波;姬东鸿
建构大规模的汉语语义资源,是当前中文信息处理的重要任务之一。但是其中语义分析的传统方法存在一些问题,不能很好地反映汉语中各个词语或成分之间的语义关联。本文提出了基于特征结构的语义标注方法,并在此基础上建构了一个大规模的汉语语义资源。以汉语主谓谓语句为例,探讨了特征结构的标注...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:陈波;姬东鸿
2.基于信息库的新词词汇共性分析与教学策略研究
刘善涛;李敏
在当前基于信息库的语言教学的启发下,我们建立了《对外汉语新词教学信息库》。在《信息库》的基础上,我们对新词的语音、语法、语义、语用等语言信息和社会文化、心理认知等非语言信息进行了量化统计和数据分析,在此基础上对新词的对外汉语教学提出几点建议。   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:刘善涛;李敏
3.树库中的歧义组合考察
李艳娇;杨尔弘
汉语树库是汉语信息处理的宝贵资源,其中包含了丰富的句子结构及成分组合信息,对树库中的词性串组合进行考察,是有效利用树库信息的基础工作。本文对汉语树库中歧义组合进行考察,发现汉语中的歧义组合、歧义结构很大程度上要靠词语的语义关系来化解,单纯依靠外在的句法信息是无法实现的。   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:李艳娇;杨尔弘
4.汉语复合名词短语特征结构的标注研究
万菁;姬东鸿
复合名词短语的特征结构标注是基于特征结构表示的汉语大规模语义资源建设的一个子任务。本文探讨了在标注的过程中建立的最小关联原则、直接关联原则、语言关联原则等主要原则,同时也涉及复杂名词短语内部成分之间的语义关联种类的确定,这将有助于探讨适合汉语实际的语义表示机制及有效的汉语...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:万菁;姬东鸿
5.汉英词汇隐喻属性的对比分析与互增益技术
匡海波;李斌
本文基于隐喻认知观和词语属性分析理论,利用网络数据挖掘技术,构建了基于《知网》语义体系的汉英双语词汇隐喻属性知识库,进行跨语言系统对比分析词汇隐喻属性。通过研究跨语言词汇隐喻属性的异同,用量化统计和系统分析初步地回答了隐喻的否跨语言特点,本文同时进而提出了利用双语知识库,以一...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:匡海波;李斌
6.面向自动分词的三音节新词语构词法研究
徐艳华
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中,未登录词是造成分词错误的一个重要原因。为了解决自动分词的这一"瓶颈"问题,我们对未登录词中的三音节新词语的结构进行了分析,总结了新词语的构词类序,发掘新词语的构词规律,以期为末登录词的识别和标注提供一套...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:徐艳华
7.构建大规模的汉语事件知识库
周强;王俊俊
随着互联网的迅猛发展,大量的信息以文本的形式快速涌现。对海量文本进行信息的深度挖掘离不开高质量的事件内容分析技术,而这些技术的开发又需要高质量的事件语义标注资源支持。本文提出了一个构建大规模汉语事件知识库的可行方案。实验证明,我们的方案能很好地解决事件知识库"可操作性,可计...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:周强;王俊俊
8.《现代维吾尔语语法信息词典》数据库建设的研究
加米拉·吾守尔;瓦依...
《现代维吾尔语语法信息词典》是为实现维吾尔语的自动分析与自动生成而研制的一部机器词典。是维吾尔文信息处理的支柱工程。在自动分析、自动生成、机器翻译、自动标注、自动校对等工作中语法信息词典所起的作用都是通过语法属性字段及其取值所含信息得以实现。本文从计算语言学的角度着重讨...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:加米拉·吾守尔;瓦依...
9.自动词性标注中语法因素和词汇因素对英汉语的不同影响
邢富坤;宋柔
本文使用词性自动标注模型对影响英汉语词性标注的相关因素进行定量研究,进而探究词汇因素与语法因素各自对英汉语词性标注的影响,目的是为深入分析英汉语在词类问题上的差别,更好地构建汉语语料库提供参考依据。本文将词汇因素近似地形式化为词汇发射概率和词汇最大词性概率,语法因素近似地形...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:邢富坤;宋柔
10.面向自动理解的汉语明喻句的可计算性考察
宋纯;李斌
隐喻的计算语言学研究主要存在两个问题:隐喻理论多样且差异较大;隐喻知识库和语料库的可计算性不足。为解决隐喻理论与计算的衔接,寻找面向计算的隐喻分析框架,本文提出了利用易收集、本体喻体喻底易区分的明喻句作为媒介,通过分析其概念域的整合方式为其他隐喻方式的研究提供理论和计算依据...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:宋纯;李斌
11.基于依存树距离的语义角色识别方法
王鑫;穗志方
在基于依存的语义角色标注研究中,大多数系统采用机器学习方法进行论元识别和分类。本文分析了依存树的特点,发现论元集中分布于依存树上的特定局部范围内,因此提出一种基于依存树距离的论元识别方法。该方法将候选论元限制在与目标动词的依存树距离不超过3的范围内,通过制订规则,提取目标动词...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:王鑫;穗志方
12.基于树结构模式挖掘的非监督中文短语结构句法分析
张晓甜;赵海
本文研究了非监督的中文短语结构句法分析。我们首次精确重现了Rens Bod在[2]中阐述的非监督数据驱动模型U-DOP。应用U-DOP方法在CTB[14]上达到了提出该方法的原始文献所报道的结果,同时,按照已有文献的评测策略,在已知的基于词性串分析的非监督短语结构句法分析系统中,本文报道了在可比较实验...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张晓甜;赵海
13.基于关联度的汉藏多词单元等价对抽取方法
诺明花;刘汇丹
针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,本文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束汉藏多词单元等价对。CMWEPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:诺明花;刘汇丹
14.论蒙古语词素切分的实现
通拉嘎;赵小兵
词素切分即视词根与附加成分为基本词素,自动识别词根的词性及意义、附加成分类型信息。基于词素的切分能有效处理歧义和未登录词,有效缓解数据稀疏问题,促进语言信息处理深层次发展。目前蒙古文信息处理还尚未进入词素切分层面。论文探讨了实现词素切分的理论和实践基础、面临的难题,认为:实...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:通拉嘎;赵小兵
15.越南语给予类动词的语义结构和层级分类研究
林丽;毕玉德
词汇语义的形式化表征是自然语言理解的重要环节,框架语义学重点研究对概念结构和句法—语义映射关系的描写,符合语义知识表示的需求。本文基于框架语义学理论,将越南语给予类动词作为目标词,较为系统地考察了其句法语义特征并进行分类,尝试建立给予类词元库,根据不同类型词元及其框架元素拟构...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:林丽;毕玉德
第2章 翻译机
1.一种适用于机器翻译的汉语分词方法
李博渊;奚宁
汉语分词是构建汉语到其他语言机器翻译系统的一项重要工作。基于单语的分词不一定完全适合机器翻译,一个适合于机器翻译所需要的分词方法,应该考虑到机器翻译所具有的双语特点。本文提出了一种单语和双语知识相结合的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语平行语...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:李博渊;奚宁
2.统计机器翻译中的源语言重排序方法研究
梁芳丽;李淼
为了更好地解决统计机器翻译中的调序问题,本文提出了基于句法信息、词性标注信息和规则相结合的源语言重排序模型作为统计机器翻译的预处理模块。该模型分为两种,一种是基于依存信息、词性标注信息和规则相结合的模型,另一种是基于短语结构信息、词性标注信息和规则相结合的模型。以汉蒙统计...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:梁芳丽;李淼
3.一种基于句法的用于汉英翻译的预调序方法
吴秋锋;黄书剑
本文提出一种基于句法的预调序方法来解决基于短语的汉英翻译系统中的调序问题。该方法使用训练语料的源语言句法树和词对齐信息来自动抽取调序规则,并用规则调整训练和测试语料源语言句法树,使得源语言句子的语序更加接近目标语言句子。翻译系统使用从调序后的句法树重新生成的训练和测试语料...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:吴秋锋;黄书剑
4.面向小领域的可信机器翻译技术研究
李贤华;于淼
当前统计机器翻译的模型不断复杂、语料规模不断增加,但翻译质量仍是机器翻译实用化的瓶颈。在一些语料少、句子短、句式工整的小领域,可综合使用记忆库、词典、模板、规则、语言模型等资源,将基于统计和基于规则的机器翻译技术结合起来,实现小领域的可信翻译。本文使用层次短语模型,设计并实...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:李贤华;于淼
5.规则和统计相结合的中文地址翻译方法
于淼;吕雅娟
本文研究了一种规则和统计相结合的中文地址翻译方法。首先利用区划词典、关键字词典和模式表进行分词及词语类型标注,并根据词语类型划分地址单元;然后,以统计翻译模型为基础结合少量的翻译词典和人工模板对地址单元进行翻译;最后,将地址单元的翻译结果以逆序粘合在一起,形成最终译文。实验表...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:于淼;吕雅娟
6.基于反向转录语法的机器翻译混合解码策略
张浩;肖桐
Cocke-Younger-Kasami(CYK)解码算法和移进-归约解码算法是基于反向转录语法(ITGs)的统计机器翻译系统通常采用的两种解码算法。它们在翻译准确率和解码速度方面各有不同的优劣势。例如,基于CYK解码算法实现的解码器具有较高的翻译准确率,但解码速度较慢;而基于移进-归约解码算法实现的解码器...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张浩;肖桐
7.粘贴模型在依存语法统计机器翻译中的应用
张育;李良友
基于依存语法的统计机器翻译中,由于依存文法的扁平化,随着节点数目的增多,解码过程中很难匹配到完整的规则,会有大量末覆盖节点需要进行粘贴操作,传统的粘贴操作采用邻近保序策略,但会在一定程度上造成译文顺序的混乱。本文构建了一个基于最大熵的粘贴模型,利用丰富的上下文信息指导译文粘贴...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张育;李良友
第3章 检索机
1.基于航空领域本体知识库的语义检索研究
李伟刚;张克亮
基于本体的知识库对提高信息检索系统的查准率和查全率起到越来越重要的作用。本研究将本体的理论和方法应用于航空领域本体的构建,采用基于Web的本体共建模式建立航空领域本体知识库,并在此基础上研究基于本体知识库的语义检索。与传统基于关键词的信息检索相比,基于本体知识库的语义检索能够...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:李伟刚;张克亮
2.基于维基百科层次分类框架的主题推荐系统的研究
谢科;刘奕群
在用户使用互联网的过程中,并不一定经常持有明确的目的性,比如浏览新闻网站时用户可能会被各种不同主题的新闻链接所吸引。但是总体来说,特定用户的兴趣在一段时期内来讲,是趋于固定的。如果能在用户点击日志中,识别其可能感兴趣的主题,同时预测其感兴趣的其他主题或条目,可以帮助用户"探索"...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:谢科;刘奕群
3.基于用户点击信息检索评价方法综述
肖冬青;杨沐昀
评价是信息检索研究长期关注的焦点,推动信息检索技术的进步。在简要分析Cranfield评价的优点和不足、基于检索日志进行检索评价的巨大潜力后,本文论述从搜索日志中获得可靠文档相关性估计存在的困难,分析了近年国内外研究人员提出的若干典型点击模型,并对其就可扩展性、增量可计算性、点击预...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:肖冬青;杨沐昀
4.基于相似度线性加权方法的检索结果聚类研究
刘海波;郑德权
对检索结果的聚类能够便于用户在大量搜索结果中快速找到需要的信息,传统文本聚类技术在检索结果聚类上取得的效果并不好。Lingo算法采用LSI(潜在语义索引)对检索结果进行聚类,其首先生成候选标签,然后分配文档,形成聚类。本文提出一种在Lingo算法的基础上,融合HowNet语义相似度和余弦相似度线...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:刘海波;郑德权
5.博客中重复评论发现
刁宇峰;王昊
随着近年来互联网的迅猛发展,Blog上的数据呈现爆炸式的增长,产生了大量的重复评论,这些重复评论对观点挖掘、信息跟踪、搜索引擎等Web应用的处理带来了严峻的问题。本文针对Blog中评论本身的特点,提出一种有效的结合主题信息的TopicSig算法去检测Blog中的重复评论。该方法主要针对博客中的所...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:刁宇峰;王昊
6.基于机器学习方法与搜索引擎验证的缩略语预测
焦妍;王厚峰
在自然语言中广泛使用的缩略语是重要的新词来源之一,成为了自然语言处理的一大问题。本文研究了从完整形式预测缩略语形式的方法。首先,使用CRF模型对完整形式预测,形成一定量的缩略候选,再利用搜索引擎得到的结果信息对各候选依次评估,通过打分和重排序,选择最终缩略结果。实验结果表明,增加...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:焦妍;王厚峰
7.基于电子商务用户行为的同义词识别
张书娟;董喜双
本文研究了电子商务领域同义词的自动识别问题。针对该领域新词多、错别字多、近义词多的用词特点,提出基于用户行为的同义词识别方法。首先通过并列关系符号切分商品标题和基于SimRank思想聚集查询两种方法获取候选集合,进而获取两词的字面特征以及标题、查询、点击等用户行为特征,然后借助G...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张书娟;董喜双
8.面向对话语料的标签推荐
房冠南;袁彩霞
本文提出了一种针对对话语料的自动标签推荐方法——KeyEx。该方法首先基于加权TFIDF进行关键词抽取,加权因子融入对话者权重、句子重要程度和句子长度等因素;然后,通过频繁模式匹配进行关键词的二元扩展获取信息含量大的二无关键词;最后在同一尺度下对候选关键词进行排序得到top-n推荐标签。...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:房冠南;袁彩霞
第4章 人工智能理论
1.基于贝叶斯及多模式串模糊匹配算法的不良短消息甄别混合...
张文波;蒋春华
手机短信息业务一方面给人们带来诸多便利,另一方面一些不法分子利用手机短信息进行违法犯罪活动也日益猖狂,如何防范和打击此类犯罪活动对执法机关来说都是一个新的挑战。本文针对不良短消息的识别和分类问题,提出了一个基于贝叶斯分类算法和改进的多模式串模糊匹配算法的不良短消息甄别混合...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张文波;蒋春华
2.部分监督的音乐情感分类
王静;朱慕华
基于歌词的音乐情感分析可以看作一个分类问题。为了获得较高的性能,情感分类通常需要人工标注一定规模的数据以便训练分类模型。然而人工构建数据需要以大量的时间和精力为代价。本文以二类情感分类为例,研究在没有负类数据的情况(即只有正类数据和无标注数据)下如何进行音乐情感分类。这一问...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:王静;朱慕华
3.商品品牌名称挖掘
何正焱;王厚峰
百度百科包含了大量的实体和丰富的链接与分类关系,在中文领域含有大量人类知识。在商品品牌名称抽取的挖掘中,我们提出了发现新的品牌名称的基于图模型的半指导方法。利用百度百科中词条间的相关关系和开放分类,我们使用不同的准则计算词条间的相似度,结合词条和分类的关联性,分类与分类之间...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:何正焱;王厚峰
4.基于权重标准化SimRank与半监督学习的产品属性归类
杨源;马云龙
本文主要把产品评论中属性的不同描述进行归类。在产品评论中,同类的属性会有不同的描述,例如手机的"外形"和"设计"指的是同类属性。同类属性虽然有不同的描述,但是在句中却和相同的情感词搭配使用。本文首先抽取评论句中属性和情感词的搭配关系,形成一个二部图,然后用权重标准化SimRank计算不...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:杨源;马云龙
5.面向语音识别错误恢复的澄清式疑问句生成
于东;贾磊
人机对话系统中的语音识别错误将导致人机交互障碍。通过发起澄清式疑问是实现语音识别错误恢复的新思路。本文研究了澄清式疑问句生成问题,建立了人工标注的澄清疑问数据库,提出基于SVM分类器的截取模型和对齐泛化短语模型两种方法为澄清疑问模式建模,建立了基于统计机器翻译方法的澄清式疑问...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:于东;贾磊
第5章 文字信息处理
1.基于LDA模型的文本聚类研究
董婧灵;李芳
LDA(Latent Dirichlet Allocation)是近年来提出的一种具有文本主题表示能力的非监督学习模型。本文提出了一种基于LDA主题模型的文本聚类和聚簇描述方法。利用LDA模型挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布;并将此分布作为特征融入到传统的向量空间模型来计算相似度进...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:董婧灵;李芳
2.基于依存句法和短语结构句法结合的金融领域事件元素抽取
孟雷;丁效
事件抽取是信息抽取领域一个重要的研究方向。针对金融领域特定事件的事件元素抽取,本文提出了基于依存句法分析的事件元素核心词抽取方法,并结合短语结构句法分析进行事件元素完整边界的识别。实验表明,依存句法结合规则可以有效地抽取事件元素核心词,再结合短语结构句法则可以比较准确的识别...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:孟雷;丁效
3.基于层次聚类的网络新闻热点发现
彭楠赟;王厚峰
网络新闻热点发现的主要目的是从海量互联网数据中发现人们感兴趣的热点话题。在已有研究中,主要采用基于单篇报道的增量聚类方法。本文则提出一套针对单日新闻进行层次聚类,发现每日热点,再对热点进行增量聚类的框架。在对每日新闻的层次聚类中,本文定义了类内凝聚度指标,并提出基于类内凝聚...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:彭楠赟;王厚峰
4.中文文本蕴含的推理模型
徐幸;王厚峰
文本蕴含问题是指给定文本与假设对,判断文本和假设之间的关系,是证实、证伪还是未知。本文介绍了一个利用词汇知识库(如北京大学的中文概念词典CCD)、概率计算模型等判断文本与假设之间蕴含关系的推理模型。主要思想是:将句子间推理问题划归到词汇蕴含概率计算,然后利用知识库、网络信息和依...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:徐幸;王厚峰
5.一种基于MIRA和遗传算法的句法分析模型构造方法
王丹;姬东鸿
提出了一种新方法,通过在线学习算法MIRA(Margin Infused Relaxed Algorithm)和遗传算GA(GeneticAlgorithm)来构造句法分析模型。首先用MIRA用来构造句法分析模型,然后使用GA对模型参数进行进一步优化。数字实验表明提出方法构造的句法分析模型具有更好的性能。   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:王丹;姬东鸿
6.中文语义依存树库构建及自动分析技术
邵艳秋;邱立坤
语义依存分析是一种对句子进行深层语义分析的技术。语义依存树库是依存分析的基础。本文综合了不同学者定义的汉语语义关系体系,面向语义分析的实际应用,设计了一套语义关系体系,该体系中除了常规的语义关系定义,对定语加中心语的短语内部涉及到的语义关系进行了更详细的定义。同时,依据此关...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:邵艳秋;邱立坤
7.基于维基百科和模式聚类的实体关系抽取方法
张苇如;孙乐
本文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对。首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,我们的方法很好地解决了实体识别的问题,生成了准确而显著的句子实例;进一步,提出了显...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张苇如;孙乐
8.基于属性信息的中文人名消歧
李丽;孙甲申
本文针对中文人名消歧任务提出了一个人名属性抽取的方案,对无法获取属性的文本,利用《知网》进行属性推理。为了更准确地计算文档间属性值的相似度,利用《同义词词林》扩展了职业属性值。通过分析不同属性的作用,采用信息增益对属性进行差异化处理。针对人名属性消歧的特点,提出了"双阈值"的...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:李丽;孙甲申
9.中文维基百科的结构化信息抽取及词语相关度计算
张红春;何婷婷
本文首先从中文维基百科官方所提供的基本数据中抽取整理出多种结构化信息;接着,对维基百科的知识组织形式进行了抽取架构,实现了一套开放的框架接口,方便了用户对这些信息的获取和使用;在此基础上,进行了词语间语义相关度计算的实验,并把实验的结果与传统的经典方法进行了对比,证明了利用中文...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张红春;何婷婷
10.基于主动学习的中文依存句法分析
陈鑫;车万翔
目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作。面对大量未标注语料,本文将主动学习应用到中文依存句法分析,优先选择句法模型预测不准的实例交由人工标注。本文提出并比较了多种...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:陈鑫;车万翔
11.基于规则与统计的维吾尔族人名识别研究
赛依旦·阿不力米提;...
本文提出了一种基于规则与统计相结合的维吾尔族人名识别算法。我们从语料中提取人名左右边界词语,人名边界频度作为特征。识别过程是首先利用维吾尔族人名的后缀特点进行基于词典查找,然后应用带有频度的边界模型识别出可能的人名,并用几条排除规则对识别结果进行边界校正。系统采用真实语料...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:赛依旦·阿不力米提;...
12.最大生成树算法和Nivre算法相结合的中文依存关系解析
周惠巍;黄德根
基于最大生成树解析算法和Nivre解析算法的互补关系,提出了最大生成树解析算法和Nivre解析算法相结合的中文依存关系解析方法。利用Nivre模型的解析结果修正最大生成树模型有向边的权重,再搜索最大生成树作为依存树。使用宾州中文树库中的4500句语料作十折交叉测试,结合模型的依存关系正确率达...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:周惠巍;黄德根
13.基于边界熵和卡方统计量的多领域适应性中文分词方法
韩冬煦;常宝宝
字标注分词方法是当前中文分词领域中一种较为有效的分词方法。本文采用有指导的学习方法,基于CRF模型,提出使用边界熵和卡方统计量相结合的特征,进一步改善字标注分词方法的性能。同时,我们也就AV(AccessorVariety)统计量等当前普遍使用的特征进行了对比。从结果来看,边界熵和卡方统计量的引...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:韩冬煦;常宝宝
14.文本摘要中的句子抽取方法研究
张龙凯;王厚峰
抽取式摘要是从正文中按照一定策略抽取重要句子组成摘要。本文提出了一种句子抽取方法。基本思想是将句子的抽取看作序列标注问题,采用条件随机场模型对句子进行二类标注,根据标注结果抽出句子以生成摘要。由于不在摘要中的句子的数量远大于摘要中的句子数,标注过程倾向于拒绝将句子标注为摘...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张龙凯;王厚峰
15.基于不平衡数据的中文情感分类
王中卿;李寿山
近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。本文收集四个产品领域的中文评论文本,发现正类样本的数目远远多于负类样本。针对不平衡数据的中文情感分类,我们提...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:王中卿;李寿山
16.越汉双语句子自动对齐研究初步
陈坚忠;李鹏
句子级对齐双语语料是自然语言处理的重要资源之一,对于机器翻译、跨语言检索、双语词典编纂等研究有很大应用价值。关于自动句子对齐的研究主要针对于英语、法语、汉语等语言,据我们所知,尚未见到针对越南语-汉语的相关研究。本文考查了使用不同参数时,基于长度的句子对齐算法、Champollion算...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:陈坚忠;李鹏
17.统计与词典相结合的领域自适应中文分词
张梅山;邓知龙
基于统计的中文分词方法往往不具有良好的领域自适应性。本文通过将外部词典信息融入统计分词模型(本文使用CRF统计模型)来实现领域自适应性。实验表明,这种方法具有良好的领域自适应性。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张梅山;邓知龙
18.基于话题模型的科技文献话题发现和趋势分析
贺亮;李芳
自动挖掘科技文献话题,总结研究领域的发展趋势及最新研究动态,能给科技工作者的研究工作提供帮助。本文提出一种话题发现和趋势分析的方法,该方法首先利用LDA话题模型抽取科技文献的话题,然后计算话题的强度和影响力,最后研究话题的趋势变化。本文提出了可以针对任何文集的话题强度和影响力的...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:贺亮;李芳
19.面向自然语言处理的韩国语隐喻知识库构建研究
徐超;毕玉德
隐喻处理是自然语言处理的一个难点问题,隐喻处理必须有隐喻知识库的支撑。本文从语言学的角度分析韩国语词汇级隐喻的分布情况,利用WordNet的语义网所提供的名词分类及其上下位的信息判别隐喻表达,并以此为基础,提出了一种面向自然语言处理的韩国语隐喻知识库的构建方法。   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:徐超;毕玉德
20.中文CCG树库的构建
宋彦;黄昌宁
组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂贵人力和资源,一个行之有效的解决方案是利用现有短语句法树库来自动生成CCG树库...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:宋彦;黄昌宁
21.生物医学文献蛋白质关系抽取——从实体识别到网络构建
杨志豪;赵哲焕
本文介绍了一个从实体识别到PPI网络构建的生物医学文献蛋白质关系抽取系统。该系统采用特征耦合泛化策略进行蛋白质实体识别;采用基于扩展语义相似度的方法进行蛋白质名均一化;融合了基于特征的核、树核以及图核进行蛋白质关系抽取;并实现了蛋白质关系网络的可视化。该系统在DIP数据库的一个...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:杨志豪;赵哲焕
22.蒙古文WordNet名词同义词集合构建算法
哈斯那顺乌日图
蒙古文名词同义词集合的自动建立是研发"蒙古文WordNet"名词子网时首要完成的基础工作。本文提出了一种从中英文WordNet转换生成蒙古文WordNet名词同义词集合的方法,并设计实现了蒙古文WordNet名词同义词集合的生成维护系统。论述了蒙古文WordNet名词同义词集合的构造扩充原则和词义消岐等应用...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:哈斯那顺乌日图
23.百科知识工程
田野;王渝丽
本文介绍百科知识工程的相关研究进展。百科知识工程的目的是在建立百科全书知识标注体系的基础上,对专家版《中国大百科全书》进行知识元标引和知识点标引等结构化处理,建立结构化的百科知识库,从而支持更为智能化的百科知识服务,同时为海量出版领域的开发利用做出示范。   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:田野;王渝丽
24.相似词获取的集成方法
石静;邱立坤
语义相似度计算是自然语言处理领域的关键问题之一,在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。本文将集成方法应用于基于大规模语料库的汉语语义相似度计算上,提出并实现了不同语域的集成方案。分别使用新闻语料和互联网语料,选取窗口...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:石静;邱立坤
25.情感分类中不同主动学习策略比较研究
居胜峰;王中卿
近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都基于大规模标注样本的分类情况。实际情况下,收集标注样本是一件费时费力的事情。本文在基于少量标注样本的基础上,研究和探讨基于主动学习的情感分类,即主动挑选"优质"的样本进行标注和学习。本文采用了四...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:居胜峰;王中卿
26.基于“大词”实例的中文分词研究
修驰;宋柔
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。本文尝试找到一种简单的、基于"大词"实例的机器学习方法解决分词歧义问题。实验结果表...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:修驰;宋柔
27.基于FrameNet框架关系的文本蕴含识别
张鹏;李国臣
文本蕴含识别是处理自然语言中广泛存在的同义异形现象的一种有效途径。本文基于FrameNet中框架及框架之间的八种关系,结合WordNet中词汇间的语义关系,提出了一种文本蕴含识别方法。在给定文本T和假设H中词元激起的框架基础上,该方法利用深度优先搜索,在FrameNet框架关系图中,查询T和H中框架之...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张鹏;李国臣
28.语义角色句法实现的词汇语义制约信息库的建设及其应用
周明海;亢世勇
词汇语义制约了语义角色的句法实现。我们以语义角色为纲、以句中动词为中心,抽取了标注信息比较成熟的《中小学语文课本标注语料库》中必有论元块的核心词,在标注义类、句法语义格式等信息的基础上建立了《语义角色句法实现的词汇语义制约信息库》。目前该库共有施事、受事、当事、共事、客事...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:周明海;亢世勇
29.面向开放的限定领域的交互式问答语料分析
张耀允;王晓龙
交互式问答是国际问答技术领域新兴的热门研究方向。它结合自动问答与对话系统技术,可以处理系列相关问题,并能与用户进行对话式交互,但是目前在中文问答领域开展的相关研究还比较少,尤其缺乏对真实环境中大规模交互式问答语料的收集和分析。本文收集了面向开放的限定领域的中文交互式问答语料...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张耀允;王晓龙
30.基于跨语言广义向量空间模型的跨语言文档聚类方法
唐国瑜;夏云庆
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。本文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(CLGVSM),并且比较了不同相似度的在文档聚类下的性能。同时提出了适用于...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:唐国瑜;夏云庆
31.基于语义块的事件倾向性分析研究
韦向峰;张全
事件的倾向性分析对网络舆情分析和事件趋势分析都具有重要意义。本文把影响倾向性分析的词语分为四类:对象词、褒贬词、逻辑词和程度词,建立了语句倾向性分析的二元模型和三元模型,在语句语义块分析的基础上实现对语句和篇章的倾向性获取。实验中首先确定三个事件实例的关键对象和立场,然后根...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:韦向峰;张全
32.领域本体构建中关系辅助判断技术研究
张晓莹;张桂平
领域本体辅助构建方法逐渐成为领域本体构建研究的热点,其中如何辅助用户判断概念间关系是领域本体构建的重点。针对用户在无领域背景知识支撑时无法准确判断概念间关系的问题,本文考虑文本中概念间距离对该文本描述概念间关系的影响,采用改进的BM25相似度计算方法为用户提供参考文本,并提出基...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张晓莹;张桂平
33.基于并列结构的概念实例和属性的同步提取方法
李文杰;穗志方
在概念实例和属性的提取研究中,针对基于模式的方法召回率比较低的特点,本文提出了一种基于并列结构的概念实例和属性的同步提取方法。首先利用并列结构模式去网页集合中提取同类词语集合,然后再用基于种子的弱指导方法去学习实例和属性共现的上下文模式,最后再通过模式去提取候选实例或候选属...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:李文杰;穗志方
34.一个支持人工校对的中文简繁体转换工具
张小衡
中文简繁体自动转换是当今社会的一大需求。由于计算机技术还远远不能保证译文的100%准确,因而为了提供高质量译文人工校对是不可或缺的。本文报道了一个既能作中文简繁体自动转换,又支持人工校对的应用软件工具。该软件的自动转换正确率达到99.80%,而且使得每一个能看懂繁体字中文的人都可以...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张小衡
35.哈萨克语通用词汇自动提取方法研究与实现
王雅莉;古丽拉·阿东...
以哈萨克语通用词汇自动提取为目标,实现了哈萨克语词汇通用度统计系统。主要介绍了哈萨克语通用词汇自动提取技术,基于通用词汇的三大特征:领域通用性、地域通用性、时间通用性,采用统计的方法考察哈萨克语词汇的通用程度,在哈萨克语词频统计的基础上实现了哈萨克语词汇的通用度统计,根据词语...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:王雅莉;古丽拉·阿东...
36.基于隐最大熵原理的汉语词义消歧方法
张仰森;黄改娟
本文针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的特点,提出了采用隐最大熵原理构建汉语词义消歧模型的方法。在研究了《知网》中词语与义原之间的关系之后,把从训练语料获取的文本上下文中的词语搭配信息转换为义原搭配信息,实现了基于义原搭配信息的文本隐性语义特征提取方...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张仰森;黄改娟
37.基于Unicode编码的藏文转写拉丁文本的算法
康才畯;江荻
本文以藏文音节字的结构关系和拼写顺序形成的转写规则为基础,结合Unicode编码位置特征,讨论并实现了基于Unicode标准的藏文转写拉丁文本的算法。文章提出了以Unicode编码区域位置为特点的识别思路,提出显示占位符宽度与Unicode编码长度以及基字丁组合层次高度关系的算法公式,并根据公式推导基...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:康才畯;江荻
38.基于CRFs的评价对象抽取特征研究
王荣洋;鞠久朋
评价对象是情感分析中情感信息的一个重要组成部分。本文基于条件随机场模型,研究多种特征在评价对象抽取任务中的表现,并将特征归纳为词法、依存关系、相对位置、语义等四大类别。其中,重点引入语义角色标注新特征。在实验中,我们在三个不同的数据集上考查了各个特征及其组合对系统性能的影响...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:王荣洋;鞠久朋
39.一种表征字符信息量的法则:Character's Law
李国华;昝红英
Zipf定律用于研究文本中单词出现频率与单词在频率表中的排名之间的关系,它在文献标引和词表编制、信息检索及图书情报管理中都有广泛应用。Heaps定律研究文本中单词数目与文本大小的关系;Benford定律研究现实生活数字中的首字母中1~9出现的规律。本文通过对英文基础词汇表观察和统计,发现一...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:李国华;昝红英
40.基于词典的半指导学习古汉语全文词义标注
张颖杰;李斌
词义消歧是自然语言处理中的一项基础任务。本文针对先秦古汉语这特殊的语言材料,将WSD的过程分为先区分拼音后区分具体词义这两个步骤。实验过程使用了《汉语大词典2.0》为知识来源,《左传》为语料,采用了基于支持向量机(SVM)的半指导方法。本文同时做了直接为全体词义分类的对比实验,结果证...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张颖杰;李斌
41.基于统计方法的蒙古语依存句法分析模型
斯·劳格劳;华沙宝
蒙古语文信息处理已初步完成字、词处理阶段的基本任务,正在步入句处理阶段,并且在国家自然科学基金的资助下构建了蒙古语依存树库MDTB。本文以MDTB为训练和评测数据,设计实现了一种基于词汇依存概率的蒙古语依存句法分析模型。目前,该模型的无标记准确率、有标记准确率和核心词准确率分别达到...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:斯·劳格劳;华沙宝
42.基于双语平行语料的中文缩略语提取方法
刘友强;李斌
汉语缩略语在现代汉语中被广泛使用,其相关研究对于中文信息处理有着重要的意义。本文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。我们首先对双语语料进行词对齐训练,利用训练得到的词对齐信息抽取出候选中英文短语对。然后用SVM分类器提取出质量高的短语对。最后再从质量高的短...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:刘友强;李斌
43.基于依存关系的旅游景点评论的特征-观点对抽取
吴苏红;王素格
特征-观点对的抽取是观点挖掘中重要的研究课题之一,本文利用依存语法对句子的分析,研究了评论文本中特征-观点对的抽取。利用词对间的依存关系,构建了用于获取含情感倾向组块的规则以及候选评价对象的识别算法,在此基础上,设计了具有情感倾向的特征-观点对的抽取算法。本文对山西旅游景点评论...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:吴苏红;王素格
44.事件词驱动的文本事件信息结构初探
曾青青;杨尔弘
本文结合戴伊克新闻文本的话语图式,以体现文本重要事件信息的事件词所分布的句子为观测点,指出了突发事件文本由主线信息链和副线信息链构成。其中,明确提出主线信息链代表了文本的事件信息结构,由前核心事件链、核心事件链、次生事件链和再生事件链构成。副线信息链则是由"评价"部分、"背景...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:曾青青;杨尔弘
45.基于网页中深度并列结构的实例提取算法
张星星;穗志方
本文发现了网页文件中一种普遍存在的描述性结构—深度并列结构,并使用它来进行概念实例提取。首先提取网页文件中的深度并列结构,用种子实例对其进行过滤和提取候选实例;在候选实例评价阶段,构造种子、网页文件、并列结构和候选实例之间的关系图,并使用PageRank算法评价候选实例。在提取的8个...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:张星星;穗志方
46.汉语词法分析中上文和下文孰重孰轻
于江德;王希杰
汉语诃法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题。上下文是统计语言学中获取语言知以和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。汉语词法分析时需要从上下文获取相关的语言知识,但...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:于江德;王希杰
47.全词消歧的序列标注方法
周云;王挺
全词消歧(All-Words Word Sense Disambiguation)本质上是一个序列标注问题,本文提出了两种用于全词消歧的序列标注方法,它们分别基于隐马尔可夫模型(Hidden Markov Model,HMM)和最大熵马尔可夫模型(MaximumEntropy Markov Model,MEMM)模型。首先,我们用HMM对全词消歧进行建模。然后,针对HMM只...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:周云;王挺
48.藏语不规则动词的信息标注方法
江荻
文章讨论了藏语单音动词的标注问题,认为藏语单音动词分为有词形变化的不规则动词和无词形变化的不规则动词两类,前者可利用词形变化表识别和标注,后者需要建立句法识别规则加以标注。项目利用的分析工具是Toolbox,介绍了Toolbox词典中动词属性的内容,通过词典技术以及与文本互动特点开展不规...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:江荻
49.一种利用注疏的《左传》分词新方法
徐润华;陈小荷
先秦文献的注疏文献中包含有大量词汇语义知识,是先秦文献自动分词的重要依据。本文以篇幅最大的先秦文献《左传》为研究对象,在对《左传》及其注疏文献进行自动对齐的基础上,提出了一种利用注疏的《左传》分词新方法。分词实验的F值达到89.0%,较之baseline有明显提升。该方法无需训练语料,利...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:徐润华;陈小荷
50.面向移进-归约句法分析器的单模型系统融合算法
马骥;朱慕华
本文提出了一种面向移进-归约句法分析器的单模型系统融合算法。在训练阶段,该方法通过调整训练数据的分布,来构建用于融合的多个移进-归约句法分析器。在解码阶段,该方法首先使用各个移进-归约句法分析器对待分析的句子进行句法分析,然后利用一个线性模型对各句法分析器输出的句法树进行评分...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:马骥;朱慕华
51.基于粗糙集方法的共指消解
贾修一;张亚兵
选择合适的特征是共指消解任务中一个重要的组成部分。特征不是越多越好,反映本质的特征很重要;对于不同种类的语料,一个公共的特征集往往难以适应,为了提高特征对语料的针对性,对不同的语料应选择不同的特征。本文基于上述观点,采用粗糙集理论中的属性约简方法来解决共指消解的特征选择问题,...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:贾修一;张亚兵
52.面向冗余度控制的中文多文档自动文摘
王红玲;黄超超
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。本文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:王红玲;黄超超
53.基于HNC的汉语词语知识库改进
王青海;马海慧
汉语词语知识库是HNC知识库系统的重要组成部分,目前其结构设计简单,加大了对HNC符号解析的难度。本文在分析了HNC的编码特点的基础上,改进了汉语词语知识库模型,阐述了改进后汉语词语知识库实体属性的设计方法和知识库的填写原则,并用实例说明了改进后的词语知识库可以提高自然语言处理的效率...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:王青海;马海慧
54.服务于内容侧面发现的框架识别
王荀;李素建
文本中的内容通常包含多个侧面,全面地识别这些内容侧面对自然语言处理有重要的意义。但是传统的使用简单特征的统计方法难以识别出所有的内容侧面。以自动摘要为例,传统的抽取式方法多以词频为主要特征,一些重要的句子常因重复度不高被舍弃。要想全面地覆盖原始文本的重要信息,就要识别出文本...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:王荀;李素建
55.基于多特征表示的本体概念挂载
徐立恒;刘洋
本文研究了一种基于多特征表示的本体概念挂载方法。以中国大百科知识体系作为本体体系结构,抽取网络知识库条目作为本体概念,通过分析条目中文本内容、语义标签和半结构化信息获得概念问层级关系。本文将中国大百科知识体系扩展为百万级概念的多领域中文本体,为进一步抽取本体概念属性、概念...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:徐立恒;刘洋
56.异种语料融合方法:基于统计的中文词法分析应用
孟凡东;徐金安
基于统计的中文词法分析往往依赖大规模标注语料,语料的规模和质量直接影响词法分析系统的性能。高覆盖率、高质量的语料资源非常有限,而且适用于不同领域的语料往往具有不同的分词和词性标注标准,难以直接混合使用,从而导致既有资源未能充分利用,分词精度下降等问题。针对该问题,本论文提出了...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:孟凡东;徐金安
57.基于语境歧义词的句子情感倾向性分析
宋艳雪;张绍武
目前,在自然语言处理领域,关于词语搭配方面的研究主要是在语料基础上抽取搭配,本文从情感的角度研究语境歧义词的搭配,这种搭配对文本情感倾向性分析方面具有实际重要的意义。首先使用关联规则挖掘的方法确定语境歧义词候选搭配集,然后通过PMI过滤后判断每对搭配词是否具有情感倾向性,最终构...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:宋艳雪;张绍武
58.基于词汇评分的汉语作文自动评分
彭星源;柯登峰
本文研究了通过作文词汇评分来实现汉语作文自动评分的新算法。在作文评分应与词汇评分高度相关的假设基础上,实现了这种关系的量化计算。本文从通用词表方法、常规方法,以及提出的三种改进算法上进行方法性能的比较,并对比了e-rater作文评分系统中同样采用基于词汇方法的性能。实验结果表明,...   详情>>
来源:《中国计算语言学研究前沿进展...》 2011年第期 作者:彭星源;柯登峰
价格:¥42.50

书评

0/400
提交
以下书评由主编筛选后显示
最新 最热 共0条书评

分享本书到朋友圈