首页信息科技计算机人工智能 在大成讲坛,讲出你的精彩!

作品简介:

计算机语言通过形式化模型和计算机程序分析处理文字。本文集从文字语义、文字的计算机处理技术等方面阐释中国计算机语言学的研究进展。

更多
收起

关键词:

计算机语言学 前沿
CNKI语言文字
中国知网
主编的其他文集 更多>>
1736人阅读
第1章 近代、现代语法
1.补语语义指向的制约因素
许小星;亢世勇
补语的语义指向非常复杂,既可以指向述语动词,也可以指向句子的主语、宾语、介词宾语。本文基于真实语料,细致考察了补语同体词性成分之间的语义关系,并力图探求补语语义指向的内在规律。补语自身的语义特征制约着它同语义所指的体词之间存在何种语义联系,也影响着补语指向哪个体词。   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:许小星;亢世勇
2.现代汉语复合词内部结构词典的构建
邱立坤;张晓巧
本文介绍了构建现代汉语复合词内部结构词典的方法和流程。在构建该词典的过程中,我们使用人工分析与自动分析相结合的方法。在自动分析方面,我们共使用了三种方法,包括双向平行类推、成对替换类推两种自动类推方法,以及基于形式与意义同构思想的推导方法。Hownet 54000双字词中,这三种方法可...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:邱立坤;张晓巧
3.非监督的汉语感情语料库的构建及分析
陈瑛;李逸薇
目前感情计算是个全新的研究问题,该问题首先面临的是缺乏相关的语料库。本文提出一种非监督的方法用以创建大规模的文本语料库。该语料库包括一个感情句子语料库和一个中性(无感情)句子语料库。鉴于非监督的方法的自由及方便性,我们可以快速创建大规模的语料库用来帮助感情计算的研究,从而避...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:陈瑛;李逸薇
第2章 语言、文字
1.首都平面媒体用字用语状况调查
曾小兵;杨尔弘
本文选取了北京地区的10种主流报纸建成首都地区平面媒体动态流通语料库,对其中的用字、用语情况进行多角度多层次的考查与数据分析,涉及字词的频次、频率、使用率、覆盖率、构词能力、频比等多项指标,并尝试将首都地区平面媒体动态流通语料库与国家语言资源监测语料库平面媒体库进行一些比较...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:曾小兵;杨尔弘
2.基于口语度的口语词语自动提取研究
侯敏;张玉强
口语词语自动提取的最大障碍在于口语语料的难以获取和口语词语界定的模糊性。本文充分利用广播电视语料兼具书面语体和口语语体的特点,提出了口语度计算模型,该模型以Logistic回归模型为基础,以词语空间分布通用率为协变量,通过衡量词语在书面语体语料和口语体语料中的空间分布差异,能够有效...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:侯敏;张玉强
3.基于双向融合的日语外来语翻译技术的研究
高永磊;张桂平
日英翻译需要处理日语片假名的英译还原问题。本文利用了基于短语的统计翻译方法对片假名进行日到英、英到日的双向翻译,在对翻译结果进行分析的基础上总结了日英互译过程中的各自特点,提出了一种基于双向融合的片假名翻译方法,该方法优化了日英的翻译结果,实验结果表明,基于双向融合的翻译策...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:高永磊;张桂平
4.基于搜索引擎的专有名称译文挖掘研究
葛运东;孙常龙
查询翻译是影响跨语言信息检索的关键因素之一,而查询中有很大比重是专有名称,因此专有名称译文的挖掘对改进查询系统性能具有重要意义。本文首先利用主题词译文查询扩展方法从搜索引擎获取有效双语摘要资源;其次,利用频度变化信息和邻接信息,从含有噪声、规模相对较小的摘要资源中抽取复合词...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:葛运东;孙常龙
第3章 翻译机
1.基于双语混和网页的平行语料挖掘
林政;吕雅娟
双语平行语料是统计机器翻译模型训练必不可少的基础资源,但是大规模双语平行语料库的自动获取并不容易。本文提出了一种从双语混合网页上自动挖掘大规模双语平行语料库的解决方案,研究了候选双语混合网页的获取,网页噪声过滤,双语网页确认以及平行句对抽取等关键技术,最后实现了一个基于双语...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:林政;吕雅娟
2.基于文本-模板直接匹配的机器翻译系统
吴闯;吴宏林
模板匹配是影响基于模板的机器翻译(PBMT)性能的关键因素。本文提出了一种面向机器翻译的文本-模板直接匹配算法。该算法可绕过模板抽取步骤,将待翻译句子和实例库中的模板直接进行匹配,以避免复杂的语法分析。同时我们构建了基于文本-模板直接匹配的翻译引擎,并在引擎中引入模板选优模块解决...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:吴闯;吴宏林
3.面向汉英机器翻译的大句范式初探
池毓焕;李颖
在大句的范围内小句的组织结构会呈现某些特定的模式,即大句范式。而范式的运用存在着语种间的有无或常用罕用之别,需要在翻译时予以变换。本文初步探讨了汉英机器翻译面临的几个常用大句范式,描述其辨识特征,并提出转换规则,以期对现有基于规则的汉英机器翻译系统有所助益。   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:池毓焕;李颖
4.基于规则和统计的日语分词和词性标注的研究
姜尚仆;陈群秀
和中文类似,日语的词法分析需要首先进行分词。基于词的方法是日语分词的主流方法。同时,对中文的研究结果表明,词性标注对分词结果的正确性有帮助,这点在日语中也得到了证实。我们提出了一种基于规则和统计的日语分词和词性标注方法,使用基于单一感知器的联合分词和词性标注算法进行训练和解...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:姜尚仆;陈群秀
5.统计机器翻译中多分词结果的融合
马永亮;赵铁军
汉英统计机器翻译中,汉语语料通常需要使用中文分词将句子切分成词序列。然而中文分词不是为统计机器翻译而开发的技术,它的分词结果不能保证对统计机器翻译的优化。近些年,一些研究试图改进中文分词方法从而达到对统计机器翻译的优化。在本文中,我们将从另外的角度研究中文分词对统计机器翻译...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:马永亮;赵铁军
6.一种面向WEB的生物医学领域英汉术语翻译对抽取方法
何莉;林鸿飞
双语词典是信息检索及相关应用的基础资源。但是领域专业双语词典不易获得且规模有限,因此本文提出一种面向WEB的生物医学领域自动获取双语术语翻译对的方法,以补充、完善双语词典。该方法主要包括候选中文对译词识别和对译词选择两个部分。前者使用了统计规则和长度-标准差模型,后者采用感知...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:何莉;林鸿飞
7.面向北京奥运会的定制化英汉机器翻译系统
宋金平;肖健
本文介绍了面向北京奥运会的定制化英汉机器翻译系统的技术原理及翻译流程,重点介绍了针对奥运会特殊需要所进行的翻译模板定制化:局部翻译模板定制化和整句翻译模板定制化。局部翻译模板定制化包括可变词典类、动词搭配类、名词搭配类的定制化;整句翻译模板定制化包括从简单到复杂的共三类翻...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:宋金平;肖健
8.基于字词混合翻译短语的统计机器翻译
万升华;杨沐昀
汉英翻译中的分词影响着统计机器翻译(SMT)性能。为解决分词工具对SMT产生的影响,本文提出了一种基于字词混合翻译短语的方法。它将基于分字和分词的两种方法进行有效融合,缓解了分词带来的不利影响。本文在汉英科技专利文献上进行了实验,表明这种混合策略相比单一的分词的性能最高可以提升0....   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:万升华;杨沐昀
9.面向统计机器翻译的重对齐方法研究
肖桐;李天宁
词对齐是统计机器翻译中的重要技术之一。本文提出了一种重对齐方法,它在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。此外,本文提出的方法还可以利用大规模单语语料来强化对齐结果。...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:肖桐;李天宁
第4章 检索机
1.基于领域本体的自动问答系统关键技术研究
高俊杰;李茹
基于领域本体的自动问答系统的性能主要取决于本体知识库的结构、问句分析结果以及从本体中进行答案查询推理的策略。本文首先构建了一个结构良好的本体知识库;然后对问句进行面向领域本体的问题分类,并在CFN标注的基础上提取问句的结构化语义信息;最后通过规则将问句结构化语义信息映射到本体...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:高俊杰;李茹
2.一种应用奇异值分解的RankBoost排序学习方法
林原;林鸿飞
Learning to rank(排序学习)已经成为当今信息检索领域研究和讨论热点。它运用信息检索和机器学习领域的方法,结合相关性判断条件提供与查询更加相关的信息。当前的排序算法主要集中于相关性标注数据的使用,本文通过对相关性标注数据集以及非标注数据集合并后的集合进行奇异值分解,提取新的特...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:林原;林鸿飞
3.基于标签共现的查询扩展研究
晋松;林鸿飞
传统的查询扩展方法忽略了查询词与扩展词间的语义关联。随着Web 2.0的发展,folksonomy为网络提供了大量的社会化标注信息。作为folksonomy的核心,标签不仅可以高质量描述信息资源的内容和主题,并且标注相同信息资源的标签之间还存在着一定的语义关联。依据标签的这种特性,本文提出了一种基于...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:晋松;林鸿飞
4.基于领域语义信息的百科问答系统
韩先培;齐振宇
本文构建了一个基于领域语义信息的百科问答系统,描述了如何在问答系统的语料预处理、问句处理和答案抽取模块中引入领域语义信息来提升问答系统的性能。实验结果表明,相比于检索系统和未加入语义信息的问答系统,基于领域语义信息的问答系统在MRR(平均排序倒数)性能上分别提升了34%和20%。   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:韩先培;齐振宇
5.中文检索与汉语语义概念图表示
陆汝占
当今信息时代,人们从海量信息中获取所需要信息已成为日常生活的组成。人们普遍感到缺憾的是检索准确率低,这将限制手机检索的应用前景。问题的症结在于检索系统采用布尔模型"与"、"或"运算这类"离散型"方法处理语言,分裂割断了词语在概念上的联系和完整性,从而造成噪声。对此,如何从用户需求...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:陆汝占
6.整合搜索引擎结果的专家检索
毕文静;沈华伟
目前,专家检索的研究多基于企业内部语料,较少引入外部资源。万维网中包含丰富的信息。本文以现有的两个典型专家检索模型为基础,根据模型的特点,整合搜索引擎检索结果与企业内部语料,实现专家检索。实验证明搜索引擎检索结果的引入能够很好的改善专家检索的效果。   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:毕文静;沈华伟
7.基于规则和类型还原的用户查询意图识别
王俞霖;孙乐
识别网络查询隐含的用户意图是一项具有重要意义和挑战性的工作。本文通过对真实用户查询日志的标注和分析,发现基于规则的方法可以对用户意图进行有效的识别。针对信息类、导航类和事务类三种用户意图,我们总结出若干规则对其进行自动识别。之后我们提出一种类型还原方法可以进一步提高查询意...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:王俞霖;孙乐
8.统一语义视图下的垂直领域跨语言检索模型
孙晓玲;林鸿飞
随着Internet的快速发展和人们需求的不断提高,单语言的信息检索已经不能满足人们的需要,而网络语言的多样化和用户所掌握语言的差异性导致自由获取信息困难,因此跨语言检索受到了越来越多的关注。本文探讨了在生物医学领域的跨语言检索系统,利用医学本体CMeSH为检索语言和目标语言建立统一的...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:孙晓玲;林鸿飞
9.基于主题划分的分布式检索混合结果合并技术研究
何莉;林鸿飞
结果合并是分布式信息检索的最后一个环节,将直接影响检索结果排名,因而准确、有效的结果合并策略对提高检索性能非常重要。本文提出了一种基于主题划分的分布式检索混合结果合并方法。该方法通过文本聚类把文档划分为主题集合,对于给定的用户查询,基于主题进行检索,并利用检索结果中文档的集...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:何莉;林鸿飞
10.一种基于索引模型融合的面向问答的信息检索方法
郭稷;骆卫华
IR4QA(Information Retrieval for Question Answering)是日本国立情报局组织举办的第7届国际跨语言检索评测(NTCIR-7)提出的新任务,其目的是研究信息检索和问答技术融合的有效方法,寻找带来最好的问答系统性能的信息检索策略。因此,IR4QA比传统信息检索任务更具挑战性。在NTCIR-7中,我们探索...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:郭稷;骆卫华
第5章 模式识别及其装置
1.基于用户查询日志和锚文字的汉语缩略语识别
谢丽星;孙茂松
缩略语是自然语言的常见现象之一,其相关研究是中文信息处理领域的重要研究课题。本文针对缩略语的自动识别问题,采用用户查询日志和锚文字文件,运用"同网站主题相关性"(即对应的url指向同一网站的查询词较为相关)的思想进行初步的缩略语、源短语对的抽取,然后采用一系列过滤规则,结合分词按照...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:谢丽星;孙茂松
2.主客观识别中的上下文因素的研究
蒙新泛;王厚峰
主客观判别是观点分析中的一个基本问题。在本文中,我们通过4组对比实验,分析了上下文信息对于主客观判别的影响。从实验中我们得出的结论是:引入上下文信息能够对主客观分类性能产生影响,但简单的信息引入方法反而会降低分类的准确度,只有在有针对性地选取特征以及分类方法时上下文信息才能起...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:蒙新泛;王厚峰
3.一种网络非规范汉语词汇的识别方法
姚天昉;张霄凯
随着即时通信软件的普及,网络非规范词汇广泛出现在各种主观性文本中。在传统的文本挖掘中,这种非规范词汇都被视为噪音。事实上,这些非规范词汇经常存在于用户表达个人意愿的句子中。如果我们能够正确识别这类词汇,就能为意见挖掘提供新的意见元素信息。本文的工作把来自网络的非规范汉语词汇...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:姚天昉;张霄凯
4.面向特定领域产品评价对象自动识别研究
宋晓雷;王素格
随着Internet技术的迅猛发展以及电子商务的不断普及,产品评价对象的识别已成为中文信息处理的一个研究热点。本文首先抽取候选评价对象。通过综合使用词形模板和词性模板以及在对候选评价对象评分之前进行预处理,提高了候选评价对象抽取的召回率和精确率;其次,从模板种子集和评价对象种子集出...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:宋晓雷;王素格
5.基于概念属性特征的中文地名识别处理
李诺;张全
在最大熵等统计机器学习模型当中,特征函数的选择可以说是对系统整体性能影响最大的部分。本文不仅使用了传统的词、词性等作为特征,同时基于HNC语言概念理论体系,以语义概念为特征进行训练。通过对语义概念符号的正确表示,把语义分析的内容加入到统计分析中去。把词语按照语义分类的部分属性...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:李诺;张全
6.基于用户查询日志的命名实体挖掘
翟海军;郭嘉丰
本文研究了针对大规模查询日志中丰富的命名实体的挖掘技术。已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度来进行挖掘。然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,而实际命名实体却往往可能从属于多个类别。本文通过引入一个弱指导话题模型,...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:翟海军;郭嘉丰
第6章 语音信号处理
1.一种基于实例语境的汉语语音识别后文本检错纠错方法
龙丽霞;李蕾
为了提高语音识别结果的正确率,依据"信息-知识-智能"转换的思想,本文提出了一种基于实例语境的语音识别后文本检错纠错方法:通过在线查找大量鲜活语料,构建基于实例的语境知识库,并融合语法和语义知识,将识别结果置于特定语境中分析,找出错误点并予以纠正。初步实验结果表明,本文算法具有比较...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:龙丽霞;李蕾
2.面向语音合成的新闻播报语音库构建及其特殊韵律结构
邹煜;何伟
韵律结构及其与句法语义的关系对于语音合成、语音识别以及自然口语的理解来说已经变得越来越重要了。本文是在构建基于语义的语音合成韵律分析数据库基础上,发现并初步分析了广播新闻播音中具有嵌套结构的复合韵律短语。经分析,我们发现复合韵律短语内部除了具有语音声学上的音高下倾趋势外,...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:邹煜;何伟
3.基于噪声信道模型的维吾尔语央音原音识别
艾山·吾买尔;吐尔根...
该文提出了一种基于噪声信道模型的维吾尔语弱化元音恢复方法。该方法用噪声信道模型来描述维吾尔语词干元音的弱化过程,即词干中的部分元音在信道传输过程中被噪声发生弱化。本文根据维吾尔语的元音和谐、辅音和谐以及音节结构等特点,从词尾提取的二字符、三字符和最后音节等基础上建立语言模...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:艾山·吾买尔;吐尔根...
第7章 文字信息处理
1.基于序列模式挖掘的人物关系识别
李丹;罗智勇
命名实体关系抽取是信息抽取领域中的重要研究课题。本文利用序列模式挖掘方法,从大规模生语料中自动提取表达人物关系的序列模式,用于人物实例关系抽取;为了避免数据稀疏问题而导致模式遗漏,我们将具有相同文本表达模式的特征词语进行聚类,以提高关系模式的覆盖率;同时给出了一种序列模式评估...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:李丹;罗智勇
2.一种基于维基百科知识库的中文文本分类方法研究
苏小康;何婷婷
传统的文本表示方法是基于词条的向量表示方法(Bag of Words or BOW),文本信息中的每一个词条都被表示成该向量中的一个维度。尽管这样的表示方法简单而且常用,但是却难免会有一些限制,因为文本之间存在着复杂的潜在的联系,而且这些潜在的联系很难用词条向量表示出来。因此在文本表示中插入一...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:苏小康;何婷婷
3.汉语儿童口语语料库的建立及语料初步统计分析
张碧川;王小捷
我们认为基于儿童语言习得的过程可以帮助建立一种语言的计算模型。研究儿童语料资源在语言习得及其计算模型的研究中是不可或缺的,本文将CHILDES语料中汉语语音进行转录及词性标注,得到一个儿童口语语料库。并比较了儿童语言,儿向语言和成人语言之间的字层句层特点,我们基于实验结果讨论了语...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:张碧川;王小捷
4.基于图排序模型的跨领域倾向性分析算法
吴琼;谭松波
倾向性分析因其重要性而受到广泛关注。通常,监督分类方法对倾向性分析很有效。但是,当训练域与测试域不在同一个领域时,这些算法的性能明显下降。本文提出一个算法,将文本的情感倾向性与图排序算法结合起来进行跨领域倾向性分析。本算法在图排序算法基础上,利用训练域文本的准确标签与测试域...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:吴琼;谭松波
5.汉语常用名词的自动提取研究—兼论《汉语水平词汇与汉字...
王治敏
本文利用大规模语料,提取汉语名词在语料中的统计特征,探索出一种可以自动发现汉语常用词语的有效方法,从而建立了汉语常用名词统计词表。通过对比分析《汉语水平词汇与汉字等级大纲》与汉语常用名词统计词表的异同,提取和发现词汇大纲未收入的常用名词,同时也可以把不再常用或很少使用的历史...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:王治敏
6.评价对象抽取及其倾向性分析
刘鸿宇;赵妍妍
情感分析近年来已经成为自然语言处理领域的热点问题,本文对情感分析中的两项关键技术——评价对象抽取和倾向性判断进行了深入研究。在评价对象抽取阶段,首先使用句法分析结果获取候选评价对象,继而结合基于网络挖掘的PMI算法和名词剪枝算法对候选评价对象进行筛选。在倾向性判断阶段,通过分...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:刘鸿宇;赵妍妍
7.基于情感向量空间模型的歌词情感分析
夏云庆;杨莹
音频信号在歌曲情感分析中难以奏效,所以本文提出以歌词作为歌曲情感分析的依据,采取基于情感单元的情感向量空间模型(s-VSM)进行歌词情感分析。该模型较好地解决了基于词汇的向量空间模型(w-VSM)在文本表示效率、歧义、情感功能和数据稀疏性等方面的不足。同时,本文将情感词词频与Thayer二维...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:夏云庆;杨莹
8.基于依存关系的中文情感要素抽取技术研究
王倩;何婷婷
近年来,中文倾向性分析在自然语言处理领域深受关注。针对情感要素抽取,本文提出了一种基于依存关系的抽取方法。该方法在已识别情感词语的基础上,利用分析器对包含情感词语的短句进行依存关系分析,抽取情感要素,并对其作倾向性判断。本文在第一届中文倾向性分析评测(COAE2008)比赛语料以及影...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:王倩;何婷婷
9.面向半结构化文本的领域本体关系抽取
程晓;郑德权
本文提出了一种以半结构化文本作为数据源,进行领域本体关系抽取的方法。首先,利用概念实例和属性值的共现得到文档集合。其次,定义关系模式形式,从文档集合中得到关系模式实例,包括关系模式实例的聚类以及类内合并。最后,将各类关系模式用于抽取领域本体新实例的属性值信息。在针对电影,图书...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:程晓;郑德权
10.HowNet与维基百科知识融合中的义类属性自动构建方法
崔磊;陈清才
本文提出了一种开放语义知识库构建方法来融合《知网》和以Wikipedia为代表的百科全书,保留《知网》中的语义信息和Wikipedia中的丰富资源及其知识框架,通过在两种知识库间建立一个映射关系,构造了一个大规模、带有语义标注的开放语义知识库。知识库以描述类别属性为主,作为知识库构建的重要内...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:崔磊;陈清才
11.基于字依存树的中文词法-句法一体化分析
赵海;揭春雨
针对中文切分规范定义上的一些困难以及多层次处理的性能下降问题,本文提出了一种直接从字开始的依存关系表示用于中文的基本结构表示和分析。我们的分析表明,这一表示框架可以方便地用于建立一种词法-句法一体化的完整句子结构表示。通过标注词法依存,组合到已有的句法依存树库,我们获得了一...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:赵海;揭春雨
12.面向“蒙古语语义信息词典”的名词语义分类体系
海银花;那顺乌日图
对于蒙古语名词进行语义分类是我们研发"蒙古语语义信息词典"时首要完成的基础工作。信息处理用蒙古语名词语义分类体系的构建,可为蒙古语语句自动处理提供语法和语义相结合的、全面的语言知识,它有助于提升蒙古文信息处理水平。本文简要介绍我们对名词语义分类的研究实践,着重说明分类的基础...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:海银花;那顺乌日图
13.基于语料统计的量词对名词语义选择倾向的研究
王萌;贾玉祥
量词系统是现代汉语语法的重要特点。本文从计算的角度,采用基于信息论和知识的方法,从大规模语料库中自动获取量词对名词中心语的语义选择倾向,对现代汉语中量名搭配进行定量分析,并考察了24个常用量词所搭配名词的语义分布情况。实验表明,自动获取的语义选择倾向符合语言学家对量词的定性分...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:王萌;贾玉祥
14.基于专业领域平行语料的双语核心术语抽取研究
章成志;王惠临
双语术语抽取在双语术语词典编撰、双语本体构建、机器翻译以及跨语言信息检索中具有重要的作用。其中,双语核心术语是双语术语识别和抽取的关键资源之一。本文将专业领域文档的关键词作为候选核心术语,利用中文和英文的专业领域分类语料,通过关键词抽取、术语度计算等关键技术,分别进行中文和...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:章成志;王惠临
15.基于语义树的中文词语相似度计算与分析
张亮;尹存燕
基于语义资源Hownet的词语相似度计算是近年来的研究热点,但大多数研究都是对中科院计算所刘群提出的计算方法的改进和完善。本文充分分析和利用新版Hownet(2007)的概念架构和语义多维表达形式,从概念的主类义原、主类义原框架以及概念特性描述三个方面综合分析词语相似度,并在计算中区分语义...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:张亮;尹存燕
16.基于CRF的古汉语分词标注一体化研究
石民;陈小荷
本文在计算机自然语言处理和古代汉语、特别是先秦文献的交叉领域进行了新的探索。首先对《左传》文本进行了词汇处理(分词和词性标注)和分析,然后采用条件随机场模型(CRF),基于两个模板进行自动分词、词性标注、分词标注一体化的对比实验。研究表明,一体化分词方法比单独分词的准确率和召回率...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:石民;陈小荷
17.基于词频和语义信息的组合型歧义消解
丁德鑫;曲维光
组合型歧义切分是汉语自动分词的难点之一。本文挖掘歧义字段上下文的相对词频信息和语义信息,建立语境计算模型。首先基于相对词频比,建立RFR_SUM模型,其次采用类似K近邻的分类思想,利用知网,建立语义相似度计算模型,最后尝试两个模型的结合,进行歧义消解。以1998年半年《人民日报》作为实验...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:丁德鑫;曲维光
18.基于句法分析的中文语义角色标注实现
冯娟娟;李晗静
本文提出了一种面向三维场景生成的中文语义角色标注方法。首先构造了面向场景生成的中文语义信息语料库,在句法分析的基础上对该语料中出现频率较高的六种语义角色,应用最大熵模型,对语义角色进行了标注。在基础特征空间上整体F值达到60.185%;在扩展特征空间上,整体F值达到61.027%。使用了后...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:冯娟娟;李晗静
19.面向中图法的学术文献自动分类研究
赵纪元;罗霄
本文结合自然语言处理中文本分类的理论,面向大量的学术期刊,研究了基于中图法的学术文献自动分类方法。该方法结合了CHI特征选择、后验概率训练以及tf/idf概率加权等方法,实现了对500余万篇学术期刊的自动分类。对中图法37个大类5万余子类的分类,在输出比例为20%的情况下,准确率达到了78%。同...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:赵纪元;罗霄
20.基于稀疏非负矩阵分解的自动多文摘方法
蒋永锴;叶东毅
自动多文摘是理解多文档信息的有效方法,是信息处理领域的重要课题。目前的大部分文摘方法不具有明显的潜在语义解释。本文提出一种基于稀疏非负矩阵分解(SNMF)的多文摘方法,通过控制稀疏度,并结合模型选择方法,提高分解得到的潜在语义信息,改进了文档集的话题划分,并能提取主题相关的语句用于...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:蒋永锴;叶东毅
21.基于树核函数的中文语义关系抽取
虞欢欢;陈九昌
关系抽取是信息抽取的一个重要组成部分,本文提出了一个基于卷积树核函数的中文语义关系抽取方法,采用最短路径包含树作为关系实例的结构化信息,在ACE2005标准语料库上进行关系大类的抽取实验,最终的F值达到了52.8%,由此可见卷积树核方法对中文语义关系抽取而言是有效的。同时,针对基于树核函...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:虞欢欢;陈九昌
22.基于词边界分类的中文分词方法
李寿山;黄居仁
本文研究和探讨一种新的分词方法:基于词边界分类的方法。该方法直接对字符与字符之间的边界进行分类,判断其是否为两个词之间的边界,从而达到分词的目的。相对于目前主流的基于字标注的分词方法,该方法的实现和训练更加直接、简单和快速,但却能获得比较接近的分词效果。更重要的是,我们很容易...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:李寿山;黄居仁
23.基于依存句法分析的中文语义角色标注
王步康;王红玲
依存句法是句法分析的一种,相比于短语结构句法分析,依存句法具有更简洁的表达方式。本文采用英文语义角色标注的研究方法,实现了一个基于中文依存句法分析的语义角色标注系统。该系统针对中文依存关系树,采用有效的剪枝算法和特征,使用最大熵分类器进行语义角色的识别和分类。系统使用了两种...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:王步康;王红玲
24.面向搭配知识库建设的汉语词义区分研究
朱虹;刘扬
针对当前搭配资源在描述框架和知识获取方面的不足,本文将词义研究和搭配研究结合起来,设计并实现基于搭配的汉语词义区分方法,期望利用词语的搭配特征区分词语的词义,同时,自动获取可区分词义的相关搭配知识。评测结果表明,利用最小描述长度选取最优聚类结果获取的搭配词集具有明显的词义区分...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:朱虹;刘扬
25.事件标注及突发事件文本内容分析
曾青青;杨尔弘
本文在事件标注的基础上,对新闻报道中事件报道的组织方式进行分析,界定了文本的主副线信息链,对文本中机器可以识别的内容与难识别的内容进行了分析统计,是信息提取研究的基础工作。   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:曾青青;杨尔弘
26.基于马尔可夫间隔标注的中文分词算法
姜文斌;王志洋
典型的判别式方法通过标注每个字符在词中的相对位置,将分词看作字符标注问题。本文提出了一个形式化的标注策略——马尔可夫间隔标注,来对汉语进行分词。在每一步中,N阶马尔可夫间隔标注对连续的N+1个字符间隔进行标注,并按照马尔可夫方式来处理这N+1个间隔。实验结果表明:在使用相似特征的前...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:姜文斌;王志洋
27.语篇连贯性的量化测量——基于向心理论的研究
王德亮
语篇连贯具有层级性,是一个模糊的、抽象的概念。为了有效地比较不同语篇的连贯性,本文基于向心理论提出了语篇连贯量化测量的具体方法,推导出了连贯度的计算公式,并选取实例进行了分析。通过量化测量,可以发现连贯性的微妙差异。量化测量的方法也可用于自然语言处理的研究之中,如作文自动评分...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:王德亮
28.《蒙古语语义信息词典》的初步构建
德·萨日娜;那顺乌日...
《蒙古语语义信息词典》是面向信息处理的语义知识库,词典用现代蒙古语的"词语"为基本单位来组织记录它们在语言运用中的多种语义信息。初步构建的词典内容由语义属性库和语义分类库组成,语义属性库又包括总库和事物类分库、运动类分库和性状类分库等若干分库。各库根据其主要功能对所收录的词...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:德·萨日娜;那顺乌日...
29.意见目标网络与意见目标抽取研究
夏云庆;郝博一
未知意见目标是影响意见挖掘系统覆盖率的重要因素。现有意见目标抽取方法大多直接将人工标注的意见目标为种子,通过采取语法/统计模板从真实评价文本中抽取未知意见目标。存在三个问题: (1)手工标注的意见目标粒度过大,不适合作为种子;(2)以列表作为管理种子的数据结构难以表达种子之间的关系...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:夏云庆;郝博一
30.名词转喻的自动理解
李斌;曲维光
转喻是汉语文本中常见的语言现象。在主宾语位置上,名词会出现转喻用法。该用法往往是用凸显特征转喻本体,而凸显特征则蕴含在世界知识和人类主观体验之中,计算机自动识别转喻特别是找出转喻的本体难度很大。对此,我们提出了两点策略来识别转喻的本体,首先利用聚类搜索引擎获取和喻体词语高度...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:李斌;曲维光
31.基于最大间隔马尔可夫网模型的汉语分词方法
李月伦;常宝宝
分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工作中。最大间隔马尔可夫网(Max Margin Markov Networks,简称M3N)模型是近年来由B.Taskar等人提出的一种新型结构学习模型。本文尝试将该模型用于汉语分词建模...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:李月伦;常宝宝
32.蒙古语助动词标注与分析
达胡白乙拉;萨仁图雅
蒙古语助动词的判别涉及蒙古语词法、句法和语义问题,是蒙古语语法学较难的研究课题之一。作者对助动词在真实文本中的分布特征进行分析,描述与助动词共现词语的形态变化、词类等特征,归纳蒙古语23条常用助动词的判别规则。在此基础上,研制助动词标注软件,对现代蒙古语语料库进行标注,分析标注...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:达胡白乙拉;萨仁图雅
33.瓶颈,挑战,与转机:中文分词研究的新思维
黄居仁
<正>1前言中文切分词研究已有起码30年的历史。在算法的创新,在论文发表,在把中文计算语言学研究推到国际舞台等方面,都有非常好的成绩。但在解决中文语言处理瓶颈的语言工程基本要求   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:黄居仁
34.从计算语义学角度看俄语形容词的语义分类问题
易绵竹;姚爱钢
计算语义学是一门相对较新的分支学科,它从形式语义学、计算语言学和自动推理中整合相关学术观点,旨在研究语义知识形式化的理论和方法,发掘自然语言表达式语义表征的自动构造技术。本文通过对形容词的现有分类方法进行介绍,根据信息处理用语义词典的建造原则,尝试划分俄语形容词的语义类别。...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:易绵竹;姚爱钢
35.汉语否定极项(NPI)自动抽取研究
王栋;盛玉麒
否定极项(NPI)指那些只能出现在否定句中的词语,如"丝毫"、"万万"、"绝"等。本文运用形式语义学的理论与语料库语言学方法,研究现代汉语文本中否定极项(NPI)的自动抽取。基本思路是:通过词表中词在语料库里否定句中的出现频度来判断是否是一个否定极项,通过对实验结果的分析,得出了基本结论和...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:王栋;盛玉麒
36.词义预测研究:以语料库驱动的研究方法
洪嘉馡;柯淑津
在本研究里,我们将要探究中文词汇歧义的所有可能词义,主要是为了处理一些还没有分析词汇的词义预测研究,以及提出更多适合词汇歧义的解决研究方法。我们打算运用语料库驱动的语言探究方法在本研究中。我们将关注这些词义的个别词义特征以预测一些还没分析词汇的词义,而我们所使用的语料库和工...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:洪嘉馡;柯淑津
37.基于视觉信息的汉语词汇语义习得
张春宇;张蔚
认知科学的研究表明,人类在语言习得过程中,其他认知通道(如视觉)的信息具有重要的辅助作用。本文描述了一个基于视觉信息的汉语词汇习得系统,系统基于一定规模的简单图像-句子描述对集,综合利用图像信息和词汇分布信息,获得了包括颜色在内的五类词汇范畴基于图像特征的意义表示。进一步,本文...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:张春宇;张蔚
38.语法信息与韵律结构的分析与预测
王永鑫;蔡莲红
韵律结构的自动预测是高自然度文语转换(TTS)系统的关键组成部分,直接影响到合成语音的自然度和表现力。本文建立了一个同时具有语法信息与韵律结构标注的汉语语料库。并在这一语料库的基础上,对汉语的韵律结构组成、韵律结构与语法语义之间的关系进行了分析,并进行了预测试验。研究发现,汉语...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:王永鑫;蔡莲红
39.一种改进的中文层次句法分析模型研究
李军辉;周国栋
首先提出了层次句法分析模型,该模型先对输入句子进行词性标注和基本组块识别,紧接着循环多次进行复杂组块识别直至得到根结点。该方法本质上属于一种基于移进-归约序列的句法分析模型,因此具有此类模型的各类优点;然后,本文分析了移进-归约句法分析模型中存在的潜在问题,并通过在产生式(LHS→...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:李军辉;周国栋
40.基于多分类器集成的古代汉语词义消歧
于丽丽;丁德鑫
本文首先分析了古代汉语词义义项特点,考察了词义消歧的难点,确定出面向汉语信息处理的词语义项区分遵循的原则和方法。然后在现有的词义消歧理论基础上,采用机器学习的方法,选择合适的特征,使用高效率的NaiveBayes、RFR_SUM、最大熵以及CRF等分类模型,对"将"、"如"、"我"、"信"、"闻"等高频词...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:于丽丽;丁德鑫
41.基于汉语框架网的问句语义角色自动标注研究
彭洪保;李茹
语义角色标注是近些年来自然语言处理领域的一个新的研究热点。本文针对中文问句的自身语言特点,基于汉语框架网(Chinese FrameNet,CFN),提出了一种基于词性筛选和层叠条件随机场模型的汉语问句语义角色自动标注方法。该方法根据所需标注问句与语料库原有句子相似程度选择不同标注模型,并对20...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:彭洪保;李茹
42.HNC句群处理研究新进展
缪建明;张全
句群是比语句更高一级的语言单位,句群的理解结果直接影响篇章的理解结果。给出形式化的句群处理框架、制定相关的句群处理规则,成为了自然语言处理研究,尤其是基于语义的自然语言处理,亟需解决的一项重要问题。本文在HNC语境观的指导下,结合句群处理的新研究成果,对句群的语境单元框架进行了...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:缪建明;张全
43.一种面向查询的多文档自动文摘系统实现方法
桂卓民;何婷婷
针对面向查询的多文档自动文摘,本文提出了一种系统实现方法。首先通过对句子结构的分析发现,句子中某些成分并不能反映该句子的重要信息,提出在一定句子的修剪基础上,基于倒几率比的词权计算方法与改进的HAL语言模型方法,并应用于文本的自动摘要。实验证明该方法对自动文摘的质量有一定提高。   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:桂卓民;何婷婷
44.基于FCM聚类算法的单词型术语识别方法
周浪;史树敏
大部分的术语抽取工作都将重点放在词组型术语的识别上,忽略了单词型术语。虽然在整个术语系统中,单词型术语的数量要比词组型术语少得多,但它却是构成词组型术语的重要元素。由于单词型术语具有语法边界清晰的特点,引入模糊C-均值聚类算法,将术语识别工作转化为两类聚类任务,从而实现无监督自...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:周浪;史树敏
45.基于知网的中文结构排歧工具——VXY
董强;郝长伶
本文介绍了基于知网的中文结构排歧工具系列中的一种—VXY。VXY采取了一种独到的排歧技术,它对于语言难点采取"定点清除"的策略。它是用来解决那种被习惯地称之为"V+N+的+N"的类型的结构性歧义的。VXY是一个自足的、可以现场考核检验的并可以真正付诸实用的系统,而不是仅仅某种方法论的表演或...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:董强;郝长伶
46.汉语框架语义角色的自动标注研究进展
李济洪;王瑞波
在给定句子中目标词及其所属框架的前提下,本文以词为标注单位,将语义角色标注形式化为词序列标注问题,分别使用条件随机场和最大熵模型,基于山西大学的CFN语料库,研究汉语框架语义角色的自动标注。本文选取词、词性、位置以及它们的组合特征和窗口特征为候选特征集合,并使用正交表来优选模型...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:李济洪;王瑞波
47.基于依存关系的中文谓词标注研究
袁晓虹;王步康
谓词标注是语义角色标注中的重要一步,它的性能直接影响到语义角色标注的性能。本文实现了一个基于依存关系的中文谓词分析平台,使用最大熵分类器在CoNLL'2008和CoNLL'2009评测数据上进行了系统实验,对各种词法、语法和语义特征及其组合进行了测试,以得到系统最好性能。同时,与基于依存关系的...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:袁晓虹;王步康
48.基于柱状搜索的高阶依存句法分析
李正华;车万翔
本文提出使用所有的孙子节点构成祖孙特征的高阶依存模型,并且使用柱状搜索策略限制搜索空间,最终找到近似最优依存树。另外,我们以较小的时间复杂度为代价,使用了丰富的依存关系特征,并且允许模型在解码的过程中进行依存关系选择。我们参加了CoNLL2009年多语依存句法分析和语义角色标注国际评...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:李正华;车万翔
49.归一化的邻接类别方法在基于条件随机场的中文分词中的应...
何赛克;王小捷
在自然语言处理中,中文分词系统的性能在很大程度上受制于其对未登录词(unknown words)的处理能力。本文提出了一种无监督和有监督相结合的中文分词方法。即:将邻接类别方法引入基于条件随机场的中文分词系统中。并针对邻接类别方法(Accessor Variety,AV)在处理较少的训练数据(training data)...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:何赛克;王小捷
50.基于多词块的框架元素语义核心词自动识别研究
李双红;李茹
抽取一个句子的核心依存图是对句子进行语义理解的有效途径。本文基于汉语框架网给出了表示汉语句子语义骨架的框架核心依存图模型。为了把框架依存图转换成框架核心依存图需要提取每个框架元素的语义核心词。本文提出了基于多词块标注的框架元素语义核心词识别和提取方法,通过对比分析,给出了...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:李双红;李茹
51.中文机构名简称的自动生成研究
计峰;高沫
本文提出了一个自动生成中文机构名简称的方法。我们的方法是将简称生成问题转化为等价的序列标注问题,并利用一阶条件随机场建立自动生成模型。不同于前人的工作,我们的方法没有使用分词信息。在高校及公司企业简称数据的实验中,F1值分别取得了86.18%和75.89%。   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:计峰;高沫
52.朝鲜语句子语义角色标注研究
毕玉德;陈洁
语义角色标注是目前自然语言处理的一项研究热点。本文采用理性主义和经验主义相结合,以实用主义为原则,从语义信息处理角度,提出了一种朝鲜语语义角色标注的研究思路,即以朝鲜语动词句法语义层次框架为理论基础,辅之以基于特征向量的方法,并结合指称类概念分类标注库,以标注语料库为试验对象...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:毕玉德;陈洁
53.中文共指消解中的聚类全局优化
刘未鹏;周俊生
共指消解的主流框架分为二元分类和等价类划分两个步骤,围绕第二个步骤进行的全局优化是主要的研究方向之一。本文结合共指消解问题本身的特点提出了一种基于最小化决策错误的损失函数,并利用一种自底向上的聚类模型对其进行优化,此外提出另外两种贪婪聚类模型,在ACE中文语料上的实验显示三种...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:刘未鹏;周俊生
54.基于网络的英文缩略语全称挖掘
杨华;孙常龙
本文提出了一种新颖的缩略语全称挖掘方法,分别利用Google和Wikipedia挖掘英文缩略语全称,然后比较两者的正确率和召回率。具体而言,首先利用基于Google的方法挖掘英文缩略语的全称,然后与利用基于Wikipedia的方法得到的全称从正确率和召回率方面做比较。实验结果显示我们的方法比基于网络搜索...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:杨华;孙常龙
55.复杂名词短语中的语义角色自动标注研究
李丽
汉语句子中包含谓词的名词短语表述的事件关系能够为理解整个句子的意义提供更细致的信息。针对汉语中该类表述事件关系的名词短语,本文提出了一个利用汉语句法结构与语义结构对应关系知识进行语义角色自动标注的方法。本文研究中分析了真实语料中该类名词短语句法语义对应关系的特点,总结了一...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:李丽
56.基于Web弱指导的本体概念实例及属性的同步提取
康为;穗志方
本文提出了一种基于Web弱指导的本体概念实例和属性的同步提取方法,利用小规模的种子实例和属性集,本文从Web上自动获取实例和属性共现的上下文模式,并利用种子实例和属性的关联性来评价这些模式。进一步,根据上下文模式提取候选概念实例和属性后,本文提出两种方法来评价提取的候选实例和属性...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:康为;穗志方
57.统计与规则相结合的指代消解在事件自动文摘中的应用
刘茂福;金可佳
本文利用基于规则和统计相结合的方法对自动文摘源语料中的代词进行消解。首先使用单纯的规则方法进行消解,通过对召回率和准确率以及消解后的语料进行分析,发现其不足在于不能很好的确定哪些代词指代命名实体。针对这一问题本文将统计中的最大熵方法和规则方法相结合,准确确定哪些代词需要消...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:刘茂福;金可佳
58.汉语文本蕴涵库的设想与实现
罗琳;刘金凤
本文从自然语言处理的角度出发,提出在真实文本中构建符合汉语特点的文本蕴涵库,在实践中探索蕴涵产生的类型并尝试标注的难度,总结经验,以期为计算机的语义识别等相关研究提供一定的资源储备。   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:罗琳;刘金凤
59.一种基于共享后缀术语集改进中文核心领域本体构建的方法
谌贻荣;陆勤
核心本体对最基本的领域知识建模并在上位本体和领域本体之间建立联系。上位本体是领域无关的而核心本体是领域相关的,因此在自动创建中文核心本体过程中,映射中文核心术语到上位本体概念有很多的错误。本文以一个基于术语词集抽取共享后缀的方法,找到被共享的术语条数更多、与各术语的意义更...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:谌贻荣;陆勤
60.基于领域类别信息C-value的多词串自动抽取
李超;王会珍
文本的多词串抽取是自然语言处理领域一项重要的研究内容,其中C-value是目前广泛应用的多词串抽取方法。然而C-value方法不能有效利用领域类别信息,即使文本的领域类别已知或者容易获得。针对这种情况,本文提出了一种多类别C-value(Multi-Class C-value)方法,利用多词串在不同领域的分布信息改...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:李超;王会珍
61.SSD模型及其在词性标注中的应用
邢富坤;宋柔
本文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95.67%,较2阶HMM的95.56%和94.70%都有较为显著提高。SSD模型的正确率虽然不及最大熵模型和CRF模型,但它的训练时间...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:邢富坤;宋柔
62.Home-Made Demonstration Software for Teaching Compu...
Zhang;Xiaoheng Depa...
<正>Commercial software packages for natural language processing are normally large,complicated, expensive,and black box-like to users.Hence it seems worthwhile to create our own demonstration software for university teaching and learning.Such home-made software develo...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:Zhang;Xiaoheng Depa...
第8章 文字信息处理-汉字处理系统
1.基于依存语法的汉语并列结构自动分析研究
赵怿怡;高松
并列是一种普遍存在的语言现象,也是一种极难处理的语言结构。本文在国内外众多语言学理论研究并列结构的基础上,理出了依存语法理论处理并列结构的三种方案,并对含并列结构句(共计1000句33049词次)进行了依存句法标注。通过依存句法分析器的自动学习,证明不同的分析方法对句法分析器精度的影...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:赵怿怡;高松
2.几个汉语典型语言现象的范畴语法分析
姚旭晨;马建强
范畴语法(Categorial Grammar)的词汇化的本质和其语法、语义紧密相连的特点使之成为计算语言学的重要基础之一。本文尝试用范畴语法的理论分析了一些典型汉语语言现象,如"把"字句、"被"字句、动态助词"了"、结构助词"的""地""得"和形容词动词化。作者提出,在分析汉语典型语法现象的范畴语法时...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:姚旭晨;马建强
3.汉语特殊结构的句法标注策略
高松;赵怿怡
句法树库建设是当今国内外计算语言学研究的热点之一。本文探讨了在依存树库中,分析和处理汉语特殊结构的一些问题,如:"X是"和"X说"结构、离合词+趋向补语结构、特殊的重叠结构。通过对比短语结构树库和依存树库对这些结构的处理方法,给出它们在我们的依存树库中的处理规则,做出具有可操作性的...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:高松;赵怿怡
4.一种基于树核的汉语句法分析多重结果重排序技术
郑晓东;陈亮
本文将基于概率上下文无关文法的汉语句法分析分为K-best基础模型和重排序两个阶段,主要研究为对多重结果的重排序技术。本文所介绍的重排序技术有两个特色:一是实现排序问题到分类问题的转化并通过改进的投票感知机算法实现重排序;二是引入树核方法到汉语句法分析中,并对树核做了区别对待产生...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:郑晓东;陈亮
5.现代汉语句系系统的构建和研究
亢世勇;许小星
基于标注语料库,我们建立了现代汉语句子的句型系统、句模系统和句干系统,并将这三个系统有机地结合在一起,用句型统领句模和句干,构拟出现代汉语的句系系统。并通过将复杂的句型、句模结构解析为较小的简单的结构的组合,研究复杂句模的组合机制和规律。   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:亢世勇;许小星
6.汉语块分析评测任务设计
周强;李玉梅
本文介绍了目前正在筹备的中文信息学会句法分析评测CIPS-ParsEval-2009中的三项块分析评测任务:基本块分析、功能块分析和事件描述小句识别的设计理念、判定标准和相关资源构建方法,并通过相关统计数据分析和国内外相关研究评述,总结了这三项评测任务的主要特色。   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:周强;李玉梅
第9章 文字信息处理-文字录入技术
1.汉语同音词调查及拼音输入法基线模型研究
丁大斌;黄昌宁
本文在一个大规模分词语料库的基础上,对现代汉语的同音词现象进行了调查,分析了汉语同音词的特点。调查结果有助于深入了解现代汉语的同音词问题,进而为以词为输入目标的汉语拼音输入法提供了一种基于"高频先见"的基线模型。文中给出了这种输入法模型的TOP1和TOP5正确率测试结果,并指出未登录...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:丁大斌;黄昌宁
第10章 其它计算机技术
1.基于用户浏览图的网页质量评估方法的比较分析
薛宇飞;刘奕群
面对海量繁杂的网络数据环境,网页质量评估成为互联网搜索引擎面临的主要技术挑战之一,当前针对互联网网页评估的主要研究思路是基于网络超链接结构的分析完成。然而,Web2.0、搜索引擎结果优化(SEO),网络作弊等现象的出现严重影响了互联网超链接分析的可靠性。为此,基于用户互联网访问日志构建...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:薛宇飞;刘奕群
2.利用网络挖掘技术建立英语学习平台
周明;刘晓华
本特邀报告将介绍我们最新的一个英语学习的垂直搜索平台英库(英文名Engkoo)(http://www.engkoo. com)。我们开发了一套完整的网络挖掘技术,从数以百亿计的网页中获取大规模、多样化、新鲜的语言知识和翻译知识。然后在此基础上,构建了一个专门用来进行英语学习的网络服务,在一个垂直搜索平台...   详情>>
来源:《中国计算机语言学研究前沿进...》 2009年第期 作者:周明;刘晓华
价格:¥22.40

书评

0/400
提交
以下书评由主编筛选后显示
最新 最热 共0条书评

分享本书到朋友圈