王乐义的博客

生命不息,奋斗不止!


  • 首页

  • 分类

  • 归档

  • 标签

Hello World

发表于 2016-11-08   |  

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

1
$ hexo new "My New Post"

More info: Writing

Run server

1
$ hexo server

More info: Server

Generate static files

1
$ hexo generate

More info: Generating

Deploy to remote sites

1
$ hexo deploy

More info: Deployment

如何检索自然语言处理领域相关论文

发表于 2016-08-18   |   分类于 自然语言处理   |  

要快速地熟悉一个领域,更加深刻地了解这该领域的发展,就必须查阅这个领域的相关论文。本文主要讲述自然语言处理领域(NLP)相关论文的检索。

与其他领域一样,自然语言处理领域每年都有大量的论文发表在各种期刊、会议上,然而人的时间和精力是有限的,如何能在有限的时间内,检索出该领域的高影响力、高质量的论文,是我们所关注的。对于这个问题,首先我们应当了解一下自然语言知名的学术组织、学术会议及学术论文,其次是在了解上述信息基础上的论文检索手段。

下面,本文将从国内外自然语言处理领域知名的学术组织、学术会议及学术论文及相关论文检索和筛选的经验两方面内容,介绍一些关于自然语言处理领域的知识和论文检索的经验。

本文第一部分引用清华大学刘知远老师新浪博客上的一篇博文,针对国内外自然语言处理领域知名的学术组织、学术会议及学术论文的介绍。第二部分将分享一些前一段时间,我在论文调研过程中关于论文查找和筛选的一些经验,希望对大家有所帮助。

另,附上本人实现的一款论文调研工具。
该工具基于Python的爬虫技术,实现根据论文发表年份、关键字、发表会议等信息,自动批量抓取主题相关的论文标题,并从Google Scholar获取引用次数、下载链接、论文作者、论文摘要信息并按指定的格式保存在EXCEL文档中。

下载地址:Research_Spider

初学者如何查阅自然语言处理(NLP)领域学术资料(作者:刘知远)

昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,受个人认知所限,难免挂一漏万,还望大家海涵指正。

国际学术组织、学术会议与学术论文

自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(computational linguistics,CL)重合。与其他计算机学科类似,NLP/CL有一个属于自己的最权威的国际专业学会,叫做The Association for Computational Linguistics(ACL,URL:http://aclweb.org/),这个协会主办了NLP/CL领域最权威的国际会议,即ACL年会,ACL学会还会在北美和欧洲召开分年会,分别称为NAACL和EACL。除此之外,ACL学会下设多个特殊兴趣小组(special interest groups,SIGs),聚集了NLP/CL不同子领域的学者,性质类似一个大学校园的兴趣社团。其中比较有名的诸如SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等。这些SIGs也会召开一些国际学术会议,其中比较有名的就是SIGDAT组织的 EMNLP (Conference on Empirical Methods on Natural Language Processing)和SIGNLL组织的CoNLL(Conference on Natural Language Learning)。此外还有一个International Committee on Computational Linguistics的老牌NLP/CL学术组织,它每两年组织一个称为International Conference on Computational Linguistics (COLING)的国际会议,也是NLP/CL的重要学术会议。NLP/CL的主要学术论文就分布在这些会议上。

作为NLP/CL领域的学者最大的幸福在于,ACL学会网站建立了称作ACL Anthology的页面(URL:http://aclanthology.info/),支持该领域绝大部分国际学术会议论文的免费下载,甚至包含了其他组织主办的学术会议,例如COLING、IJCNLP等,并支持基于Google的全文检索功能,可谓一站在手,NLP论文我有。由于这个论文集合非常庞大,并且可以开放获取,很多学者也基于它开展研究,提供了更丰富的检索支持,具体入口可以参考ACL Anthology页面上方搜索框右侧的不同检索按钮。

与大部分计算机学科类似,由于技术发展迅速,NLP/CL领域更重视发表学术会议论文,原因是发表周期短,并可以通过会议进行交流。当然NLP/CL也有自己的旗舰学术期刊,发表过很多经典学术论文,那就是Computational Linguistics(URL:http://www.mitpressjournals.org/loi/coli)。该期刊每期只有几篇文章,平均质量高于会议论文,时间允许的话值得及时追踪。此外,ACL学会为了提高学术影响力,也刚刚创办了Transactions of ACL(TACL,URL:http://www.transacl.org/),值得关注。值得一提的是这两份期刊也都是开放获取的。此外也有一些与NLP/CL有关的期刊,如ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等等。

根据Google Scholar Metrics 2013年对NLP/CL学术期刊和会议的评价,ACL、EMNLP、NAACL、COLING、LREC、Computational Linguistics位于前5位,基本反映了本领域学者的关注程度。

NLP/CL作为交叉学科,其相关领域也值得关注。主要包括以下几个方面:(1)信息检索和数据挖掘领域。相关学术会议主要由美国计算机学会(ACM)主办,包括SIGIR、WWW、WSDM等;(2)人工智能领域。相关学术会议主要包括AAAI和IJCAI等,相关学术期刊主要包括Artificial Intelligence和Journal of AI Research;(3)机器学习领域,相关学术会议主要包括ICML,NIPS,AISTATS,UAI等,相关学术期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。例如最近兴起的knowledge graph研究论文,就有相当一部分发表在人工智能和信息检索领域的会议和期刊上。实际上国内计算机学会(CCF)制定了“中国计算机学会推荐国际学术会议和期刊目录”(http://www.ccf.org.cn/sites/ccf/aboutpm.jsp?contentId=2567814757463),通过这个列表,可以迅速了解每个领域的主要期刊与学术会议。

最后,值得一提的是,美国Hal Daumé III维护了一个natural language processing的博客(http://nlpers.blogspot.com/),经常评论最新学术动态,值得关注。我经常看他关于ACL、NAACL等学术会议的参会感想和对论文的点评,很有启发。另外,ACL学会维护了一个Wiki页面(http://aclweb.org/aclwiki/),包含了大量NLP/CL的相关信息,如著名研究机构、历届会议录用率,等等,都是居家必备之良品,值得深挖。

国内学术组织、学术会议与学术论文

与国际上相似,国内也有一个与NLP/CL相关的学会,叫做中国中文信息学会(URL:http://www.cipsc.org.cn/)。通过学会的理事名单(http://www.cipsc.org.cn/lingdao.php)基本可以了解国内从事NLP/CL的主要单位和学者。学会每年组织很多学术会议,例如全国计算语言学学术会议(CCL)、全国青年计算语言学研讨会(YCCL)、全国信息检索学术会议(CCIR)、全国机器翻译研讨会(CWMT),等等,是国内NLP/CL学者进行学术交流的重要平台。尤其值得一提的是,全国青年计算语言学研讨会是专门面向国内NLP/CL研究生的学术会议,从组织到审稿都由该领域研究生担任,非常有特色,也是NLP/CL同学们学术交流、快速成长的好去处。值得一提的是,2010年在北京召开的COLING以及2015年即将在北京召开的ACL,学会都是主要承办者,这也一定程度上反映了学会在国内NLP/CL领域的重要地位。此外,计算机学会中文信息技术专委会组织的自然语言处理与中文计算会议(NLP&CC)也是最近崛起的重要学术会议。中文信息学会主编了一份历史悠久的《中文信息学报》,是国内该领域的重要学术期刊,发表过很多篇重量级论文。此外,国内著名的《计算机学报》、《软件学报》等期刊上也经常有NLP/CL论文发表,值得关注。

过去几年,在水木社区BBS上开设的AI、NLP版面曾经是国内NLP/CL领域在线交流讨论的重要平台。这几年随着社会媒体的发展,越来越多学者转战新浪微博,有浓厚的交流氛围。如何找到这些学者呢,一个简单的方法就是在新浪微博搜索的“找人”功能中检索“自然语言处理”、 “计算语言学”、“信息检索”、“机器学习”等字样,马上就能跟过去只在论文中看到名字的老师同学们近距离交流了。还有一种办法,清华大学梁斌开发的“微博寻人”系统(http://xunren.thuir.org/)可以检索每个领域的有影响力人士,因此也可以用来寻找NLP/CL领域的重要学者。值得一提的是,很多在国外任教的老师和求学的同学也活跃在新浪微博上,例如王威廉(http://weibo.com/u/1657470871)、李沐(http://weibo.com/mli65)等,经常爆料业内新闻,值得关注。还有,国内NLP/CL的著名博客是52nlp(http://www.52nlp.cn/),影响力比较大。总之,学术研究既需要苦练内功,也需要与人交流。所谓言者无意、听者有心,也许其他人的一句话就能点醒你苦思良久的问题。无疑,博客微博等提供了很好的交流平台,当然也注意不要沉迷哦。

如何快速了解某个领域研究进展

最后简单说一下快速了解某领域研究进展的经验。你会发现,搜索引擎是查阅文献的重要工具,尤其是谷歌提供的Google Scholar,由于其庞大的索引量,将是我们披荆斩棘的利器。

当需要了解某个领域,如果能找到一篇该领域的最新研究综述,就省劲多了。最方便的方法还是在Google Scholar中搜索“领域名称 + survey / review / tutorial / 综述”来查找。也有一些出版社专门出版各领域的综述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它们发表了很多热门方向的综述,如文档摘要、情感分析和意见挖掘、学习排序、语言模型等。

如果方向太新还没有相关综述,一般还可以查找该方向发表的最新论文,阅读它们的“相关工作”章节,顺着列出的参考文献,就基本能够了解相关研究脉络了。当然,还有很多其他办法,例如去videolectures.net上看著名学者在各大学术会议或暑期学校上做的tutorial报告,去直接咨询这个领域的研究者,等等。

一些补充

前一段时间,因课题组需要,应我的导师夏睿老师的要求,我对近四年情感分析、观点挖掘领域相关的论文做了一次调研。夏睿老师也向我推荐了上述刘知远老师的博文。在论文调研过程中也发现了一些不错的文献检索网站,下面,我将一一罗列推荐。

如何从海量的论文资源中,检索自己所需的高质量的论文。

我认为论文检索要明确两个问题。第一,找什么样的论文,第二,在哪里找。首先要明确要找什么样的论文,即所要检索的论文的主题。其次论文所属领域的知名会议、期刊,及相关论文检索的网站。下面讲一下在哪里找的问题。

国内外自然语言处理领域的会议、期刊及论文检索的网站

​ 表2.1 国外自然语言处理相关论文收录的期刊、会议表

序号 名称
1 ACL
2 EACL
3 NAACL
4 EMNLP
5 COLING
6 LREC
7 Computional Linguistics
8 IJCAI
9 AAAI
10 SIGIR, WWW, KDD, ICML, NIPS, CIKM等相关领域顶级会议

​ 表2 .2 国内自然语言处理相关论文收录的期刊、会议表

序号 名称
1 中文信息学报
2 CCL
3 NLPCC
4 中国科学、计算机学报、软件学报、自动化学报等国内顶级学报

我们可以直接在各期刊会议的网站或会议所在年份的网站检索、下载相关论文,此外,也推荐通过一些优秀的论文集网站获取我们所需要的论文。在此,推荐几个不错的论文检索的网站。

DBLP

DBLP,即Digital Bibliography & Library Project的缩写,是计算机领域内对研究成果以作者为核心的一个强大的计算机类英文文献的集成数据库系统。该系统提供根据作者、期刊、会议等进行论文的检索功能,用户也可以根据年份查看会议、期刊当年收录的论文,多数的论文都提供了下载链接及Google,Google Scholar,MS Academic Search等网站的搜索链接。截止2009年7月已收录超过1,200,000篇文献。
下面,将通过一个具体实例详细展示一下论文检索过程,以检索夏睿老师在ACL 2015会议上的论文为例:

首先,打开DBLP网站的主页。如图2.1所示,我们可以根据作者、期刊、会议等浏览论文。1

​ 图2.1 DBLP主页图

ACL 2015上的论文是会议论文,因而这里我们选择”browse conferences”。
2

​ 图2.2 会议检索图

单击”browse conferences”进入会议列表页面,如图2.3所示。网站为计算机相关会议建立了索引,会议按名称升序排列。
3

​ 图2.3 会议列表页面图

从会议列表中查找到ACL会议。
4

​ 图2.4 ACL会议定位图

点击ACL会议跳转到ACL会议论文集页面,该页面按年份汇总了历届ACL会议的论文。用户可以根据自己的需要选择长论文、短论文等。这里点击long paper的”content”,即可链接到ACL 2015长论文页面。
5

​ 图2.5 ACL会议列表

如图2.6所示,该页面呈现了ACL 2015所有的long paper列表。在每篇论文前均有三个选项卡,其中选项卡提供了论文下载的地址,点击即可下载;选项卡二提供以XML等数据组织形式记录的论文的名称、下载链接等信息的链接,点击选择相应的数据组织形式即可下载;选项卡三提供了该论文的谷歌搜索链接、谷歌学术搜索链接等,点击链接可自动跳转到相应的网页。
6

​ 图2.6 ACL 2015论文列表

通过ctrl+F键,输入关键字,即可通过浏览器的查找功能检索到指定的论文,这里我们输入”rui xia”,并检索到了夏睿老师于ACL 2015的long paper,如图2.7所示。
7

​ 图2.7 ACL指定论文定位图

选择该论文前第一个选项卡,并点击下载链接。
8

​ 图2.8 论文下载链接图

在点击下载链接后,即可下载。
9

​ 图2.9 DBLP论文下载图

用户也可以通过点击选项卡三中的Google链接,跳转相应的Google检索页面。10

​ 图2.10 论文谷歌检索页

用户也可以通过点击选项卡三中的Google Scholar链接,跳转相应的Google Scholar检索页面,查看论文检索次数等信息(因这篇论文)。11

​ 图2.11 论文谷歌学术站检索页

(URL:http://dblp.uni-trier.de/db/)

ACL Anthology

ACL Anthology收录了自然语言处理领域绝大部分国际学术会议论文的免费下载,第一部分刘知远老师的论文已详细介绍,此处不再赘述。

如图2.12所示,网站首页罗列了自然语言处理领域一些知名的期刊、会议,并按年份汇总了各期刊会议的论文。点击进入指定期刊某年份的论文,可以查看当年发表于该期刊或会议的文献的列表,同时网站提供下载链接可供用户下载。ACL Anthology homepage

​ 图2.12 ACL Anthology网站首页

下面,通过一个具体实例详细展示一下论文检索过程,依然以检索夏睿老师在ACL 2015会议上的论文为例。点击ACL 2015论文的链接,进入ACL 2015论文列表页。acl anthology1

​ 图2.13 ACL 2015论文集链接

在该页,按长论文、短论文等将ACL 2015的文献归于不同卷,用户可以浏览该年度各卷的文献列表。acl anthology2

​ 图2.14 ACL 2015会议论文列表页

通过Ctrl+F快捷键,利用浏览器的查找功能,输入关键字快速定位到指定论文。acl anthology3

​ 图2.15 待检索文献定位图

论文名称所在行的第一个链接即使该论文的下载链接。acl anthology4

​ 图2.16 ACL Anthology论文链接

点击目标论文前的下载链接即可下载指定论文。acl anthology5

​ 图2.17 ACL Anthology文献下载图

(URL:http://aclweb.org/anthology-new/)

使用Google Scholar检索论文

Google Scholar 是一个可用来检索学术文献的强大的网络搜索引擎,能够帮助用户查找包括期刊论文、学位论文、书籍、预印本、文摘和技术报告在内的学术文献及文献被引用的次数,内容涵盖自然科学、人文科学、社会科学等多种学科。

下面简单介绍一下Google Scholar的使用。

Google Scholar文献检索

以ACL 2012的论文“Baselines and Bigrams: Simple, Good Sentiment and Topic Classification”为例。打开Google Scholar主页,输入论文名,点击搜索按钮。
2

​ 图2.17 Google Scholar主页

在论文检索结果页面提供了该论文被引用次数信息,对于我们后期论文筛选工作有一定的参考意义。

1

​ 图2.18 Google Scholar文献检索

Google Scholar文献高级检索

点击页面上的下三角按钮,在展开的菜单中选中高级搜索。

3

​ 图2.19 Google Scholar高级文献检索

在弹出的高级搜索框中设置检索的条件,如文献包含的关键词、关键词语出现的位置、作者姓名、刊物名称、文献年份等信息,设置完成后点击高级搜索框中搜索按钮,即可检索出符合条件的文献。

4

​ 图2.20 Google Scholar高级文献检索设置

中文综述检索

综述是指就某一时间内,作者针对某一专题,对大量原始研究论文中的数据、资料和主要观点进行归纳整理、分析提炼而写成的论文。一篇好的综述类文献可以让一个初学者对其要了解的领域有一个清晰的认识,如该领域涉及的学科、研究人员应当具备的基础知识、主要的研究任务和研究方法、前人的研究成果、该领域最前沿的技术、当前领域内待解决的难题以及未来的科研方向等等。这些信息对于我们今后的工作和研究也具有非常重要的指导意义。

那么,我们应当怎样检索一个领域的高质量的中文文献综述呢?

从综述的定义上可以看出综述具有一定的时效性和先进性,因其代表了某一时间段,领域内最前沿的研究。这要求我们检索的综述发表时间不能太早,因早期的文献综述往往不能代表领域内当前的研究现状。

在我们熟知的中文论文、期刊库,如知网、万方数据库、Google Scholar等,收录了各领域丰富的中文文献,其中不乏各领域优秀的文献综述类文章,下面分别以知网和Google Scholar为例,演示一下情感分析领域综述类文献的检索。

中国知网文献综述检索示例

首先打开知网主页,在搜索栏中输入关键词“情感分析”、“综述”,不同关键词间用“&”连接。1

​ 图2.21 知网主页

如图2.22所示,情感分析领域综述,检索结果如下。我们可以根据年份下载量、引用量、主题相关性对检索结果进行筛选。
2

​ 图2.22 知网全文检索结果图

也可以使用知网提供高级检索功能进行检索,下面我们指定主题为“情感分析”,并包含“综述”,论文发表的时间为2010年1月1日至2016年1月1日,检索近六年情感分析领域的综述。检索结果默认以主题相关降序排序。在主题相关的前提下,结合论文发表的时间、引用量、下载量对检索结果进一步筛选,即可找到近年来的领域内优秀的综述类文献。

3

​ 图2.23 知网高级检索结果图

Google Scholar文献综述检索示例

首先打开Google Scholar官网,在搜索框中输入关键词“情感分析文献综述”,检索结果默认按相关性排序呈现,同时提供论文被引用次数、发表时间等信息。我们可以根据这些信息对检索结果做进一步的筛选。

如图2.24所示,检索结果排在第四位的是赵妍妍老师的《文本情感分析》,该论文发表于2010年,距今5年,引用次数达到了145次,是检索结果中引用次数最高的。直观上判断该论文可能是一篇经典的综述文章,事实上也确实如此。如果想了解情感分析领域更新的科研动态,也可以从检索结果中进一步筛选更近几年的综述文献。1

​ 图2.24 Google Scholar情感分析综述检索结果图

同样,我们也可以使用Google Scholar的高级检索功能,指定论文发表的期刊、时间等信息。这里,我们使用高级检索功能检索情感分析近5年的综述文献。2

​ 图2.25 Google Scholar情感分析综述高级检索

论文检索结果如下,通过进一步对检索结果的观察和筛选,即可得到符合要求综述性文献。1

​ 图2.26 Google Scholar情感分析综述高级检索结果

论文的筛选

在检索出相关论文后,如何对检索结果进行筛选。

1) 权威的期刊、会议上发表的论文质量一般较高。

2) 论文的引用量在一定程度上能够反映论文的质量。

可以通过Google Scholar查看目标论文的引用量,当然论文的引用量也和论文发表的年份相关,因而参考论文的引用量需结合论文发表年份。

3) 阅读论文摘要。论文摘要,是对论文内容的概述,通过阅读论文摘要可以在一定程度上把握文献主旨,从而筛选出部分相关文章。

参考文献

  1. 刘知远. 初学者如何查阅自然语言处理(NLP)领域学术资料
  2. 维基百科-DBLP

统计学习笔记(五)

发表于 2016-08-18   |   分类于 机器学习   |  

第五章

1 相关概念

熵:是随机变量不确定性的度量

条件熵:表示已知随机变量$X$的条件下,随机变量$Y$的不确定性。随机变量$X$给定的条件下随机变量$Y$的条件熵$H(Y|X)$,定义$X$给定条件下$Y$的条件概率分布的熵对$X$的数学期望为
$$
H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i) \mbox{ 其中}p_i=P(X=x_i),i=1,2,3,…,n
$$

互信息:熵与条件熵之差

信息增益:经验熵与经验条件熵之差,表示得知特征后类的信息不确定性减少的程度

特征$A$对训练集$D$的信息增益$g(D,A)$,定义为集合$D$的经验熵$H(D)$与特征$A$给定条件下$D$的经验条件上之差,即
$$
g(D,A)=H(D)-H(D|A)
$$

信息增益比:特征$A​$对训练集$D​$的信息增益比$g_R(D,A)​$定义为其信息增益$g(D,A)​$与训练集$D​$关于特征$A​$的值的熵$H_A(D)​$之比,即
$$
g_R(D,A)=\frac{g(D,A)}{H_A(D)}
$$
其中$H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\log_2{\frac{|D_i|}{|D|}}$,$n$为特征$A$的取值个数

test

发表于 2016-08-18   |   分类于 edit   |  

Welcome to MarkdownPad 2

MarkdownPad is a full-featured Markdown editor for Windows.

Built exclusively for Markdown

Enjoy first-class Markdown support with easy access to Markdown syntax and convenient keyboard shortcuts.

Give them a try:

  • Bold (Ctrl+B) and Italic (Ctrl+I)
  • Quotes (Ctrl+Q)
  • Code blocks (Ctrl+K)
  • Headings 1, 2, 3 (Ctrl+1, Ctrl+2, Ctrl+3)
  • Lists (Ctrl+U and Ctrl+Shift+O)

See your changes instantly with LivePreview

Don’t guess if your hyperlink syntax is correct; LivePreview will show you exactly what your document looks like every time you press a key.

阅读全文 »
Louie_Wang

Louie_Wang

4 日志
3 分类
7 标签
github weibo zhihu
© 2017 Louie_Wang
由 Hexo 强力驱动
主题 - NexT.Pisces