您当前所在位置:首页 > 论文 > 农学论文 > 水产论文

水产科学研究的数据采集

编辑:sx_wangha

2014-05-09

1数据采集

文献检索方法最简便也应用最广,但由于机构名称不规范或检索策略不合理,容易带来漏检或误检。科研管理统计数据则多缺乏可供计量分析的字段。因此,将文献检索与科研管理统计两类数据作为基础数据可以最大程度地保证数据的全面性和客观性。由于各数据库收录期刊的范围存在差异,对单一数据库检索容易导致数据不全面。因此,选取中国知网“中国学术期刊的网络出版总库”和维普资讯“中文科技期刊数据库”同时作为数据来源库。检索策略为:机构=“中国水产科学研究院or黄海水产研究所or东海水产研究所or南海水产研究所or珠江水产研究所or长江水产研究所or黑龙江水产研究所or淡水渔业研究中心or渔业机械仪器研究所or渔业工程研究所”,人工识别分析机构名称的各种不规范写法后,进一步优化检索式,如:“黄海水产所”实际应为“黄海水产研究所”,因情况众多不再逐一列举。最后将检索结果分别导入EXCEL表。科研管理统计数据主要来自于各研究所历年统计上报的数据,导入EXCEL表。因此,基础数据包括三部分,分别为中国知网检索数据、维普资讯检索数据和科研管理统计数据,下文将详述基础数据的去重与合并。以黄海水产研究所2007年数据为例,基于文献检索和科研管理统计获得的数据量如表1,可见实际数据量大于每个单独统计来源的数据量。

2数据清洗

数据清洗的原理是根据回溯思想,通过分析“脏数据”产生的原因和存在形式,利用现有的技术手段和方法检测“脏数据”,制定数据清洗的方法、规则和策略并加以实施,将“脏数据”转化为“干净数据”。实践中,多将来自不同数据源的数据转换成统一的格式,补充遗漏记录,去除错误或重复记录,提高数据质量以满足分析的需求。实践表明,数据清洗约占文献计量工作量的80%~90%[4]。数据清洗方式以人工和计算机辅助人工为主,人工清洗结果精确得当但工作量大、效率低,目前通行的办法是计算机辅助人工处理[7]。近年来市场上已有数据清洗软件商品和专门的ETL工具[8,9],但这些软件多适用于特定数据库的文献格式、对中文文本的支持性较差且有些还需支付高额的使用费。笔者借鉴前人研究的基础,结合实际工作,提出一些自己的做法。

2.1数据去重将来源为“中国知网”和“维普资讯”的数据进行合并,首先去除二者共同收录的文献。由于不同数据库数据格式不统一,不能通过相同题名的字符完全匹配进行数据查重,如:同一篇论文,在不同数据库中收录时存在如下问题:标点符号(括号、引号、破折号等)全半角不统一且无规则;专有英文名称等大小写字母不统一;题目中混入空格等无意义字符;系列文章的序号将阿拉伯数字与大写数字混用;生僻字被拆分成两个字录入等。利用基于EXCEL的VBA编程,采用题名相似匹配与人工辅助相结合的方法对数据进行查重处理。处理流程如图1所示。(1)筛选各数据库中待分析的特征题录字段,形成格式统一的表。(2)对“题名”字段进行预处理,如:半角化、去空格、大写字母转小写等。(3)建立空表,命名为“VIP-CNKI”、“SUSPECT”。(4)将“中国知网”数据复制至“VIP-CNKI”,用维普资讯数据与“VIP-CNKI”逐条对比。(5)如果题名完全相同,则认为是重复记录不做处理,继续对比下一条。(6)如果题名不同,则当题名长度差异在20%以内且相同字符匹配率达60%,将这两条数据添加至疑似相同文献表“SUSPECT”,继续对比下一条;当题名差异在20%以上,或相同字符匹配率60%以下,则将该条维普数据添加至表”VIP-CN-KI”,继续对比下一条数据。(7)当所有对比完成之后,人工判断表“Suspect”里的文献是否为相同文献,并做标记,直至判断结束。批量导入标记为“不同”的维普文献至“VIP-CNKI”。经去重后合并的表“VIP-CNKI”即为基于文献检索的中国水科院中文期刊论文集。用该数据集与科研管理统计数据对比进行去重及合并,并补充科研管理统计数据中缺失的字段,即为水科院中文期刊论文总集,因方法和流程与上述类似,故不再赘述。

标签:水产论文

免责声明

精品学习网(51edu.com)在建设过程中引用了互联网上的一些信息资源并对有明确来源的信息注明了出处,版权归原作者及原网站所有,如果您对本站信息资源版权的归属问题存有异议,请您致信qinquan#51edu.com(将#换成@),我们会立即做出答复并及时解决。如果您认为本站有侵犯您权益的行为,请通知我们,我们一定根据实际情况及时处理。