您当前所在位置:首页 > 论文 > 农学论文 > 水产论文

水产科学研究的数据采集

编辑:

2014-05-09

2.2字段清洗原始数据存在分隔符不统一、数据格式不一致、一词多形等问题,如对其直接进行计量分析,将产生巨大的统计误差。因此,将中国水产科学院中文期刊论文总集,导入ACCESS数据,对作者、关键词、机构、引文量、年份等字段进行规范化处理。根据存在问题的类型和规律制定数据处理规则,然后编写基于ACCESS的VBA程序进行批量处理。因为很难一次完整地识别所有规则(比如:存在多种分隔符),因此通常采用循环处理机制,即查找规则→编写代码→执行清洗→检查清洗结果→修改代码→执行清洗,必要时该工作需重复多次,直至数据格式完全统一。引文数量和年份等数值型字段主要进行数据类型的统一,原始数据有文本型、数值型、日期型等存储格式,将其统一转为数值型格式。关键词字段和作者字段主要进行分隔符的统一,原始数据的分隔符有全角分号、半角分号、双分号、叹号、空格等。作者字段包含的分隔符有全角半角形式的叹号、分号、双分号、逗号、[1]、[2]、[1,3]、[1,2,3]、[2,3,4]、空格等,将各种分隔符统一用半角分号替换。此外,作者的姓和名中间有时存在空格,与不同作者的间隔符相混淆,需要首先处理。作者字段的空格处理方式具体为:根据空格所在位置及前后字符是否为汉字进行判断,如果属于英文作者名内的空格应保留,如果是双汉字姓与名间的空格则删除,其它情况则替换为半角分号。机构字段存储的是参与合作单位的机构地址,清洗后获得参与合作单位的机构名称。由于作者自身著录不规范或其它原因,造成了机构名称的多样性,给统计工作带来困难。分析发现,机构名称的多样化主要有四个原因:一是仅著录了子机构名称而忽略其母机构;二是仅著录重点实验室名称未著录机构名称,特别是在国家级和省级重点实验室发表的论文中比较常见;三是仅著录机构简称;四是著录不规范的全称。因此,需建立包括处理分隔符、去除地址数据、机构名称规范化三步的清洗机制,如图2。(1)规范机构间的分隔符为半角分号。(2)去除地址数据。最普遍的一种格式为“机构名称,地名邮编”,如“大连水产学院,大连116023”。当分隔符后面的字符串末端为六位及以上数字时,直接去除该字符串。(3)对上述过程未处理到的一些错误数据进行人工清洗。比如部分字段中混入职称、个别地名与邮编间存在分隔符导致无法识别。(4)机构名称规范化。首先建立机构名称词表,包含一级机构名称、二级机构名称及相应的不规范写法的映射,如表2。一级机构和二级机构均规范为相应的规范化名称。对机构名称字段进行规范化程序处理。建立一个二维数组,将机构名称词表中的所有机构存放在第一维中,并将对应的规范化名称存放在第二维中。利用分词法从机构字段切分机构名称,与数组中的第一维数据比对,如果存在包含关系,则用第二维中的规范化的名称替代。如:机构名称包含“农业部淡水鱼类种质资源与生物技术重点开放实验室”则将其替换为“长江水产研究所”。(5)机构去重。同一机构多人参与该论文的,机构名称被多次著录,此时仅保留一个。建立一个空数组,将机构字段的机构名称和数组中已存入的机构名称逐一对比,如果该名称已存则继续处理下一个名称,如果不存在则将该名称存入数组。

3结束语

长期以来,国内科研评价重评价结果轻数据准备相关方法和经验总结,使得大量评价忽视数据准备工作的重要性,同行在开展计量评价时也缺乏参考。笔者基于机构评价的文献计量实践,积累了大量数据采集与数据清洗的经验,力求踏实、严谨、准确的开展数据准备工作从而为中观层面的文献计量评价提供客观的数据。(1)对多种文献格式具有兼容性,当前的文献分析软件多仅针对一种或几种数据库文献格式[10,11],笔者所述方法能够处理从不同数据库下载文献题录甚至科研管理统计数据,处理的字段也具有较大的灵活性,可以根据特定研究需要有针对性的采集和分析相关字段。(2)在文献采集方面,综合文献检索数据和科研管理统计数据,其中检索两个国内综合性数据库,保证基础数据的全面准确。因为非本单位的科研管理统计数据难以获得,本方法更适用于开展本单位、本系统的科研评价,在多单位的同行比较中则受到限制。

相关推荐:

关于水产资源引种状况探讨

关于水产资源制度构建状况及评价

标签:水产论文

免责声明

精品学习网(51edu.com)在建设过程中引用了互联网上的一些信息资源并对有明确来源的信息注明了出处,版权归原作者及原网站所有,如果您对本站信息资源版权的归属问题存有异议,请您致信qinquan#51edu.com(将#换成@),我们会立即做出答复并及时解决。如果您认为本站有侵犯您权益的行为,请通知我们,我们一定根据实际情况及时处理。