您的当前位置:首页正文

基于评价研究的中文社会科学网站范围界定与特征分布

2022-09-01 来源:易榕旅网
维普资讯 http://www.cqvip.com

囤素.占.}考振 2006年第3期 ・学术方阵・ 基于评价研究的中文社会科学网站范围 界定与特征分布 胡序求正凯 (南开大学商学院信息资源管理系 天津300071) 摘要:文章在对中文社会科学网站范围进行界定的基础上,通过抽样检索和统计分析方法,对中文社会科学网站的学科内容分布、国家地 区分布、网站性质分布和简繁体分布作了分析,描述了中文社会科学网站当前发展的现状。 关键词:中文网站社会科学网站 中图分类号:G250.73 文献标识码:A 文章编号:1003-6938(2006)03—0040—05 The Scope Definition and Distribution in Evaluation Research of Chinese Social Science Websites Hu Xu Song Zhengkal (Department of Information Resource Management,Business School of Nankai University,Tianjin, 300071) Abstract: Starting with defining the scope of Chinese social websites,we use statistical methods to analyze the retireved data,get the Chinese social websites’distirbutions,such as discipline distirbution,area distirbution,type distribution and font distribution.On the base of the analysis,we describe the actuality of the Chinese socila websites. Key words:Chinese websites;socila science websites CLC number:G250.73 Document code:A Article ID:1003-6938(2006)03—0040—05 web站点”。…由于该定义所涉及的数据仅包括中国大陆(国 1中文社会科学网站范围的界定 家代码顶级域名为CN),而本文的刚站涉及全球范围,所以我 在众多内容和性质不同的网站中,中文社会科学网站具 们参考该定义,并将“网站”的界定引申为:“具有独立域名的 有自己的特点,要想对中文社会科学网站进行评价研究,首 web站点,其中包括国家代码顶级域名(ccTLD,country code 先必须对其范围进行界定。下面我们通过拆分“巾文社会科 Top Level Domain)和通用顶级域名(gTLD,generic Top Level 学网站”这个词来加以解释说明。 Domain)下的web站点”。此处的独立域名指的是每个域名最 1.1关于“网站” 多只对应一个网站“WWW、+域名”。tL ̄tn,对于域名nankai.edu. 中国互联网络信息中心对“网站”的定义是:“有独立域 en来说,它只有一个网站,并非它有ibs.nankai.edu.cn、mail .名的web站点,其中包括CN和通用顶级域名(gTLD)下的 nankai,edu.cn等多个网站,它们只被视为网站的不同频道。 基金项目:本文为国家社会科学基金项目(04BTQ024)研究论文之一。 收稿日期:2006—05—26;责任编辑:王景发 40 维普资讯 http://www.cqvip.com

囤1I占媾振 1-2关于“社会科学” 2006年第3期 的特征角度出发,参考了《中国图书馆分类法(第四版)》 和一些搜索引擎分类目录,如Google“网页目录”(=zh- CN&tab=wd&q=)、新浪搜索弓l擎分类目录(http://dir.iask. e,om)和搜狐搜索引擎目录(http://www.sogou.com/dir)等,调 整了一些学科的分类目录。经过去重处理,适当增加了一些 根据中国社会科学院文献信息中心编制的《社会科学检 索同表》的划分,社会科学包括17个大类: 马克思列宁主 义、哲学、宗教学、语言学、文学、历史学、考古学、社会学、民 族学、经济学、政治学、法学、军事学、传播学与新闻学、图书 馆学/情报学/档案学、教育学、管理学。此外,根据网站分类 的特点我们加入了综合类网站,如新浪网(WWW.sina邶m. 关键词。最终选取了17个大类中最具代表性的83个关键 词。为了避免因关键词选取数量不均而影响各类网站数量, 我们对每个大类都选取了4-6个关键词,基本上实现了平 c・n)等,这类网站也包含了社会科学的内容。“社会科学网 站”将我们研究的网站内容界定于社会科学之内,所以一些 纯自然科学方面的网站不在我们研究之列,如中国科学院网 站(http:Ilwww舳s.cn)。总的来说,本文所涉及网站的一个重 要特点就是具有一定的学术性质,基于此,那些只提供信息 或纯商业性质而不包含学术性内容的网站则排除在外。 1.3关于“中文” 中文社会科学网站的范围限定于中文,按照中文编码类 型,又可以分成中文简体(GB码)、中文繁体(BIG5码)、中 文简繁体混合网站三种类型。对于简繁体的分类,我们认为, 一个网站必有其主导的编码语言,即网站主体上所使用的编 码语言,而其它编码版本的网页,只是针对特定人群的服务, 所占的比例小于主导的编码语肓,其内容也不尽相同。对于 既有中文,又有外文的网站,如果该网站的编码语青以中文 (包括上述{种中文编码类型)为主体,我们就认为该网站 属于中文网站;反之,如果该网站以外文为主,而中文只是其 辅助语言,则该网站不属于中文网站范围。 1.4关于“中文社会科学网站” 由此,我们把“中文社会科学网站”的范围界定为:以 社会科学l7个大类加上综合类所包含的学科内容为基础 的、具有独立域名并以中文作为网站主体语言的web站点都 属于中文社会科学网站的范围。 2中文社会科学网站的分布 2.1研究思路 我们研究分布特 的基本思路是:从Google“网页目 录”中选取样本冈站,以一定的标准代表中文社会科学范围 (即选取中文关键词)在其中进行检索,检索结果经过处 理,可以得出样本网站的分布特征,进而,以此分析中文社 会科学嘲站的总体分布特征。以这种抽样标准为基础,我们 分析了巾文社会科学网站的学科内容分布、国家地区分布、 网站性质分布和简繁体分布。 2.1.1关键词的选取 我们根据《社会科学检索词表》的17大类为列类标 准。以基本大类下的一级类为依据.从学科特点和网站检索 衡。只有“民族学”网站,因为“民族”一词对该类的概括性 很强,所以只选取了“民族”和“种族”两个词。此外,对于 综合类网站数量的检索,我们参考l『几个知名的综合性中 文网站——搜狐(WWW.sohu.com)、网易(www.163.corn)、新 浪(www.sina.tom. ̄2n)等。经过分析发现:它们排名靠前的频 道主要是:“体育”、“新闻”和“财经”,冈此,我们认为,如 果一个网站含有以上三个关键词,可视作综合类网站,以这 三个检索词作“逻辑与”检索,所得结果则视作综合类网站 数量。 所选取的关键词如下: 1.马克思主义:马克思主义、列宁主义、毛泽东思想、邓 小平理论 2.哲学:哲学、逻辑学、伦理学、美学、心理学 3.宗教:宗教、基督教、伊斯兰教、佛教、道教、迷信 4.语言学:语言文字、语音、词 [、语法、写作、翻译 5.文学:文学、文艺、小说、诗歌、散文、戏剧 6.历史学:历史、史学、传记、风俗 7.考古学:考古、博物馆、文物、遗迹 8.社会学:社会学、社会问题、人口、婚姻、家庭 9.民族学:民族、种族 10.经济学:经济、贸易、财经、金融、保险 11.政治学:政治、阶级、政党、行政、外交 l2.法学:法学、法制、律师、司法、宪法 13.军事学:军事、国防、军队、解放军、武器 14.传播学与新闻学:传播、新闻、广告、媒体、舆论、出 版 15.图书馆学、情报学、档案学:图书馆、情报、档案、检 索、文书 16.教育学:教育、德育、体育、学校、考试 l7.管理学:管理、经营、科学学、未来学、人才学 2.1.2 Google“网页目录”的选取 选择Google“网页目录”搜录的网站作为检索的样本网 站是基于以下考虑的:‘ 目前大部分搜索引擎都提供网页的全文检索,也有一 41 维普资讯 http://www.cqvip.com

胡序宋正凯:基于评价研究的中文社会科学网站范围界定与特征分布 些搜索引擎设立了分类目录,用户可从分类目录下查找相 关网站。由于本文的研究是基于网站而非网页的,所以需要 表1:“中文社会科学网站”学科内容分布表 马克思 主义 哲学 688 0.54% 宗教 语言学 文学 历史学 794 3123 4o66 4096 使用对网站进行组织的分类目录来进行检索,而不能使用 网页检索功能。 网站数 185 百分比 0.15% Google是同际著名的搜索引擎,其复杂的自动搜索方 0.62% 2.45% 3.19% 3.21% 法确保了搜索结果的客观公正,这对分布特征评价的客观 性尤其重要。通过与其它一些提供分类目录的搜索引擎比 考古学 社会学 民族学 经济学 政治学 法学 网站数 1048 5159 1400 16333 465l 6527 较发现,Google“网页目录”功能齐全,不仅提供“网页目 录”内的关键词检索功能,还对简繁体有专门的检索规定, 目前共收录了150万个以上的网站,综合考虑,它是最符合 我们研究需要的一个检索工具。 2.2学科内容分布 2.2.1研究方法 Google“网页目录”对中文网站做了简体网站(Chinese Simpliifed)和繁体网站(Chinese Traditiona1)的分类,在检 索的“使用偏好”中,还对所搜索网页的语言作了简体和繁 体的区分。我们以此人手,对同一关键词,先以简体形式在 Chinese Simpliifed中做“简体中文”检索,再以繁体形式在 中做“繁体网页”检索,最后将简繁体的检索结果相加,所 得结果则认为是含有该关键同的所有中文网站数量。然后, 将某一学科的各个关键词检索结果相加,得到该学科的网 站数量,以此为基础,可以得出不同学科内容网站的分布特 征。 这里对Google的检索规则做一说明:Google的检索自 动使用“and”进行查询,在关键词中间留空格或用“+”都 表示“逻辑与”,它会忽略最常用的词和字符,如“http”、 “.eom”和“的”等,使用英文双引号则可将这些忽略词强加 于搜索项。为了保证搜索出的结果符合“www”形式的网站, 我们将关键词做【关键词十“wWW.”】检索。 检索实例1: 关键词为“马克思主义”的中文网站检索,我们先以【马 克思主义+“www.”】作检索词在Chinese simpliifed范围中 进行检索,并在“使用偏好”的“搜索语言”复选框中仅对“简 体中文”打勾,检索得到52‘个网站;再以【禺克思主羲十 “www.”】作检索词在Chinese traditional网站中进行检索, 并在“使用偏好”的“搜索语言”复选框中仅对“繁体中文” 打勾,检索得到7个网站。然后将52和7相加,则59是以“马 克思主义”做关键词进行检索所得的中文网站数量。 2.2.2结果分析 以上述方法检索和处理,我们得到下表: 本文数据的检索时问均为2006年4月13日 42 百分比 0.9l% 4.50% 1.22% 14.26% 4.06% 5.70% 军事学 传播学与 图情档 教育学 管理学 综合类 新闻学 网站数 1772 27568 6191 23774 19462 652 分比 1.55% 24.07% 5.4l% 20.76% 16.99% 0.57% 由统计结果可以看出,中文社会科学网站数量众多,内 容丰富,涵盖了所有社会科学领域。但其分布却不均衡,数 量最多的是传播学和新闻学。占了总数的24.07%,而最少的 是马克思主义类网站,只占O.15%。传播学与新闻学、教育学、 经济学和管理学四类网站的总量占全体检索结果的76%。 我们对以上数据做差异系数分析(差异系数在统计学上 是表征数据离散程度的变量,差异系数越大,表明数据的离 散程度越大),根据差异系数计算公式:差异系数=标准差/ 平均数xlO0进行计算,得出总体差异系数为117.55%。由此 可见,各个学科中文网站发展极为不均衡。这种不均衡现象 可以反映不同学科对网民的实用性和现实性并有其原因, 比如,传播学和新闻学网站数量众多的一个主要原因在于 网络本身就是传播和新闻的载体;经济管理类网站占很大 比例,除了由于其学科的社会价值和实用性外,还因为当前 网络在很大程度上仍然是由经济利益来驱动的。但是,该现 象并非完全合理的,如果仅以实用和利益驱动来建设和发 展社会科学网站,整个社会科学的发展就会出现不均衡,对 此,应该引起我们的注意,加强一些非实用性学科网站的建 设,这对社会科学的全面协调发展是很重要的。 2_3 国家地区分布 2.3.1研究方法 由于中文社会科学网站的地域分布广泛,我们只选择 几种官方语言,对中文的国家和地区(中国大陆、台湾、香港、 澳门和新加坡)进行地区分布研究。研究的主要依据是以国 家代码顶级域名(ccTLD)来区分不同国家和地区,如:中国 大陆为CN,台湾为Tw,香港为HK,澳门为MO,新加坡为 SG。在统计中。我们认为,注册域名为CN的网站为中国大陆 网站(实际上也有一些外国网站注册了CN域名),并且我 维普资讯 http://www.cqvip.com

固素占.悖拓 们只统计含有国家代码顶级域名的网站,那些只注册使用 通用顶级域名的网站则不在地Lx二分布特征研究范酮之内。 如我们将“新浪网”计人中国大陆网站而不计人“搜狐 网”,因为前者包含了国家域名cN,而后者只有通用顶级域 名。 2006年第3期 检索实例3: 网站性质分布研究的检索方法与“检索实例2”基 本一致,只是将检索词的地区域名换作网站类别域名。如用 【马克思主义+“www. .corn”】代替检索实例2中的【马克 思主义+“WrifrW. .cn”】,该检索结果反映了“马克思主义” 一检索实例2: 地区分布研究的检索方法与学科内容的检索方法类 同在COM网站中的数量,用该方法可得出83个关键词 在COM网站中的数量,检索结果加总则为COM(商业性 可得出其他类型网站 似。对于中国大陆网站,先以【马克思主义+“WWW. .en”r 质)中文社会科学网站的总数。同理,作检索词在Chinese simpliifed范围中进行检索,并在“使用 偏好”的“搜索语言”复选框中仅对“简体中文”打勾,检索 的数量。 2.4.2结果分析 得到26个网站;再以“【属克思主羲+“WWW. .en”】’'作检 索词在Chinese traditional范围中进行检索,并在“使用偏 好”的“搜索语言”复选框中仅对“繁体中文”打勾,检索得 到1个网站。26和l相加,27则代表关键词“马克思主义” 表3:“中文社会科学网站”网站性质分布表 国家地区 COM 0RG NET EDU GOV 中文社科网站数 72790 7275 14452 8321 8171 占五类总数比例 65.57% 6.55% 13.O2% 7.5O% 736% 在中国大陆中文网站的数量。将83个关键词都按该方法进 行检索并将结果相加,得到的数据视作中国大陆中文社会科 学网站的总数。同理,可以得出其他国家和地区的网站数量。 2.3.2结果分析 表2:“中文社会科学网站”国家地区分布表 国家地区 CN TW HK MO SC 一从表3我们可以看出,在中文社会科学网站中。最多的 类网站是COM网站,然后依次为NET,GOV,EDU,ORG。 这与整个网站(包括中文社会科学网站和其它网站)的性 质分布大体一致。根据2006年中国互联网络发展状况报告 的数据,“我国以COM结尾的英文域名总数为占域名总数的 46.4%;以NET结尾的英文域名占8.4%;以ORG结尾的英文 域名占2.9%”。 这里的域名总数包括我国国家顶级域名 中文社科网站数 3518O 4991 1434 59 153 占五者总数比例 84.13% 11 94% 3.43% O l5% 0.37% CN和通用顶级域名,所以具体的百分比不同,但数据显示, 以上材料表明:巾国大陆占中文社会科学网站的绝大 我国的网站按性质分类,仍然是COM和NET最多。这种状况 反应了目前网络的发展在很大程度上还是商业利益为驱动 的,同时也提醒我们,还应该进一步加强学术性社会科学网 站的建设。 2.5中文编码分布 部分,而澳门和新加坡只有很少一部分。这与不同地区人口 和地域范围存存一定关系。但进一步分析发现:网站数量并 非完全与地区人口比例一致。如CN域名网站数35180和 sG域名网站数153的比例是230:l,而两国人口数量的比 例却高于此(按中国人口l3亿_4 和新加坡人口435万计 2.5.1研究方法 按照中文编码类型,网一I-社会科学信息资源可以分成中 算,【 比例为299:1),这说明网站发展与地区经济和技术 条件也是密切相关的,经济技术发达的地区在网络和网站 的建设上要领先于落后地区。 2.4网站性质分布 文简体(GB码)、中文繁体(BIG5码)、中文简繁体网站三种 类型。对于简繁体混合网站,理论上,我们根据主体语言将其 划分到中文简体或中文繁体网站中,在实际操作中,我们不 做分布研究,而直接采用Google“网页目录”提供的简体网 站(Chinese Simplified)和繁体网站(Chinese Traditiona1)分 2.4.1研究方法 网站的性质多种多样,如商业网站、教育网站、政府网 站、组织机构网站,等等,这在网站的域名中也得到了体现,如 COM(公司),NET(网络机构),ORG(组织机构),EDU(教 类,将在“Chinese Simpliifed”检索的结果视作简体网站,在 “Chinese Traditional”检索的结果视作繁体网站,二者比例 反映了简繁体网站的分布。 具体数据来源,可根据2.1节学科内容的检索结果,得 育部门),GOV(政府部门)等,本节我们就用以上五个最常 用的类别域名来区分网站性质,分析其分布特征。 +C.oogle的检索不支持通配符,所以检索词中的” ’不代表通配符,Google在检索时忽略” ’,事实上” ’ 的作用是既连接了“W'CCW.”和“.1211”,却义不作检索意义。 43 维普资讯 http://www.cqvip.com

胡序宋正凯:基于评价研究的中文社会科学网站范围界定与特征分布 到所有中文社会科学网站总体的简繁体网站分布;2.3节同 3.2关键词 家地区分布的数据,同样是对简体繁体网站分别检索加总 关键词的选取是我们根据《社会科学检索词表》、《中 得来,可以从这些数据中分析简繁体网站的地区分布。 国图书馆分类法(第四版)》和一些搜索引擎分类目录而得 2.5.2结果分析 出的,虽然经过仔细分析、比较和概括,但仍然存在一定的 根据2.2学科内容分布的检索结果,中文礼会科学网站 主观性。 中简体网站数为1】6儿5,繁体网站数为11284,可见,目fii『中 经过Google的“网贞级别(Page,rank)”技术分析,从 文社会科学嘲站的主体是简体中文网站,占该类统计网站 “网贞目录”中检索出的网站依照其重要性先后排列,那些 的91.14%,繁体中文的比例相对较少,只占8.86%。从表4. 排名在前的网站的内容与关键词在很大程度上相关,但排 我们还可发现。简繁体刚站存在地域分布的差别。在简体网 名靠后的网站,则只是包含该关键词而已,甚至该关键词的 站中域名为CN的占丁绝大多数,达到丁总数的99.07%;而 m现只是碰巧组配而成,网站主体内容可能与泼关键词相 在繁体网站中 和HK则占多数,CN的繁体网站数量很 差甚远。也有些网站并没有严格体现出社会科学的学术性 少。这种分布特征与当地的语言使用习惯有关,中国大陆经 质,但我们在统计中都未加区分地加在总数之中。 过文字改革以后,基本使用简体中文,新加坡也以简体中文 我们将各大类所有关键词的检索结果进行加总,以此 为主,而台湾和香港仍然在沿用繁体字。 来代表大类的网站数量.并计算分布比例。但事实上,不同 的关键词可能检索出同一个网站,这里存在重复计算的问 表4:“中文社会科学网站”简繁体网站地区分布表 题。但统汁标准的一致,可以在一定程度上减少该计算方法 简体网站总数 繁体网站总数 对结果的影响。 CN 35O49 13l 总的来说,由于网站数量巨大,内容复杂,分布广泛,加 TW 145 4846 之网络信息的变化迅速,用精确的数据来分析所有网站分 HK 31 14O3 布并不现实,又 目前我们所掌握的技术有限,本文对网站 MO 1 58 SG 153 0 分布只是一个大概的描述。但本文的研究方法经过反复推 总计 35379 6438 敲和讨论,尽量避免了一些主观性和存在的问题,并在测试 中得到了检验,具有一定的科学性,所得结果大致上跟现实 中的中文社会科学网站总体的分布是相一致的。 3存在的问题 参考文献: 3.1搜索引擎 [1][6]中国互联网络信息中心.中国互联网络发展状况统 我们直接采用Google“网页目录”搜录的网站作为样 计报告[R].2006.1:3,28. 本网站,而“网页目录”的内容是根据网景公司主持的 [2]社会科学检索词表编辑委员会.社会科学检索词表 “Open Directory”,由全世界各地的义务编辑人员来审核挑 [M].北京:社会科学文献出版社,1996:3-16. 选网页,并依照网页的性质及内容来分门别类。由于是人工 [3]中图法编委会.中国图书馆分类法(第四版)[M].北 挑选的样本,我们对挑选的标准也不尽清楚,如果在挑选时 京:北京图书馆出版社,1999. 标准不明确,就存在这些样本网站能甭反映总体网站分布 [4]国家统计局.中华人民共和国2005年国民经济和社会 特征的问题。 发展统计公报[R].2006.2.http:,'/www.stats.gov.cn/tjgb, 南于样本网站的检索是由搜索引擎来进行的.而目前的 nd ̄gb/qgndOgb/t20060227_402307796.htm/2006—04—1 3. 搜索引擎技术主要面向网页检索,在Google“网页目录”提供 [5]资料源自新加坡统计局网站[EB/OL].http://www,singstat.gov. 的网站分类目录中,对于网站的界定也并不十分严格,所以 sg/keystats,annual/ind at0rs.html#Population%20Indicators 我们在选取网站时不可避免地收录了一些非严格意义上的 /2oo6一O4一l3. “网站”,可能只是“网页”或“网站频道”。但我们认为,在 作者简介:胡序(1982-),男,汉,南开大学信息资源管理系情报 样本足够多的情况下,这些网页或频道只是搜索结果中很少 学硕士研究生;宋正凯(1981一),男,汉,南开大学信息资源管理系 的一部分,并不影响研究结果。 情报学硕士研究生。 

因篇幅问题不能全部显示,请点此查看更多更全内容