不同數(shù)據(jù)庫中機(jī)構(gòu)檢索的檢索方法及技巧論文
當(dāng)前,很多高校科研管理部門每年都會進(jìn)行科研成果統(tǒng)計(jì),對本機(jī)構(gòu)內(nèi)科研活動狀況進(jìn)行定量測定。通過不同數(shù)據(jù)庫的機(jī)構(gòu)檢索,能夠反映高?茖W(xué)研究的動態(tài)和水平,從而為在院校的學(xué)科建設(shè)、科研規(guī)劃、人才培養(yǎng)、宏觀決策的制定等方面建立機(jī)構(gòu)知識庫提供重要依據(jù); 同時也有助于與擁有相近學(xué)科的高校進(jìn)行橫向比較。在實(shí)際工作中,經(jīng)常會接到某高?蒲刑幍奈,請求檢索該高校人員在某個時間段( 常常是逐年委托連續(xù)起來) 發(fā)表的論文在國內(nèi)外著名檢索工具中的收錄情況,借以統(tǒng)計(jì)該機(jī)構(gòu)的科研成果。
1 機(jī)構(gòu)檢索中遇到的問題
在檢索時發(fā)現(xiàn),機(jī)構(gòu)中英文名稱不規(guī)范的情況很普遍,如機(jī)構(gòu)名稱有常用名稱和別名,機(jī)構(gòu)名稱采用縮寫或簡寫,機(jī)構(gòu)改名后仍然有為數(shù)不少的作者沿用原來機(jī)構(gòu)的英文名稱。還有一些作者在發(fā)表論文時未使用所在機(jī)構(gòu)的正式英文名稱,有好幾種非正式名稱出現(xiàn)[1 -2].這給檢索過程中想要求全帶來極大的困難。另外,不同的數(shù)據(jù)庫收錄論文時著錄規(guī)則不同,如果檢索策略不對,會導(dǎo)致檢索結(jié)果出入很大[3].筆者根據(jù)實(shí)際工作中積累的經(jīng)驗(yàn),介紹以機(jī)構(gòu)委托時通常會用來統(tǒng)計(jì)的數(shù)據(jù)庫以及在不同數(shù)據(jù)庫中檢索的具體方法及技巧,確保檢索機(jī)構(gòu)的查全率和查準(zhǔn)率。
2 機(jī)構(gòu)檢索時通常選取的國內(nèi)外著名數(shù)據(jù)庫
現(xiàn)在很多高校都是綜合性大學(xué),理工文史哲經(jīng)管農(nóng)醫(yī)教各學(xué)科都有。所以在成果統(tǒng)計(jì)時可以大致按照自然科學(xué)和社會科學(xué)來分類。其中,自然科學(xué)類常用的數(shù)據(jù)庫有 SCI、EI Compendex、CPCI - S、MEDLINE、CSCD、CNKI 等,社會科學(xué)類常用的數(shù)據(jù)庫有 SSCI、A&HCI、CPCI - SSH、CSSCI 等。這其中又區(qū)分這些數(shù)據(jù)庫的核心版和非核心版的收錄情況。這些數(shù)據(jù)庫都是在國內(nèi)外有重大影響力的數(shù)據(jù)庫,其中有專門收錄期刊論文的,或?qū)iT收錄會議論文的,也有都收錄的。
除了上述檢索收錄時常用的數(shù)據(jù)庫,基本科學(xué)指標(biāo)數(shù)據(jù)庫( Essential Science Indicators,簡稱 ESI)也是機(jī)構(gòu)檢索的重要工具,它是由世界著名的學(xué)術(shù)信息出版機(jī)構(gòu)美國科技信息所( ISI) 于 2001 年推出的衡量科學(xué)研究績效、跟蹤科學(xué)發(fā)展趨勢的基本分析評價工具,是當(dāng)今世界范圍內(nèi)普遍用以評價大學(xué)、科研機(jī)構(gòu)、個人國際學(xué)術(shù)水平及影響力的重要指標(biāo)。
3 不同數(shù)據(jù)庫中可以使用的著錄規(guī)則特征及基本檢索方法
機(jī)構(gòu)人員發(fā)表論文時一般都會在作者地址中留下機(jī)構(gòu)名稱、具體地址及郵編,團(tuán)體作者也符合這個特點(diǎn)。所以檢索時考慮凡地址字段中出現(xiàn)該機(jī)構(gòu)名稱即可確認(rèn)是該機(jī)構(gòu)人員發(fā)表的論文。
不同數(shù)據(jù)庫對信息的著錄規(guī)則不同,會導(dǎo)致同樣的檢索策略檢索出的結(jié)果差別很大。而同一家數(shù)據(jù)庫商所做的同一平臺上的數(shù)據(jù)庫的著錄方法是基本一致的,所以這里按照不同的平臺來介紹。
3. 1 ISI 平臺
目前,我們常用的是 ISI 平臺上的 Web of Sci-ence Core Collection 數(shù) 據(jù) 庫 集,包 括: SCI / SSCI /A&HCI / CPCI - S / CPCI - SSH / CCR / IC 等 7 個數(shù)據(jù)庫,該平臺還有 MEDLINE/BIOSIS 等數(shù)據(jù)庫。
通過在作者地址中輸入機(jī)構(gòu)和/或地點(diǎn)的完整或部分名稱,可以檢索“地址”字段。例如,Univ 和University 可查找記錄中的地址字段出現(xiàn)檢索詞 “Univ” 的機(jī)構(gòu)。
可以使用邏輯運(yùn)算符( AND、OR、NOT、NEAR和 SAME) 和通配符 ( * $ ?) 來組合檢索使檢索結(jié)果更精確。但是檢索包含上述邏輯運(yùn)算符的地址,需要將該運(yùn)算符名稱括在引號內(nèi)。
在檢索時,邏輯運(yùn)算符和通配符的使用與其他數(shù)據(jù)庫的不同點(diǎn)在于:SAME 運(yùn)算符指定了由運(yùn)算符連接的檢索詞位于同一地址,而不僅僅是位于相同的字段,使得檢索結(jié)果更精確。
使用 NEAR/x 可查找由該運(yùn)算符連接的檢索詞之間相隔指定數(shù)量單詞的記錄。該規(guī)則也適用于單詞處于不同字段的情況,用數(shù)字取代 x( x≤15) 可指定將檢索詞分開的最大單詞數(shù)。
通配符星號 ( * ) 表示任何字符組,包括空字符,只能放在詞尾。
通配符問號 ( ?) 表示任意一個字符,用于單詞中間。
通配符美元符號 ( $ ) 表示零或一個字符,可用于詞尾或詞中間。
3. 2 Engineering Village 平臺
目前,國家圖書館僅購買了該平臺的 EI Com-pendex 數(shù)據(jù)庫,所以以下只針對該數(shù)據(jù)庫的檢索規(guī)則進(jìn)行介紹。
作者地址字段 Author affiliation 簡寫為 AF 字段。EI Compendex 數(shù)據(jù)庫提供了該字段的索引,但實(shí)際按照作者機(jī)構(gòu)檢索時發(fā)現(xiàn)效果很不理想,原因在于作者對機(jī)構(gòu)名稱的書寫不規(guī)范,用索引列表很難窮盡。
EI Compendex 數(shù)據(jù)庫也提供了邏輯運(yùn)算符( AND、OR、NOT、NEAR 、ONEAR 和 SAME) 和通配符 ( * $ ?) 組合檢索來提高檢索效率和精準(zhǔn)度。
但是具體的使用方法和含義不盡相同。
截詞符星號 ( * ) 用來檢索以相同字母開始的單詞。
通配符問號 ( ?) 表示任意一個字符,用于單詞中間。
美元符號 ( $ ) 表示詞干搜索條件。在一個完整的單詞前面加上 $ ,可以將其各種形式的變形都搜索出來。
位置算符 NEAR 或 ONEAR 限制檢索時兩個詞組之間距更鄰近,ONEAR 更是限定了詞與詞之間的先后順序。但它們不能與* 、?、( ) 、{ } 、“”同時使用。
3. 3 ESI 數(shù)據(jù)庫
ESI 數(shù)據(jù)庫的功能主要包括 3 個方面: 引用排行( Citation Rankings) 、高被引論文( Most Cited Pa-pers) 和引用分析( Citation Analysis)[7].ESI 根據(jù)各機(jī)構(gòu)不同學(xué)科領(lǐng)域 10 年內(nèi)論文的被引頻次的總和對機(jī)構(gòu)進(jìn)行排名。ESI 中機(jī)構(gòu)名稱都很規(guī)范,只考慮機(jī)構(gòu)的正式英文名稱即可。
可以按學(xué)科瀏覽,查看在同一學(xué)科不同機(jī)構(gòu)的排名情況; 也可以進(jìn)行機(jī)構(gòu)檢索,查看同一機(jī)構(gòu)在不同學(xué)科的排名情況; 也可以檢索該機(jī)構(gòu)近 10 年來在某學(xué)科的高被引論文數(shù)或熱點(diǎn)論文數(shù)。
機(jī)構(gòu)檢索時默認(rèn)在地址字段檢索,只要包含該機(jī)構(gòu)名稱就符合檢索條件?梢詾g覽字順表進(jìn)行機(jī)構(gòu)檢索,或用機(jī)構(gòu)正式英文名稱的縮寫進(jìn)行檢索; 輸入“HARVARD UNIV”,對應(yīng)機(jī)構(gòu)名稱就是 HAR-VARD UNIV; 輸入“HARVARD UNIV* ”,檢索結(jié)果為包含前述兩個詞的任一地址,如: HARVARDUNIV 或 HARVARD UNIV MEDICAL AFFILIATES.
3. 4 中文數(shù)據(jù)庫 CSCD / CSSCI / CNKI
CSCD 數(shù)據(jù)庫機(jī)構(gòu)字段只需了解加雙引號( “”)是精確檢索。不加是模糊檢索。
CSSCI 數(shù)據(jù)庫中作者機(jī)構(gòu)字段默認(rèn)就是精確檢索。
CNKI 數(shù)據(jù)庫中單位字段提供精確或模糊兩種選擇。這里要說明的是在機(jī)構(gòu)檢索時需要選擇“模糊”,因?yàn)?CNKI 中“精確”是與所輸入檢索詞完全匹配,而機(jī)構(gòu)地址通常都是某大學(xué)某學(xué)院某系等信息,選擇“精確”就會造成漏檢很多。
中文數(shù)據(jù)庫由于沒有語言問題,相對來說檢索規(guī)則也較簡單,不再另述其檢索技巧。都可以區(qū)分核心版和非核心版。需要注意的是,一定要將機(jī)構(gòu)名稱的常用名、別名、簡寫或縮寫找全,并配合地址和郵編來檢索,這樣才能保證檢索結(jié)果既全面又準(zhǔn)確。
4 機(jī)構(gòu)檢索在英文數(shù)據(jù)庫中的檢索技巧
根據(jù)我們多年的實(shí)際工作經(jīng)驗(yàn),認(rèn)為初步設(shè)定檢索式時要盡可能的.放大范圍以保證檢索全面; 同時,既考慮增加檢索條件,又要使用算符,確保檢索準(zhǔn)確性。當(dāng)機(jī)構(gòu)名稱較長時,不容易引起干擾; 機(jī)構(gòu)名稱簡單,則干擾項(xiàng)會很多。
4. 1 機(jī)構(gòu)名稱較長,直接用機(jī)構(gòu)名稱檢索引起的干擾項(xiàng)較少
以華北水利水電大學(xué)為例,檢索該機(jī)構(gòu) 2013 年發(fā)表的論文在數(shù)據(jù)庫中收錄情況。
該機(jī)構(gòu)的正式英文名稱及郵編為:North China University of Water Resources and ElectricPower ,Henan Zhengzhou 450011地址字段輸入郵編 450011,瀏覽可發(fā)現(xiàn)該機(jī)構(gòu)的其他不規(guī)范寫法,例如:“水利”有用 Water Resources 或 Water Conservancy,“水電”有用 Electric Power 或 hydroelectric Power,“學(xué)院”有用 U-niversity 或 institute.
以 SCI 為例,SCI 數(shù)據(jù)庫中地址字段檢索時默認(rèn)詞與詞之間的精確順序,構(gòu)造檢索式如下:ad = ( N* China ( Univ* or inst* ) Water ( Conservan*or Resource* ) ( Elect* or Hydroelec* ) Powe* or 450011)以 EI Compendex 為例,EI Compendex 數(shù)據(jù)庫檢索時默認(rèn)詞與詞之間就是“and”關(guān)系,不指定檢索詞的順序。這個原則適用于地址字段。所以實(shí)際檢索時要具體情況具體分析?紤]到該機(jī)構(gòu)名稱較長,模糊檢索,干擾項(xiàng)也不會太多。所以直接將檢索式變更為 EI 中格式即可,如下:( N* China and ( Univ* or inst* ) and Water and ( Con-servan* or Resource * ) and ( Elect * or Hydroelec * ) andPowe* ) wn AF or 450011 wn AF
4. 2 機(jī)構(gòu)名稱簡單,直接用機(jī)構(gòu)名稱檢索引起的干擾項(xiàng)很多
當(dāng)機(jī)構(gòu)名稱較短時,就會有很多干擾項(xiàng)。如檢索“河北大學(xué)”,該機(jī)構(gòu)正式名稱及地址如下:Hebei University,Hebei Baoding 071002在 SCI 地址字段輸入 Hebei Univ* 檢索,會發(fā)現(xiàn)以 Hebei Univ* 打頭的各種干擾項(xiàng),如: HEBEIUNIV TECHNOL 、HEBEI UNIVERSITY OF TECH-NOLOGY、HEBEI UNIVERSITY OF SCIENCE TECH-NOLOGY 、HEBEI UNIV ECON BUSINESS 等等;在 EI 地址字段輸入 Hebei Univ* 檢索,會發(fā)現(xiàn)只要地址字段中包含了 Hebei 和 University 兩個詞,就滿足了檢索條件,導(dǎo)致檢索結(jié)果極不精確,除了上述干擾項(xiàng),還會有諸如: HEBEI MEDICAL UNIVER-SITY、HEBEI NORTH UNIV、HEBEI UNITED UNIV等等。
這時,一方面可以通過增加檢索條件,如將機(jī)構(gòu)名稱與地址或郵編組合檢索來縮小范圍使得檢索結(jié)果更精確。也避免了漏檢同時將地址和郵編都寫錯的情況。
以 2013 年 SCI 收錄為例:原檢索式: ad = ( hebei univ* ) and py =2013 檢索結(jié)果:1023 條修改為: ad = ( Hebei Univ* and ( Baoding or 071002) )and py = 2013,檢索結(jié)果: 469 條可以看出修改后的檢索式大大提高了準(zhǔn)確率。
然后再在這個相對準(zhǔn)確的結(jié)果中去確認(rèn)就容易得多。
以上操作都是基于先將范圍最大化從而不會漏檢,保證檢索結(jié)果更全面的角度出發(fā)。
另一方面,巧妙使用數(shù)據(jù)庫中的算符以提高準(zhǔn)確率。
以河北北方學(xué)院 2013 年發(fā)表論文的 SCI 收錄情況為例:機(jī)構(gòu)正式名稱及地址: Hebei North University,hebeiZhangjiakou 075000North 在數(shù)據(jù)庫中有可能以 NORTH 或 N 或 Northern出現(xiàn)。
構(gòu)造原檢索式: ad = hebei n* univ* and py =2013 檢索結(jié)果: 450 條情況 1: 粗略瀏覽檢索結(jié)果發(fā)現(xiàn)干擾項(xiàng) HEBEI NORMALUNIVERSITY 很多,去除干擾項(xiàng),檢索式修改為: ad = ( hebein* univ* not hebei norm* univ* ) and py = 2013 檢索結(jié)果: 59 條但這樣會將地址字段既有河北北方學(xué)院又有河北師范大學(xué)的條目也去掉,所以補(bǔ)充修改檢索式為:( ad = ( hebei n* univ* not hebei norm* univ* ) or ad= ( hebei nort* univ* and hebei norm* univ* ) ) and py =2013 檢索結(jié)果: 60 條情況 2: 使用地址與名稱組合檢索。如上文中介紹,在 SCI 地址字段檢索時,算符 SAME 有將檢索詞限制于同一地址檢索的功能,所以做對比如下:原檢索式: ad = ( hebei n * ( univ * or coll * ) and( zhangjiakou or 075000) ) and py =2013 檢索結(jié)果: 60 條修改為: ad = ( hebei n * ( univ * or coll * ) same( zhangjiakou or 075000) ) and py =2013 檢索結(jié)果: 58 條可見,使用 same 算符后檢索結(jié)果更精確。
再以 EI 數(shù)據(jù)庫中地址字段檢索舉例說明:原檢索式: Hebei north* univ* wn af 發(fā)表時間: 2013 年檢索結(jié)果: 640 條( 可以單獨(dú)檢索 hebei n univ* 以補(bǔ)充全面)如上文介紹,位置算符 NEAR 或 ONEAR 可以使檢索結(jié)果更準(zhǔn)確?梢孕薷臋z索式如下,以便看出其中差別:#1 Hebei NEAR north NEAR university wn af 發(fā)表時間:2013 年 檢索結(jié)果: 92 條#2 Hebei ONEAR north ONEAR university wn af 發(fā)表時間: 2013 年 檢索結(jié)果: 76 條#3 Hebei NEAR /0 north NEAR /0 university wn af 發(fā)表時間: 2013 年 檢索結(jié)果: 74 條#4 Hebei ONEAR /0 north ONEAR /0 university wn af 發(fā)表時間: 2013 年 檢索結(jié)果: 74 條注釋: #1 和#2 中沒有指定相鄰幾個詞時,默認(rèn)是 4 個詞。即 NEAR 等同于 NEAR/4.
可以看出,檢索結(jié)果變少,范圍縮小。以上檢索默認(rèn)數(shù)據(jù)庫打開 Autostemming 功能,自動進(jìn)行詞干檢索,如 north 的變形 northern 也包含在檢索結(jié)果內(nèi)。這個功能也可以通過使用詞干搜索符號 ( $ )實(shí)現(xiàn)。修改檢索式為:#5 Hebei ONEAR /0 $ north ONEAR /0 $ university WNAF 發(fā)表時間: 2013 年 檢索結(jié)果: 74 條但是,由于 NEAR 或 ONEAR 算符不能與* 、?、( ) 、{ } 、“”同時使用,尤其是截詞符* ,這就使得檢索結(jié)果不全面,如檢索式#1 到#5 均無法檢索到 uni-versity 的縮寫 univ.
以上僅是為了說明算符的重要性,在實(shí)際檢索時要將上述幾項(xiàng)合并使用。
5 建議
。 1) 有關(guān)單位規(guī)范機(jī)構(gòu)和地址名稱及其英文翻譯名稱,科技工作者在撰寫論文時也要采用正式的機(jī)構(gòu)和地址的中英文名稱,減少不規(guī)范因素,這樣就不會漏查; 檢索人員應(yīng)多學(xué)習(xí)數(shù)據(jù)庫的著錄規(guī)則,了解不同數(shù)據(jù)庫的著錄格式,在構(gòu)建檢索策略時更加全面更加精確,提高查全查準(zhǔn)率。
( 2) 相關(guān)工作人員在做機(jī)構(gòu)檢索時,可以按照下述方式進(jìn)行: 與委托單位科研處溝通,獲知該機(jī)構(gòu)的正式名稱與地址,以及是否有曾用名稱、地址郵編的變化等信息,這樣在檢索之前全面了解被檢索機(jī)構(gòu)的各種信息; 充分利用數(shù)據(jù)庫不同的著錄規(guī)則去檢索,獲取到相關(guān)檢索結(jié)果并反饋給科研處; 請科研處人員確認(rèn)并發(fā)布,收集極個別的遺漏信息再單獨(dú)補(bǔ)充。這樣完成的機(jī)構(gòu)檢索就既全面又準(zhǔn)確了。
參 考 文 獻(xiàn)
[1] 張 冰。 科技期刊學(xué)術(shù)論文中作者單位名稱著錄存在問題及建議[J]. 內(nèi) 蒙 古 大 學(xué) 學(xué) 報(bào) ( 自 然 科 學(xué) 版) ,2009 ( 2) :225 - 228.
[2] 謝 群。 在 WebofScience 中準(zhǔn)確進(jìn)行中文機(jī)構(gòu)檢索的方法研究[J]. 圖書館論壇,2011( 1) : 155.
[3] 于澄潔。 EiCompendex 數(shù)據(jù)庫作者機(jī)構(gòu)檢索技巧[J]. 圖書館雜志,2010( 12) : 29 -30.
[4] [ EB/OL].webofknowledge. com/WOKRS5132R4. 2 / help.[2014 - 11 - 30].
[5] [EB/OL].[2014 - 11 -30].
[6] 孫 君,陳 陶。 提高文獻(xiàn)查全率和查準(zhǔn)率的有效途徑_省略_算符_位置算符和通配符的靈活運(yùn)用_孫君[J]. 現(xiàn)代情報(bào),2006( 10) : 167 - 169.
[7] 韓 欣,劉子忠。 ESI 計(jì)量分析數(shù)據(jù)庫的功能與科學(xué)評價---以中國地學(xué)研究機(jī)構(gòu)的科學(xué)評價為例[J]. 地質(zhì)科技情報(bào),2010( 1) : 138 - 142.
【不同數(shù)據(jù)庫中機(jī)構(gòu)檢索的檢索方法及技巧論文】相關(guān)文章:
信息檢索中的檢索詞運(yùn)用分析07-21
Internet信息檢索中的數(shù)學(xué)10-03
網(wǎng)絡(luò)信息檢索服務(wù)與分析論文09-19
實(shí)例演示在MSSQL中啟用全文檢索數(shù)據(jù)庫 -電腦資料01-01
如何從 MySQL 數(shù)據(jù)庫表中檢索數(shù)據(jù)數(shù)據(jù)庫教程 -電腦資料01-01
檢索實(shí)習(xí)目的02-08
實(shí)習(xí)檢索報(bào)告09-28
實(shí)習(xí)檢索報(bào)告12-08
信息檢索作業(yè)06-14