紅色檔案是賡續紅色血脈的生動教材,追尋檔案里的紅色記憶是檔案工作者的重要職責和神圣使命。近日,某檔案館接到有關單位咨詢,希望查找轄區內“某小學向偉人紀念堂敬獻雨花石”這一事件的相關檔案。如果放在以往,檔案館的工作人員恐怕要犯難——原有檢索系統是通過全宗號、文件題名、檔號等字段檢索的,如果上述具體信息都缺少,查詢者光模糊知道事件概況,恐怕無法準確檢索出相關內容。
或許乍聞之下難以理解——按平時用互聯網搜索引擎的經驗,只要知道事件的幾個模糊關鍵詞,比如“偉人”“雨花石”,多少可以搜索出一些關聯結果。我們日常早已用習慣的各大網絡搜索引擎,之所以能做到模糊檢索,建立在龐大研發團隊和技術支撐的雙重投入基礎上,作為使用者的我們,其實是“站在了巨人的肩膀上”。然而,利用關鍵詞搜索的檔案檢索系統卻做不到那么“高級”。打個比方,即使我們找尋的目標檔案題名里含有“偉人”和“雨花石”原詞,在利用關鍵詞搜索的檔案檢索系統里輸入“偉人 雨花石”,也很難搜出該檔案。
之所以會出現這個結果,簡而言之,是因為計算機系統和人腦處理信息的方式并不一樣。當我們看到“偉人 雨花石”時,基于多年受教育經歷和生活經驗,大腦判斷這是5個字、2個詞,即“‘偉人’和‘雨花石’”。但是同樣“偉人 雨花石”被輸入系統檢索框后,在計算機“看來”,這是6個字符,即“偉”“人”“(空格)”“雨”“花”“石”。至于什么是“詞”,它并“不懂”。除非我們要尋找的檔案題名里一字不差地含有“偉人(空格)雨花石”,即使題名是“向偉人紀念堂敬獻雨花石”也極難找到。一個字都不能多、不能少,如果包含符號,那半角全角必須一模一樣……關鍵詞檢索就是這么“較真”和“呆板”,如果查檔者沒有精確掌握全宗號、文件題名、檔號,很可能一無所獲。
今年,“反轉”來了,為了更好、更快、更便捷服務民眾的查檔需求,不斷提升檔案服務信息化水平,該檔案館和國家高新技術企業聯著實業建立合作,開始試用基于人工智能語義分析的檔案智能語義搜索服務系統。利用這個系統,機器做起檔案檢索就仿佛裝上了“大腦”和“眼睛”。
在檔案智能語義搜索服務系統中輸入“偉人”“雨花石”,通過語義技術的加持,新系統能“看懂”這是2個有意義的詞,而不是一堆毫無意義的字符。尤其值得一提的是,與原系統只能檢索題名不同,新系統支持全文檢索,哪怕題名里不含“偉人”“雨花石”,只要全文里出現過,就能找到。于是,毫無意外地,新系統瞬間就在搜索結果第一的位置準確顯示出題名為《雨花石獻給紀念堂》的目標檔案。
該檔案來源于1977年的地區簡報,詳細敘述了某小學向偉人紀念堂敬獻雨花石并被《光明日報》報道的事跡。該份館藏檔案的檢出,不僅滿足了有關單位的檢索需求,提供紅色史料信息,同時也彌補了某小學無此檔案的空缺。
此外,在不確定歸檔時間的前提下,新系統還可通過模糊線索全庫匹配定位目標文件,輸入檔案所屬單位名稱,就能迅速找到所有涉及該單位的文件。例如,利用新系統的快速搜索,該檔案館幫助某集團準確查詢到下屬四家子公司成立、改制的目標文件,極大地提升了查檔命中率和準確率。
不僅如此,由于該館現存近現代檔案資源豐富,不少老檔案原件出自手寫,涵蓋楷書、草書、行書等多種字體。試水新系統后,利用自主研發的OCR技術,機器全文檢索時可識別包含潦草筆跡在內的各類軟硬筆手寫體,如同“人眼”一般工作,破解手寫檔案開發利用難題,提升識別率和精準度。
通過檔案智能語義搜索服務系統的試運營,該檔案館檔案服務信息化能力進一步升級,來館查檔群眾獲得感更強,充分發揮了檔案資源服務民生、服務社會的積極作用。