首頁 >> 科研成果

基于大數據智能化處理的情報挖掘系統研究及應用

湖南省科技信息研究所 www.hninfo.org.cn     时间:2019月03月20日   [字体: ]

成果名稱:基于大數據智能化處理的情報挖掘系統研究及應用

成果簡介:

大数据时代,决策环境发生巨大变化,庞大而复杂的数据考验着情报系统的技术体系结构和数据处理能力。本项目面向科技情报研究人员与科技情報服務机构,提出基于大数据智能处理的情报判读理论、方法,运用人工智能等技术开发辅助情报判读的情报挖掘系统,并在科技情报工作中得到系统的应用,实现了基于科研项目、论文、企业年报、网页媒体报道等大数据的科技情报自动采集、抽取、分析以及自动生成报告,通过固化专家思路和直接展示判读点信息的方法,使情報生産從基于個人能力的生産發展成專家與情報人員協同的標准化生産,改變了情報生産方式,建立了基于情報生産線的情報工作體系。

主要技術內容:一是從理論上提出大數據環境下情報的核心是判讀;情報判讀的目的是通過發現並跟蹤領域關鍵人物、重要機構和熱點主題,對領域發展可能的判讀點做出判斷;提出包括科研項目、學術論文、技術專利、企業年報、媒體報道等情報判讀信息要素結構框架,爲情報判讀的規範化作業提供理論與方法上的支持。二是以情報判讀任務需要爲導向,從一般情報判讀思維和特點出發,充分發揮判讀人員知識、經驗和主觀能動作用,綜合專業領域知識、情報學方法與信息技術等多學科領域的優勢,研究開發用于情報判讀的基于大數據智能化處理的情報挖掘群系統,具體包括基于科研項目、學術論文、專利、企業年報以及網頁媒體報道共5 個情報挖掘子系統。三是從湖南省科技信息研究所産業競爭情報判讀標志建立、子系統功能應用到群系統功能應用三個層次,研究制定了情報挖掘系統在不同情報判讀任務類型中的應用方法與技術流程。

知識産權情況:取得計算機軟件著作權10 項,著作2 本,論文12 篇(含人大複印資料全文收錄一篇)。

技術經濟指標:該成果建立的發達國家重大科研項目和《財富》500 強企業年報關系型數據庫和全文數據庫,GB 級數據全文檢索響應在毫秒之內;建立的中文科技詞庫收錄科技詞彙382 萬,覆蓋科技情報工作的全部領域和所有專業;中文學術論文數據覆蓋率達98%以上,論文題錄數據抓取工具響應速度爲500 毫秒,1 小時平均抓取2000 篇論文,科技詞條分析工具處理速度5 分鍾,平均1 篇論文需要10 毫秒;學術研究情報挖掘描述准確率達95%以上;學術研究概貌描述情報報告完成效率較以前平均提升50%。網頁信息情報挖掘系統響應速度爲500 毫秒,1 小時平均抓取20000 條互聯網文本信息,網絡文本信息實體解析速度9 分鍾,平均1 條文本信息需要27 毫秒;聚類精度達98%

應用推廣及效率情況:該成果在廣西有色金屬集團彙元錳業有限公司、中車株洲所研究院産經中心、楚天科技股份有限公司等正式使用,取得良好應用口碑,同時,該成果有效推動了湖南省産業競爭情報研究體系地不斷完善,提升了企業技術創新能力,推動了湖南省經濟建設。除此之外,該成果還在北京、浙江、河北、甯夏、山東省、廣西等10 多個省市級科技情報機構開展推廣應用,提高了科技情報事業的信息化水平,推動了科技情報挖掘分析的自動化。