植物志書中記載了植物的分類信息、描述信息、分布信息和用途信息等,由于植物的描述信息、分布信息和用途信息主要以非結構化的文本內容為主,因此傳統檢索植物志的方法主要是按結構化程度較高的植物分類信息進行檢索,如:輸入植物的中文名稱或拉丁名稱檢索植物的信息(中國植物物種信息數據庫,https://db.kib.ac.cn/Default.aspx)。
大語言模型經過多年的快速發展,其對自然語言的處理能力已非常成熟,但使用通用大語言模型查詢植物的相關信息時依然會出現幻覺(如圖1,使用DeepSeek問了一個并不存在的物種拉丁名Arachis cuspidata),其原因主要是由于通用大語言模型是基于概率計算生成文本答案。
圖1DeepSeek出現幻覺示例
如何實現以自然語言的方式對植物志進行檢索并降低通用大語言模型出現幻覺的概率呢?中國科學院昆明植物研究所科學數據中心基于大語言模型、數據庫、知識圖譜和知識庫等技術,通過對植物志數據進行結構化提取、組織加工、圖譜構建和知識向量化,構建了結構化的關系型數據庫、基于知識圖譜的圖數據庫和向量化知識庫,從而研發實現基于大語言模型技術和數據融合的中國植物志/云南植物志問答系統(如圖2,http://agent.iflora.cn:8080),相對于傳統的檢索植物志方法,本問答系統具有更靈活的檢索方式,如可輸入任意自然語言進行檢索植物信息,且相對于通用大語言模型具有更高的準確性。
圖2中國植物志/云南植物志問答系統
該項工作得到了云南省技術創新人才培養對象和中國科學院昆明植物研究所所級中心能力建設等項目的支持。
版權聲明: 1.依據《服務條款》,本網頁發布的原創作品,版權歸發布者(即注冊用戶)所有;本網頁發布的轉載作品,由發布者按照互聯網精神進行分享,遵守相關法律法規,無商業獲利行為,無版權糾紛。 2.本網頁是第三方信息存儲空間,阿酷公司是網絡服務提供者,服務對象為注冊用戶。該項服務免費,阿酷公司不向注冊用戶收取任何費用。 名稱:阿酷(北京)科技發展有限公司 聯系人:李女士,QQ468780427 網絡地址:www.arkoo.com 3.本網頁參與各方的所有行為,完全遵守《信息網絡傳播權保護條例》。如有侵權行為,請權利人通知阿酷公司,阿酷公司將根據本條例第二十二條規定刪除侵權作品。 |