科技日報記者 金鳳
1月13日,記者從南京農(nóng)業(yè)大學(xué)(以下簡稱南農(nóng))獲悉,該校主導(dǎo)研發(fā)出國內(nèi)首個面向通用農(nóng)業(yè)領(lǐng)域的開源垂直大語言模型“司農(nóng)”。這標(biāo)志著南農(nóng)在農(nóng)業(yè)領(lǐng)域的人工智能基礎(chǔ)模型研究與應(yīng)用取得新突破。
據(jù)悉,研究團隊依托南農(nóng)學(xué)科優(yōu)勢,收集了包括動物科學(xué)、農(nóng)業(yè)經(jīng)濟管理、農(nóng)業(yè)資源與環(huán)境、園藝學(xué)、智慧農(nóng)業(yè)、動物醫(yī)學(xué)、植物保護、作物育種等學(xué)科數(shù)據(jù),涵蓋了近9000冊書籍、24萬余篇學(xué)術(shù)論文和近2萬份政策、標(biāo)準(zhǔn),構(gòu)建了體系相對完整的農(nóng)業(yè)基礎(chǔ)數(shù)據(jù)集。
針對大語言模型在專業(yè)領(lǐng)域應(yīng)用中常見的“幻覺問題”和知識滯后性,團隊在模型訓(xùn)練階段,除微調(diào)傳統(tǒng)指令外,還引入了思維鏈和上下文參考等多維訓(xùn)練數(shù)據(jù),顯著提升了模型對于農(nóng)業(yè)專業(yè)知識的理解與生成能力。
針對文獻知識利用效率問題,團隊推出多智能體檢索增強框架。該框架通過優(yōu)化知識庫構(gòu)建、智能查詢改寫、混合檢索等策略,使模型能夠精準(zhǔn)調(diào)用專業(yè)知識,有效保障了生成內(nèi)容的準(zhǔn)確性與時效性。
目前,司農(nóng)大語言模型已在魔塔社區(qū)和GitHub社區(qū)全面開源,發(fā)布了8B和32B兩種參數(shù)規(guī)模的版本。這一開源開放策略,旨在降低農(nóng)業(yè)AI應(yīng)用門檻,助力廣大科研機構(gòu)、企業(yè)和開發(fā)者基于司農(nóng)大語言模型進行二次開發(fā)與創(chuàng)新應(yīng)用,共同培育智慧農(nóng)業(yè)的應(yīng)用生態(tài)。