準(zhǔn)確率與人類專家相近
科技日報北京2月4日電 (記者張夢然)《自然》4日報道了一個開源語言模型“OpenScholar”,其在準(zhǔn)確進行文獻綜述方面可超越商用大語言模型。比如,在該研究開展的實驗中,GPT4o會在78%至90%的情況下出現(xiàn)引文幻覺,而“OpenScholar”的引文準(zhǔn)確率卻與人類專家相近。雖然仍需進一步優(yōu)化,但該工具有望幫助科學(xué)家處理復(fù)雜且日益繁重的科學(xué)文獻綜述任務(wù)。
科學(xué)文獻綜述對于支持循證決策、微調(diào)科學(xué)過程和引導(dǎo)新發(fā)現(xiàn)都很重要。然而,文獻發(fā)表數(shù)量的增長使研究人員很難掌握全部資訊。商用大語言模型可以提供協(xié)助,但卻很容易出錯,如歸因能力有限和引文幻覺。
為了生成準(zhǔn)確、全面、透明的科學(xué)文獻綜述,美國華盛頓大學(xué)團隊推出了“OpenScholar”。該模型是專為科研任務(wù)設(shè)計的檢索增強語言模型。其他系統(tǒng)也用過這個框架,但研究團隊將其與一個包含4500萬篇最新開放獲取科研論文的專業(yè)數(shù)據(jù)庫以及一個自我評估機制相結(jié)合,從而優(yōu)化了其輸出。
研究團隊還創(chuàng)建了名為“ScholarQABench”的基準(zhǔn)工具來評估文獻綜述的自動化。測試顯示,“OpenScholar”的準(zhǔn)確率比GPT4o和PaperQA2(一個文獻綜述工具)這類現(xiàn)有系統(tǒng)分別高出6.1%和5.5%。此外,“OpenScholar”生成的答案,在50%到70%的情況下比專家注釋器的答案更有用。
團隊總結(jié)道,以上結(jié)果和引文幻覺大幅下降證明了“OpenScholar”有望支持和推動進一步研究工作。但他們指出,該系統(tǒng)仍有局限性并強調(diào)基于語言模型的系統(tǒng)無法使科學(xué)文獻綜述完全自動化。他們向?qū)W界同時開放“ScholarQABench”和“OpenScholar”,以鼓勵進一步研究和優(yōu)化。
【總編輯圈點】
科研人員每天尋找有用的論文,相當(dāng)于在信息的“海洋”里撈“珍珠”。但現(xiàn)在海水暴漲,真正有用之物和以假亂真之物一起浮上了水面。以前大家用的是通用的“萬能撈網(wǎng)”,比如GPT。但它的網(wǎng)眼太大,撈上來的有可能是“塑料珠子”,也就是假的或錯誤的引文,需花大量時間去挑,還可能會被誤導(dǎo)。本文中的“OpenScholar”,是一個專門為這片科學(xué)海洋設(shè)計的網(wǎng)。它不追求萬能,而追求可靠,而且所有科學(xué)家都能一起改進這個工具,讓它更準(zhǔn)確。這有望把科研人員從繁瑣、易錯的文獻苦海中部分解放出來,讓他們能把寶貴精力用在真正的思考和發(fā)現(xiàn)上。這正是科學(xué)工具走向可信化的重要一步。