近期,中國科學院計算機網(wǎng)絡信息中心人工智能部和物理研究所SF10組合作,通過使用來自400多萬篇論文中提取的35675個無機材料固相反應合成過程,將數(shù)據(jù)處理為13878條高可信度的合成路徑描述數(shù)據(jù),并對開源大語言模型LLaMA2-7B進行微調(diào)訓練,研發(fā)了專注于無機材料合成路徑預測任務的大語言模型——MatChat(http://chat.aicnic.cn/onchat)。目前,該模型已上線運行并開放使用。
材料合成路徑預測是物質(zhì)科學領域的重要課題。近年來,大語言模型的崛起以及預訓練-微調(diào)方法的應用,使得通用大語言模型的理解能力在各垂直領域展現(xiàn)出潛力,但在材料領域缺乏相關的應用和研究。 該模型基本具備材料合成領域知識的生成和推理能力。經(jīng)實驗驗證,該模型在預測合成復雜的無機材料時,具備超過ChatGPT的性能表現(xiàn)。受限于數(shù)據(jù)集的數(shù)量和質(zhì)量,該成果仍需要更多的語料以滿足不同材料設計的需求,但展現(xiàn)出大模型在材料領域的創(chuàng)新潛力和應用空間,為材料研究和創(chuàng)新帶來了新的啟發(fā)和思路。
|