中建工程申請一種基於大語言模型的文檔標籤生成方法專利,實現優質文檔標籤篩選

金融界2024年12月9日消息,國家知識產權局信息顯示,中建工程產業技術研究院有限公司申請一項名爲“一種基於大語言模型的文檔標籤生成方法”的專利,公開號CN 119089873 A,申請日期爲2024年6月。

專利摘要顯示,本發明針對建築行業不同類型海量文檔的標籤生成問題,提出了一種基於大語言模型的文檔標籤生成方法。包括文檔預處理,全量文本分詞處理,以及大語言模型調優生成。其中,大語言模型調優生成包括大語言模型標籤生成和基於生成標籤的綜合篩選;所述大語言模型標籤生成,將分詞處理後的M個段落組成的全文向量輸入到大語言模型中,結合提示詞模板、用戶定義輸入內容,每段生成K個標籤,全文生成M×K個標籤;所述基於生成標籤的綜合篩選,通過對標籤在全文中出現的次數與標籤出現的位置進行綜合評估,最終實現了標籤的優質篩選。

本文源自:金融界

作者:情報員