大模型幻覺成應用落地難題 評測顯示文心一言解決幻覺應對能力好
所在地區: | 上海-- | 發布日期: | 2023年11月16日 |
????大模型的“幻覺”問題,是其行業落地的核心挑戰之一。例如幻覺會影響生成內容的可靠性,對于法律、金融、醫療等專業要求高的領域,將難以完成實際場景任務。因此,大模型幻覺問題也被認為是制約大模型廣泛應用的一大難題。近日,復旦大學與上海人工智能實驗室構建了針對中文大模型的幻覺評測數據集HalluQA,對業界主流的大模型進行評估。
????HalluQA采用無幻覺率來評估大模型的優劣。無幻覺率越高代表模型幻覺越低,事實準確性越高。評測的24個主流大模型中包括百度文心一言ERNIE-Bot、百川Baichuan、智譜ChatGLM、阿里通義千問和GPT-4等。
???
中文大模型幻覺評測數據集HalluQA對24個主流大模型進行評測
????從評測結果來看,解決幻覺問題對大模型來說尚有困難,有18個模型的無幻覺率低于50%。在幻覺消除上,具備檢索增強能力的大模型優勢明顯,在所有模型評測中,文心一言在整體幻覺問題解決方面表現突出,排名第一,整體無幻覺率為69.33%。而GPT-4整體無幻覺率為53.11%,排名第六。
HalluQA:不同類型模型在不同類型的問題上的平均非幻覺率
????行業普遍認為,幻覺問題對于大模型在多個領域的落地都可能產生嚴重影響,包括客戶服務、金融服務、法律決策和醫療診斷等。因此解決幻覺問題越好的大模型,才具備更強的產業落地價值。
????
按照客觀、公正、公開的原則,本條信息受業主方委托獨家指定在中國建設招標網 www.howtogetridofvideos.com 發布
注冊會員 享受貼心服務
標訊查詢服務
讓您全面及時掌握全國各省市擬建、報批、立項、施工在建項目的項目信息。
幫您跟對合適的項目、找對準確的負責人、全面掌握各項目的業主單位、設計院、總包單位、施工企業的項目 經理、項目負責人的詳細聯系方式。
幫您第一時間獲得全國項目業主、招標代理公司和政府采購中心發布的招標、中標項目信息。
標訊定制服務
根據您的關注重點定制項目,從海量項目中篩選出符合您要求和標準的工程并及時找出關鍵負責人和聯系方式。
根據您的需要,向您指定的手機、電子郵箱及時反饋項目進展情況。