欧美日韩在线高清视频 I 韩国18禁啪啪无遮挡免费 I 国产系列丝袜熟女精品视频 I 夜夜干夜夜操 I 在线观看的av网站 I www.av蜜桃 I 毛片新网址 I 成年人免费观看毛片 I 国产精品久久国产精品99 gif I 欧美一级三级 I 久久久久久久久18久久久 I www黄色com I 少妇富婆一区二区三区夜夜 I 欧美伊人久久大香线蕉综合 I 国产在线不卡视频免费视频 I 色情无码一区二区三区 I 狠狠操狠狠干狠狠爱 I 成人乱淫av日日摸夜夜爽节目 I 日日插日日操 I 国产精品自产拍在线观看55亚洲 I 午夜草草 I 日韩午夜网站 I 成人免费淫片视频软件 I 国产情侣一区二区 I 精品国产一区二区三区四区四 I 国产乱理伦片在线观看 I 国产精品乱子伦xxxx裸 I 在线观看亚洲欧美 I 国语a在线看免费观看视频 I 免费国产污网站在线观看15

您的位置:首頁 >觀察 > 正文

焦點訊息:AI考生今日抵達,商湯與上海AI實驗室等發布“書生·浦語”大模型

隨著AI大語言模型越來越多地表現出接近人類智能,面向人類設計的高難度、綜合性考試被越來越多地引入到對語言模型的智能水平進行評測。OpenAI 在其關于 GPT-4 的技術報告中就主要通過各領域的考試對模型能力進行檢驗。

2023年高考今日開考,中文大語言模型是否能夠在高考中趕超ChatGPT呢?

綜合“大考”:“書生·浦語”多項成績領先于 ChatGPT


【資料圖】

近日,商湯科技、上海AI實驗室聯合香港中文大學、復旦大學及上海交通大學發布千億級參數大語言模型“書生·浦語”(InternLM)。

“書生·浦語”具有1040億參數,是在包含1.6萬億token的多語種高質量數據集上訓練而成。

全面評測結果顯示,“書生·浦語”不僅在知識掌握、閱讀理解、數學推理、多語翻譯等多個測試任務上表現優秀,而且具備很強的綜合能力,因而在綜合性考試中表現突出,在多項中文考試中取得超越ChatGPT的成績,其中就包括中國高考各個科目的數據集(GaoKao)。

“書生·浦語”聯合團隊選取了20余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集:

由伯克利加州大學等高校構建的多任務考試評測集MMLU;

微軟研究院推出的學科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等);

由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval;

以及由復旦大學研究團隊構建的高考題目評測集Gaokao;

實驗室聯合團隊對“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進行了全面測試,針對上述四個評測集的成績對比如下(滿分100分)。

“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學術開源模型,還在AGIEval、C-Eval,以及Gaokao等多個綜合性考試中領先于ChatGPT;在以美國考試為主的MMLU上實現和ChatGPT持平。這些綜合性考試的成績反映出“書生·浦語”扎實的知識掌握程度和優秀的綜合能力。

雖然 “書生·浦語”在考試評測上取得優秀成績,但在測評中也可以看到,大語言模型仍然存在不少能力局限性。“書生·浦語” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K),在長文理解、復雜推理、撰寫代碼以及數理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題。這些局限使得大語言模型在開放場景中的使用還有很長的路要走。

四個綜合性考試評測數據集結果

MMLU是由伯克利加州大學(UC Berkeley)聯合哥倫比亞大學、芝加哥大學和UIUC共同構建的多任務考試評測集,涵蓋了初等數學、物理、化學、計算機科學、美國歷史、法律、經濟、外交等多個學科。

細分科目結果如下表所示。

(圖中粗體表示結果最佳,下劃線表示結果第二)

AGIEval是由微軟研究院在今年新提出的學科考試評測集,主要目標是通過面向的考試來評估語言模型的能力,從而實現模型智能和人類智能的對比。

這個評測集基于中國和美國各類考試構建了19個評測大項,包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是,在這19個大項有9個大項是中國高考,通常也列為一個重要的評測子集 AGIEval (GK)。

下列表格中,帶GK的是中國高考科目。

(圖中粗體表示結果最佳,下劃線表示結果第二)

C-Eval是由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集。

它包含了52個科目的近14000道考題,涵蓋數學、物理、化學、生物、歷史、政治、計算機等學科考試,以及面向公務員、注冊會計師、律師、醫生的職業考試。

測試結果可以通過leaderboard獲得。

Gaokao是由復旦大學研究團隊構建的基于中國高考題目的綜合性考試評測集,包含了中國高考的各個科目,以及選擇、填空、問答等多種題型。

在GaoKao測評中,“書生·浦語”在超過75%的項目中均領先ChatGPT。

分項評測:閱讀理解、推理能力表現出色

為避免“偏科”,研究人員還通過多個學術評測集,對“書生·浦語”等語言模型的分項能力進行了評測對比。

結果顯示,“書生·浦語”不僅在中英文的閱讀理解方面表現突出,并且在數學推理、編程能力等評測中也取得較好成績。

知識問答方面,“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項評測上得分為69.8和27.6,均超越LLaMA-65B(得分為68.2和23.8)。

閱讀理解(英語)方面,“書生·浦語”明顯領先于LLaMA-65B和ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9,ChatGPT得分為 85.6 和81.2,LLaMA-65B則更低。

中文理解方面,“書生·浦語”成績全面超越主要的兩個中文語言模型ERNIE-260B和GLM-130B。

多語翻譯方面,“書生·浦語”在多語種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。

數學推理方面,“書生·浦語”在GSM8K和MATH這兩項被廣泛用于評測的數學考試中,分別取得62.9和14.9的得分,明顯領先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。

編程能力方面,“書生·浦語”在HumanEval和MBPP這兩項最具代表性的考評中,分別取得28.1和41.4的得分(其中經過在代碼領域的微調后,在HumanEval上的得分可以提升至45.7),明顯領先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。

此外,研究人員還對“書生·浦語”的安全性進行評測,在TruthfulQA(主要評價回答的事實準確性) 以及CrowS-Pairs(主要評價回答是否含有偏見)上,“書生·浦語”均達到領先水平。

(以上圖片由商湯科技授權中國網財經使用)

關鍵詞

熱門資訊

主站蜘蛛池模板: av片一区二区三区 | 久久精品国产2020观看福利 | 少妇放荡的呻吟干柴烈火免费视频 | 国产精品嫩草影视 | 黄色成人一级片 | 亚洲精品自偷自拍无码 | 久久综合热 | 国产片久久 | 免费久久网站 | 午夜色区| 中文字幕亚洲码在线 | 午夜福利在线观看6080 | 日本不卡一区在线观看 | 国产亚洲精久久久久久无码 | 欧美真人作爱免费视频 | 国产精品jk白丝在线播放 | 免费无码黄真人影片在线 | 久9视频这里只有精品试看 日本高清视频网站www | 夜夜草天天干 | 一本一道久久a久久精品综合蜜臀 | 免费1级做爰片1000部视频 | av午夜影院 | 国产黄色aaa | 国产精品麻豆成人av网 | 搡少妇在线视频中文字幕 | 男人女人一边躁一边爽视频 | 欧美人体做爰大胆视频 | 黄色片网站日本 | mm131国产精品 | 麻花传媒mv国产免费观看视频 | 一级免费毛片 | 熟女少妇a性色生活片毛片 精品一区二区精品 | av色欲无码人妻中文字幕 | 女人18毛片水最多 | 五月天丁香网 | 丝袜一区二区三区在线播放 | 国产精品99久久久久久成人四虎 | 看色片网站| 国产又黄又爽又色的免费视频 | 午夜免费网址 | 亚洲丁香| 国产综合有码无码视频在线 | 日韩欧群交p片内射中文 | 高清无码一区二区在线观看吞精 | 丁香五精品蜜臀久久久久99网站 | 亚洲视频在线观看视频 | 超碰免费网站 | 国产午夜福利精品久久不卡 | 亚欧美一区二区 | 国产精品久久久久一区二区 | 狠狠色丁香婷婷综合久久小说 | 国产精品主播在线 | 一区二区亚洲精品国产片 | 又色又爽的视频 | 少妇嘿咻做爰吃奶摸视频网站 | 精品国产一区在线 | 狠狠v欧美ⅴ日韩v亚洲v大胸 | 香蕉av网| 激情自拍av | 青青操免费在线观看 | 97碰碰碰免费公开在线视频 | 成人午夜在线播放 | 无码av免费毛片一区二区 | 国产精品久久免费 | 欧美色综合色 | 亚洲 另类 春色 国产 | 国产精品国产三级国产专区52 | 国产香蕉尹人在线视频你看看 | 国产成人小说视频在线观看 | 久久99综合 | 动漫三级 | 岛国片免费在线观看 | 2019亚洲日韩新视频 | 九色porny丨首页在线 | 亚洲欧美福利 | 蜜臀av性久久久久蜜臀aⅴ四虎 | 果冻传媒剧国产剧情mv在线 | 国产精品亚洲精品日韩己满十八小 | 欧美专区亚洲专区 | 中文字幕在线亚洲 | 中文字幕一二三区芒果 | 国产成人一区二区三区app | 亚洲国产成人久久一区 | 强被迫伦姧惨叫人妻系列 | 日韩中文字幕免费看 | 欧美日本在线 | 日本中文字幕第一页 | 午夜在线精品偷拍 | 亚洲精品久久激情国产片 | 国产 字幕 制服 中文 在线 | 日韩国产精品无码一区二区三区 | 一级视频在线播放 | 成年人网站免费视频 | 久久人搡人人玩人妻精品 | 艳妇乳肉豪妇荡乳流白浆 | 成年站免费网站看v片在线 久久成人人人人精品欧 | 欧美一区二区三区激情啪啪 | 久久久久国产成人免费精品免费 | 各类熟女熟妇真实视频 |