最資訊丨百川智能發(fā)布 70 億參數(shù)量開源中英文大模型
王小川的大模型,首次公開亮相。
2023 年 6 月 15 日,被稱為「中國(guó) ChatGPT 夢(mèng)之隊(duì)」的百川智能公司,推出了 70 億參數(shù)量的中英文預(yù)訓(xùn)練大模型—— baichuan-7B。
(資料圖片僅供參考)
baichuan-7B 不僅在 C-Eval、AGIEval 和 Gaokao 中文權(quán)威評(píng)測(cè)榜單上,以顯著優(yōu)勢(shì)全面超過了 ChatGLM-6B 等其他大模型,并且在 MMLU 英文權(quán)威評(píng)測(cè)榜單上,大幅領(lǐng)先 LLaMA-7B。
目前 baichuan-7B 大模型已在 Hugging Face、Github 以及 Model Scope 平臺(tái)發(fā)布。
多個(gè)最具影響力中文評(píng)估基準(zhǔn) 7B 最佳
為了驗(yàn)證模型的各項(xiàng)能力,baichuan-7B 在 C-Eval、AGIEval 和 Gaokao 三個(gè)最具影響力的中文評(píng)估基準(zhǔn)進(jìn)行了綜合評(píng)估,并且均獲得了優(yōu)異成績(jī)。
在中文 C-EVAL 的評(píng)測(cè)中,baichuan-7B 的綜合評(píng)分達(dá)到了 42.8 分,超過了 ChatGLM-6B 的 38.9 分,甚至比某些參數(shù)規(guī)模更大的模型還要出色。
C-EVAL 評(píng)測(cè)截圖,時(shí)間為 2023-06-15C-Eval 評(píng)測(cè)基準(zhǔn)由上海交通大學(xué)、清華大學(xué)以及愛丁堡大學(xué)聯(lián)合創(chuàng)建,是面向中文語(yǔ)言模型的綜合考試評(píng)測(cè)集,覆蓋了 52 個(gè)來自不同行業(yè)領(lǐng)域的學(xué)科。
在 AGIEval 的評(píng)測(cè)里,baichuan-7B 綜合評(píng)分達(dá)到 34.4 分,遠(yuǎn)超 LLaMa-7B、Falcon-7B、Bloom-7B 以及 ChatGLM-6B 等其他開源模型。
AGIEval 評(píng)測(cè)基準(zhǔn)由微軟研究院發(fā)起,旨在全面評(píng)估基礎(chǔ)模型在人類認(rèn)知和問題解決相關(guān)任務(wù)上的能力,包含了中國(guó)的高考、司法考試,以及美國(guó)的 SAT、LSAT、GRE 和 GMAT 等 20 個(gè)公開且嚴(yán)謹(jǐn)?shù)墓俜饺雽W(xué)和職業(yè)資格考試。
在 GAOKAO 評(píng)測(cè)中,baichuan-7B 的綜合評(píng)分達(dá)到了 36.2 分,顯著領(lǐng)先于同參數(shù)規(guī)模的各種其他預(yù)訓(xùn)練模型。
GAOKAO 評(píng)測(cè)基準(zhǔn)是復(fù)旦大學(xué)研究團(tuán)隊(duì)創(chuàng)建的評(píng)測(cè)框架,以中國(guó)高考題目作為數(shù)據(jù)集,用于測(cè)試大模型在中文語(yǔ)言理解和邏輯推理能力方面的表現(xiàn)。
MMLU 英文評(píng)估基準(zhǔn)表現(xiàn)大幅領(lǐng)先 LLaMA-7B
baichuan-7B 不僅在中文方面表現(xiàn)優(yōu)異,在英文上表現(xiàn)同樣亮眼。在 MMLU 的評(píng)測(cè)中 baichuan-7B 綜合評(píng)分高達(dá) 42.5 分,大幅領(lǐng)先英文開源預(yù)訓(xùn)練模型 LLaMA-7B 的 34.2 分以及中文開源模型 ChatGLM-6B 的 36.9 分。
MMLU 由加州大學(xué)伯克利分校等知名高校共同打造,集合了科學(xué)、工程、數(shù)學(xué)、人文、社會(huì)科學(xué)等領(lǐng)域的 57 個(gè)科目,主要目標(biāo)是對(duì)模型的英文跨學(xué)科專業(yè)能力進(jìn)行深入測(cè)試。其內(nèi)容廣泛,從初級(jí)水平一直涵蓋到高級(jí)專業(yè)水平。萬(wàn)億優(yōu)質(zhì)數(shù)據(jù)、4K 上下文窗口、高效穩(wěn)定訓(xùn)練造就領(lǐng)先 7B 預(yù)訓(xùn)練模型
訓(xùn)練語(yǔ)料對(duì)大模型的訓(xùn)練結(jié)果至關(guān)重要。在構(gòu)建預(yù)訓(xùn)練語(yǔ)料庫(kù)方面,百川智能以高質(zhì)量中文語(yǔ)料為基礎(chǔ),同時(shí)融合了優(yōu)質(zhì)的英文數(shù)據(jù)。在數(shù)據(jù)質(zhì)量方面,通過質(zhì)量模型對(duì)數(shù)據(jù)進(jìn)行打分,對(duì)原始數(shù)據(jù)集進(jìn)行篇章級(jí)和句子級(jí)的精確篩選;在內(nèi)容多樣性方面,利用自研超大規(guī)模局部敏感哈希聚類系統(tǒng)和語(yǔ)義聚類系統(tǒng),對(duì)數(shù)據(jù)進(jìn)行了多層次多粒度的聚類,最終構(gòu)建了包含 1.2 萬(wàn)億 token 的兼顧質(zhì)量和多樣性的預(yù)訓(xùn)練數(shù)據(jù)。相較于其他同參數(shù)規(guī)模的開源中文預(yù)訓(xùn)練模型,數(shù)據(jù)量提高了超過 50%。
在萬(wàn)億優(yōu)質(zhì)中英文數(shù)據(jù)的基礎(chǔ)上,為了更好地提升訓(xùn)練效率,baichuan-7B 深度整合了模型算子來加快計(jì)算流程,并針對(duì)任務(wù)負(fù)載和集群配置,自適應(yīng)優(yōu)化了模型并行策略以及重計(jì)算策略。通過高效的訓(xùn)練過程調(diào)度通信,baichuan-7B 成功地實(shí)現(xiàn)了計(jì)算與通信的高效重疊,進(jìn)而達(dá)到了超線性的訓(xùn)練加速,在千卡集群上訓(xùn)練吞吐達(dá)到 180+Tflops 的業(yè)界領(lǐng)先水平。
同時(shí),已有的開源模型窗口長(zhǎng)度在 2K 以內(nèi),對(duì)于一些長(zhǎng)文本建模任務(wù),如需要引入外部知識(shí)做搜索增強(qiáng)的場(chǎng)景,更長(zhǎng)的處理長(zhǎng)度有助于模型在訓(xùn)練與推理階段捕獲越多的上下文信息,2K 的處理長(zhǎng)度存在比較大的制約。baichuan-7B 基于高效的 attention 算子優(yōu)化實(shí)現(xiàn)了萬(wàn)級(jí)別超長(zhǎng)動(dòng)態(tài)窗口的擴(kuò)張能力,本次開源的預(yù)訓(xùn)練模型開放了 4K 上下文窗口,使模型應(yīng)用場(chǎng)景更加廣泛。
此外,baichuan-7B 還對(duì)模型訓(xùn)練流程進(jìn)行了深度優(yōu)化,采用了更科學(xué)且穩(wěn)定的訓(xùn)練流程和超參數(shù)選擇,使得 baichuan-7B 模型的收斂速度大大提升。與同等參數(shù)規(guī)模的模型相比,baichuan-7B 在困惑度(PPL)和訓(xùn)練損失(training loss)等關(guān)鍵性能指標(biāo)上表現(xiàn)更加優(yōu)秀。
免費(fèi)可商用,清華北大率先使用助力研究
秉持開源精神,baichuan-7B 代碼采用 Apache-2.0 協(xié)議,模型權(quán)重采用了免費(fèi)商用協(xié)議,只需進(jìn)行簡(jiǎn)單登記即可免費(fèi)商用。
baichuan-7B 此次開源的內(nèi)容十分豐富,包含了推理代碼、INT4 量化實(shí)現(xiàn)、微調(diào)代碼,以及預(yù)訓(xùn)練模型的權(quán)重。其中,微調(diào)代碼方便用戶對(duì)模型進(jìn)行調(diào)整和優(yōu)化;推理代碼與 INT4 量化實(shí)現(xiàn)則有助于開發(fā)者低成本地進(jìn)行模型的部署和應(yīng)用;預(yù)訓(xùn)練模型權(quán)重開源后,用戶則可以直接使用預(yù)訓(xùn)練模型進(jìn)行各種實(shí)驗(yàn)研究。
據(jù)了解,北京大學(xué)和清華大學(xué)兩所頂尖大學(xué)已率先使用 baichuan-7B 模型推進(jìn)相關(guān)研究工作,并計(jì)劃在未來與百川智能深入合作,共同推動(dòng) baichuan-7B 模型的應(yīng)用和發(fā)展。
清華大學(xué)互聯(lián)網(wǎng)司法研究院院長(zhǎng)、計(jì)算機(jī)系教授劉奕群認(rèn)為,baichuan-7B 模型在中文上的效果表現(xiàn)十分出色,它免費(fèi)商用的開源方式展現(xiàn)出開放的態(tài)度,不僅貢獻(xiàn)社區(qū),也推動(dòng)技術(shù)發(fā)展。團(tuán)隊(duì)計(jì)劃基于 baichuan-7B 模型開展司法人工智能領(lǐng)域的相關(guān)研究。
北京大學(xué)人工智能研究院助理教授楊耀東認(rèn)為,baichuan-7B 模型的開源將對(duì)于中文基礎(chǔ)語(yǔ)言模型的生態(tài)建設(shè)及學(xué)術(shù)研究產(chǎn)生重要推動(dòng)作用,同時(shí)他也表示將持續(xù)關(guān)注相關(guān)領(lǐng)域探索,并且在中文大語(yǔ)言模型的安全和對(duì)齊上進(jìn)行進(jìn)一步深入研究。
百川智能 CEO 王小川表示:「本次開源模型的發(fā)布是百川智能成立 2 個(gè)月后的第一個(gè)里程碑,對(duì)百川智能而言是一個(gè)良好的開局。baichuan-7B 模型,不僅能為中國(guó)的 AGI 事業(yè)添磚加瓦,也為世界大模型開源社區(qū)貢獻(xiàn)了新的力量?!?/p>
開源地址:
Hugging Face:https://huggingface.co/baichuan-inc/baichuan-7B
Github:https://github.com/baichuan-inc/baichuan-7B
Model Scope:https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary
標(biāo)簽:
搶先讀
- 天天熱點(diǎn)評(píng)!涼山彝族火把節(jié)將于7月20日至8月30日舉行
- 湖州超鈉新能源科技有限公司完成A輪融資
- 家庭圖書館:讓讀書從“一時(shí)間的熱度”變成學(xué)生“一輩子的厚度”
- 36.2億元!保利逼退中海拿下北京石景山廣寧地塊|天天新視野
- 2023鄭州二七區(qū)小升初報(bào)名指南 每日速讀
- 為梅西送開場(chǎng)球的快遞小哥,曾榮獲全國(guó)五一勞動(dòng)獎(jiǎng)?wù)?百事通
- 芬蘭財(cái)政部預(yù)計(jì)該國(guó)今年經(jīng)濟(jì)增長(zhǎng)停滯
- 余承東:?jiǎn)柦鏜5智能駕駛能力全球第一 超越特斯拉、國(guó)內(nèi)外所有同行-天天聚看點(diǎn)
- 世體記者Fernando Polo:哈維是阿根廷...
- 無法連接APP STORE怎么辦?為什么有網(wǎng)連不上appstore?
- 中電聯(lián)召開國(guó)家電化學(xué)儲(chǔ)能平臺(tái)演示匯報(bào)會(huì):要研究用戶側(cè)儲(chǔ)能服務(wù)模式 助力新型電力系統(tǒng)建設(shè)
- 觀察:吉利銀河L6實(shí)車曝光,預(yù)計(jì)10萬(wàn)元起售,9月23日前上市
- 緣分四種_所謂的 lsquo 緣分 rsquo 到底是什么 焦點(diǎn)速訊
- 焦點(diǎn)關(guān)注:立秋吃啥飯_立秋吃啥
- 天天快報(bào)!全員加速中第一季完整版百度網(wǎng)盤(向往的生活第一季百度網(wǎng)盤資源)
- 當(dāng)前熱訊:Asgard's Wrath 2是我一直在等待的VR塞爾達(dá)傳說
- 發(fā)生了什么?歐洲天然氣期價(jià)盤中一度飆升30%
- 接待人數(shù)創(chuàng)歷史新高!廣州蔬菜新品種展示推廣會(huì)落幕 最資訊
- 奇瑞風(fēng)云3多少錢一輛?03年奇瑞風(fēng)云整備質(zhì)量是多少?
- 全球快消息!大連榮合地產(chǎn)底價(jià)5911萬(wàn)元競(jìng)得長(zhǎng)興島近6萬(wàn)平米宅地使用權(quán)
- 6月16日天通股份漲9.99%,交銀先進(jìn)制造混合A基金重倉(cāng)該股 天天快報(bào)
- 小米 34 英寸顯示器僅 1299 元,144Hz 電競(jìng)帶魚屏
- 杭州亞運(yùn)村內(nèi)部功能區(qū)首次公開亮相 一起全景感受無限好“村”光-最新快訊
- 聚焦樓宇小微企業(yè)招工引才難,馬家堡街道炎夏里辦起招聘會(huì)
- 人民財(cái)評(píng):構(gòu)建職業(yè)教育與產(chǎn)業(yè)發(fā)展相融互促的良好格局 世界熱頭條
- win10搜索不到共享打印機(jī)怎么辦?win10無法與win7共享打印機(jī)?
- ?資產(chǎn)要素包括哪些類型的資產(chǎn)?固定資產(chǎn)的使用期限有什么規(guī)定?
- 山鄉(xiāng)吹來藝術(shù)風(fēng)(千萬(wàn)工程 一線探訪)
- 每日快訊!“治”出美麗新家園!增城實(shí)現(xiàn)自然村農(nóng)村生活污水收集和治理全覆蓋
- 巴州消防救援支隊(duì)開發(fā)區(qū)大隊(duì)借力“安全生產(chǎn)月”開展高層住宅小區(qū)應(yīng)急疏散逃生演練及宣傳活動(dòng)
- 哪些方法可以解決索尼相機(jī)刪除的視頻問題_環(huán)球動(dòng)態(tài)
- 車內(nèi)頂棚布脫落到哪換多少錢_車內(nèi)頂棚布脫落怎么辦
- 2023年天津注冊(cè)會(huì)計(jì)師考試?yán)U費(fèi)入口已開通
- 要聞速遞:我國(guó)經(jīng)濟(jì)運(yùn)行保持恢復(fù)態(tài)勢(shì) 重點(diǎn)在六方面發(fā)力
- 股指期貨全線上漲 IF主力合約漲1.07%
- 安徽6月17日進(jìn)入梅雨期:較常年偏晚2天
- 新華都(002264)6月16日主力資金凈賣出2391.69萬(wàn)元 環(huán)球熱點(diǎn)評(píng)
- 遼寧養(yǎng)老金調(diào)整時(shí)間會(huì)提前嗎?2023年遼寧養(yǎng)老金調(diào)整方案何時(shí)出爐? 環(huán)球熱訊
- 科思科技: 公司4月底2.68億未交付訂單在歷史財(cái)報(bào)中未列收|每日視點(diǎn)
- 謝霆鋒一直是娛樂圈里備受關(guān)注的明星|環(huán)球資訊
- 海關(guān)總署恢復(fù)、批準(zhǔn)20家肉類企業(yè)在華注冊(cè)_環(huán)球觀速訊
- 2023河洛龍舟文化節(jié)(時(shí)間+地點(diǎn)+活動(dòng)內(nèi)容)
- 武功縣行政審批服務(wù)局推行“4+1”服務(wù)模式持續(xù)優(yōu)化營(yíng)商環(huán)境
- 全球觀點(diǎn):潘石屹卸任天津潤(rùn)石投資公司職務(wù)
- 天天簡(jiǎn)訊:辛丑條約什么時(shí)間簽訂的?辛丑條約是什么戰(zhàn)爭(zhēng)后簽訂的?
- 井工煤礦四圖兩書指什么_兩書指什么-快看
- 拒收現(xiàn)金 傷害的何止是支付選擇權(quán)?|天天精選
- “美猴王系列”叢書(阿文國(guó)際版)在北京發(fā)布 當(dāng)前快播
- 黑色持倉(cāng)日?qǐng)?bào):期螺漲1.5%,國(guó)泰君安增持超1.4萬(wàn)手多單-全球焦點(diǎn)
- 每日優(yōu)鮮新增被執(zhí)行 標(biāo)的金額約215萬(wàn) 天天新資訊
- “套餐改單點(diǎn)”背后,蔚來敏捷求變|環(huán)球快訊
- 12-13歲小男孩禮物 世界觀察
- 著力解決水污染防治難題 今年前5個(gè)月廣州斷面水質(zhì)全面達(dá)標(biāo)-焦點(diǎn)熱訊
- 樓道雜物被居委清理 訴至法院索賠 法院:不支持
- 【全球時(shí)快訊】烏魯木齊市水磨溝區(qū):園區(qū)舉辦推介會(huì)助力企業(yè)拓市場(chǎng)
- 焦點(diǎn)快播:安康舉行秦巴醫(yī)藥產(chǎn)業(yè)“產(chǎn)供銷”對(duì)接大會(huì)
- 阿根廷比賽開球小哥:近距離見到偶像還能為他送球?qū)嵲谑翘珮s幸了|看熱訊
- 環(huán)球觀熱點(diǎn):離譜!1年380萬(wàn),簡(jiǎn)直就是侮辱人啊,威少走吧
- 公共 | 大運(yùn)主題推廣曲《蓉光》音樂短視頻發(fā)布 天天熱消息
- 北京養(yǎng)老服務(wù)小程序?qū)⒂?月底上線
- 韓國(guó)飄了!24小時(shí)不到,韓國(guó)對(duì)中國(guó)三大動(dòng)作,取消與我國(guó)大使見面 今日熱搜
- 當(dāng)前播報(bào):2023鄭州啟元中學(xué)小升初報(bào)名指南
- 廠址選擇的影響因素有哪些內(nèi)容? 廠址選擇的方法是怎么樣的?_環(huán)球即時(shí)看
- 唯品會(huì)618高潮期開售:品質(zhì)消費(fèi)驅(qū)動(dòng)增長(zhǎng),知名品牌帶動(dòng)消費(fèi)熱潮
- 首創(chuàng)證券“首富杯”第二屆私募實(shí)盤大賽年度頒獎(jiǎng)典禮 暨非凡IR+啟動(dòng)儀式成功舉辦|當(dāng)前聚焦
- 天氣熱得越來越早是為什么?氣象專家解讀
- 全球熱門:由于天氣原因 2023深圳荷花音樂節(jié)3場(chǎng)潮流音樂會(huì)活動(dòng)將延期舉辦
- 于大寶賽后與老隊(duì)友迪馬利亞合影,獲贈(zèng)落場(chǎng)球衣
- 【新視野】國(guó)藥現(xiàn)代:全資子公司藥品克林霉素磷酸酯注射液通過仿制藥一致性評(píng)價(jià)
- 全球關(guān)注:1-5月中國(guó)汽車類零售總額同比小幅增長(zhǎng)
- 楓生_關(guān)于楓生概略 天天百事通
- 航拍“打卡”合肥新地標(biāo)「組圖」-全球最新
- 凰家速地|保利以36.2億競(jìng)得石景山區(qū)廣寧村2015、2019、2027、2009地塊
- 逆周期調(diào)節(jié)力度加大 MLF降息“靴子落地”|世界報(bào)資訊
- 【世界聚看點(diǎn)】初等教育是什么?初等義務(wù)教育是幾年?
- 醫(yī)療器械龍頭邁瑞狀告一個(gè)區(qū)的衛(wèi)生健康局
- 小米汽車硬件利潤(rùn)率不超1%?此路可通,但注定艱難
- XD好萊客(603898)6月16日主力資金凈買入30.15萬(wàn)元|世界觀熱點(diǎn)
- 浙江錢江灣區(qū)投資4億元私募獲上交所受理 當(dāng)前消息
- 世界熱門:清雷科技全線醫(yī)療級(jí)產(chǎn)品亮相中關(guān)村科學(xué)城公司創(chuàng)新合伙人峰會(huì)
- 中海19.92億元獲廣州荔灣紫蘭苑地塊 曾為廣信資產(chǎn)包項(xiàng)目 環(huán)球快訊
- 基建50ETF漲2.15%,北方國(guó)際領(lǐng)漲8.11%
- 怎么治療痤瘡色斑?黃褐斑怎么治療最好?
- 祁陽(yáng)市農(nóng)產(chǎn)品監(jiān)測(cè)保護(hù)市民“舌尖”安全|觀點(diǎn)
- 阿魯巴是哪個(gè)國(guó)家的
- 近期旅游客車側(cè)翻事故多發(fā) 公安部交管局提示注意安全行車 環(huán)球簡(jiǎn)訊
- 好未來:開放小學(xué)數(shù)學(xué)知識(shí)圖譜-全球播資訊
- 【環(huán)球時(shí)快訊】單洞超9000米!仁沐新高速最長(zhǎng)隧道 左線貫通
- 美元指數(shù)跳水 非美貨幣機(jī)會(huì)來了嗎?丨就市論市 每日觀察
- 國(guó)家發(fā)改委回應(yīng)中國(guó)經(jīng)濟(jì)數(shù)據(jù)波動(dòng):長(zhǎng)期向好大勢(shì)不會(huì)改變 天天微資訊
- 天天觀速訊丨蘇翊鳴獲得清華大學(xué)保送資格 本人和清華回應(yīng)
- 中國(guó)巨石:玻纖需求3-5月出現(xiàn)改善 整體展望比較好
- 2023年福州市區(qū)普通高中招生計(jì)劃
- 焦點(diǎn)滾動(dòng):重磅|“看中國(guó)”22省上線啟動(dòng)!主題策劃發(fā)布!IPTV數(shù)據(jù)排行榜發(fā)布!
- 2023年版中國(guó)合成醫(yī)用膜市場(chǎng)投資分析與供需前景報(bào)告 全球微動(dòng)態(tài)
- 生命三寶治療儀怎么樣_生命三寶-世界熱議
- 澤連斯基回應(yīng)特朗普說“24小時(shí)解決俄烏沖突”:他為什么不早這么做? 當(dāng)前消息
- 云南民營(yíng)經(jīng)濟(jì)增加值占GDP比重歷史性突破50%
- 全球新消息丨京東超市宣布扶持22家國(guó)貨之光企業(yè) 投10億元資源 打造百款爆品 增長(zhǎng)超50%
- 百事通!離譜!高呼馬龍是湖人的爹!約基奇妻子被砸酒瓶!