百度被網暴,AI大模型“套皮”海外知名項目,百度首次回復:假的 當前熱文
圖片來源:無界AI畫繪畫工作生成
3月16日,百度創始人李彥宏做了大語言模型“文心一言”的發布會。
(資料圖)
結果,觀眾只記住了白襯衫和白腰帶,并且紛紛表示好奇,李彥宏保養的不錯。然后感慨,Robin Li與其分享百度雄心勃勃的語言大模型,不如講一講如何保養,搞不好還能帶個貨,股價也許就上去了。
雖然,網絡上鍵盤俠吐槽很多,但還是有很多媒體寫到:《中國百度硬剛chatGPT,國產之光》。沒辦法,AI這個領域,好像只有百度能打,起碼,大部分公眾的認知是這樣。
如果說16日發布會后公眾的態度是希望百度扛起對線chatGPT的大旗。這兩天,畫風變了,吐槽排山倒海而來,可以說是怒其不爭了。
首先是一批圖片,顯示文心一言理解能力很差。
另外,還有一批圖片,更是把文心一言給狠狠錘了一把。大意是說,文心一言更懂英文,不懂中文。直言百度作假,文心一言是套殼了chatGPT,水貨。那么,真的是這樣子嗎?
01 百度文心一言被爆錘,國產都不行?
微博賬號“劉大可先生”錘百度的文字被傳播得很廣,光點贊就有2.2萬。
他是這么說的:百度這個所謂的人工智能,其實就把中文句子機翻成英語單詞,拿去用國外剛剛開源的人工智能“Stable Diffusion”生成了圖畫,再返回給你,說是自己畫的。
他給出的理由有很多,這里僅舉一個例子。
上圖,“劉大可先生”的要求是畫“云中的平面”,結果文心一言畫了個飛機,“劉大可先生”說,這是因為“云中的平面”機翻之后是“plane in cloud”,所以文心一言背后的英語的人工智能當然會畫個飛機。下面這張圖在社交網絡傳播非常廣,揭示的“真相”與上文是一樣的。
自從chatGPT誕生后,以及包括一系列AI畫圖軟件,像Stable-Diffusion、Midjourney、DALLE等誕生以來,我們其實看到了很多的應用,底層都是這些開源的模型。但是通過“漢化”,可以給中國的用戶帶來很好的體驗。
百度的文心一言是不是也這樣?這個“判斷”可能是武斷的。
2月20日晚間,復旦大學邱錫鵬教授團隊發布國內首個類ChatGPT模型MOSS,但是很快就被吐槽,它的中文水平不如英文。
3月30日,阿里達摩院低調地在魔搭社區(ModelScope)放出了“文本生成視頻大模型”。結果,這個大模型也是更懂英文,有體驗者寫到,他輸入提示詞:A panda eating bamboo on a rock。77秒后,大模型給出了一個2秒的熊貓吃竹子視頻。如果換成中文:一只大熊貓坐在巖石上吃竹子。出來的結果就是一只類似于貓咪的小動物。離題萬里。
02 中文數據天生缺陷?
為什么會這樣呢?在微博賬號“劉大可先生”爆錘百度的微博文字下面,第一個留言的名叫“歐陽少慳",他說,文心一言出現這種情況的因為在于,目前開源的圖文數據大部分是英文的,可以參考LAION這個開源數據庫,所以目前的diffusion model基本都是英文驅動,這也導致了“劉大可先生”說的怪異現象。
“當然,我們期待同等規模的中文開源數據庫的出現。stable diffusion是一種網絡結構,開發者完全可以使用LAION數據集和sd結構訓練一個自己的網絡,不需要套皮。”他說。
23日中午,百度官方公眾號發了一則聲明,寫到:“文心一言完全是百度自研的大語言模型,文生圖能力來自文心跨模態大模型ERNIE-ViLG。在大模型訓練中,我們使用的是全球互聯網公開數據,符合行業慣例。大家也會從接下來文生圖能力的快速調優迭代,看到百度的自研實力。”
有從業者稱,這基本等于承認使用了LAION。LAION,這是目前最為知名的大規模圖文多模態數據集。作為一個非營利性組織,LAION提供數據集、工具和模型來解放機器學習研究。官網寫到:我們通過這樣做,鼓勵開放的公共教育,并通過重用現有數據集和模型來更環保地使用資源。
從這個角度理解,說文心一言“套皮”或許還是比較武斷的。到底是不是“套皮”,或者百度的語言大模型在技術上有沒有參考海外項目?我們還要等待更多的來自行業的披露信息。
但是,這個事情從側面肯定能說明一個問題,雖然,我們一直強調中國有海量的數據,但企業的實踐卻表明:不好用。
復旦MOSS大模型被質疑中文水平不如英文時,MOSS研究團隊就坦承,“MOSS的英文回答水平比中文高,因為它的模型基座學習了3000多億個英文單詞,中文詞語只學了約300億個。”
而澎湃新聞采訪了粵港澳大灣區數字經濟研究院(IDEA)認知計算與自然語言中心文本生成算法團隊負責人王昊,他說:“數據質量的差別是主要瓶頸之一。相較于英文數據,中文數據的開源程度較低,導致中文數據集的規模相對較小。此外,英文作為科研主流語言,在學術界和工業界中得到廣泛應用,積累了大量高質量的語料數據,這為英文自然語言處理的研究提供了極大的優勢。”
有一個數據很現實:雖然簡體中文互聯網用戶和英文互聯網用戶規模相當,但在全球排名前1000萬個網站中,英文內容占比60.4%,中文內容占比僅為1.4%。
這會是中國企業探索大語言模型的問題和瓶頸嗎?可能也不是。或是觀念,尤其是意識形態的阻礙更大。
中關村新場景MA Club發起人檀林在一次分享中質問:“做一個中國的大語言模型,自己給自己砌一道墻,和全球分開。就像做一個純中文的操作系統一樣,能有多大的意義?大家都知道,簡體中文的數據質量很差,語料庫的知識含量和價值已經比海外的幾個大語言模型要低得多了,所以如果現在還非要給自己一個束縛的話,我覺得這種態度在開局就輸了。”
中國企業要想在大語言模型的賽道分一杯羹,蹚出一條路,使用英文數據是不得已,沒辦法。當然,我們顯然更期待中文數據領域能有更好的發展。
關鍵詞:
責任編輯:hnmd004
- 百度被網暴,AI大模型“套皮”海外知名項目2023-03-24
- 音樂巨星為何能在投資界聲名鵲起?2023-03-24
- 前字節跳動視覺技術負責人王長虎離職投身生2023-03-24
- 孫宇晨在美被指控欺詐交易,涉嫌非法推廣加2023-03-24
- 騰訊啟動“碳尋計劃”,資助規模億元級別 2023-03-24
- 先瑞達2022年營收3.96億元,同比增長30%_全2023-03-24
- 我國鋰電年總產值首次突破萬億元|新要聞2023-03-24
- 環球要聞:英國航天局支持研發在月球上使用2023-03-24
- 【焦點熱聞】國產神器!6000KJ+超大型液壓2023-03-24
- 我國鋰電年總產值首次突破萬億元|環球即時2023-03-24
- 全球短訊!“斗士”瞿曉鏵:風雨過后2023-03-24
- 世界微資訊!國產神器!6000KJ+超大型液壓2023-03-24
- 環球熱點評!我國鋰電產業總產值破萬億!2023-03-24
- 更多中國企業正在加入節能增效行動倡議2023-03-24
- 細節之處見真章 發現廣汽本田e:NP1極湃1的2023-03-24
- 熱訊:恭喜!朱婷轟27分殺進決賽沖冠,女排2023-03-24
- 長三角城市上演樓市松綁大比拼 李嘉誠預言2023-03-24
- 天天快消息!未來哪些專業就業前景好 十大2023-03-24
- 貴金屬正規平臺有哪些?國內貴金屬平臺匯總2023-03-24
- 網上銀行的好處都有哪些?網上銀行的分類有2023-03-24
- 擔心房價下跌遭批 辛集房價下跌最慘的小區2023-03-24
- 焦點資訊:福建出臺16條指導意見:推動區域2023-03-24
- 游戲股異動拉升,盛天網絡大漲15%2023-03-24
- 總產值首次突破萬億元!我國鋰電行業將迎來2023-03-24
- 中國一重與通用技術集團簽署設備采購協議2023-03-24
- 餓了么注冊放心點商標,已將其確認為長期戰2023-03-24
- 今日訊!德國兩家銀行計劃不行使AT1債券的2023-03-24
- 精選!世界鋼鐵協會:2月全球粗鋼產量同比2023-03-24
- 全球快資訊:中核集團三門核電4號機組開工2023-03-24
- 觀察:中國一重與通用技術集團簽署設備采購2023-03-24