非農(nóng)夜來臨! 特朗普立的flag,要倒了(行情)-更新中
5 馬斯克:AI訓(xùn)練數(shù)據(jù)去年就已耗盡,合成數(shù)據(jù)是唯一補(bǔ)充方法 包括微軟、Meta、OpenAI、Anthropic等在內(nèi)的科技巨頭已經(jīng)開始使用合成數(shù)據(jù)來訓(xùn)練AI模型了。據(jù)信息技術(shù)研究和顧問公司Gartner估計(jì),2024年用于AI訓(xùn)練和分析項(xiàng)目的數(shù)據(jù)中,有60%是合成的。人工智能訓(xùn)練數(shù)據(jù)耗盡了怎么辦? 近日,馬斯克在社交平臺(tái)X上的一場(chǎng)直播對(duì)話中表示,人工智能訓(xùn)練數(shù)據(jù)已經(jīng)耗盡: “我們基本上已經(jīng)用盡了人類知識(shí)的累積總和來進(jìn)行AI訓(xùn)練,這種情況大約在去年就已經(jīng)發(fā)生了?!?br /> 馬斯克的觀點(diǎn)與前OpenAI首席科學(xué)家Ilya Sutskever不謀而合。去年12月,Sutskever在機(jī)器學(xué)習(xí)會(huì)議NeurIPS上表示,AI行業(yè)已經(jīng)達(dá)到了他所謂的“數(shù)據(jù)峰值”,訓(xùn)練數(shù)據(jù)的缺乏將迫使AI模型的開發(fā)方式發(fā)生轉(zhuǎn)變。 不過,面對(duì)數(shù)據(jù)耗盡的困境,馬斯克提出了一個(gè)可能的解決方案: “唯一的補(bǔ)充方法是使用合成數(shù)據(jù),即由AI模型自己生成的數(shù)據(jù)。通過合成數(shù)據(jù),AI將對(duì)自身進(jìn)行評(píng)分,并經(jīng)歷一個(gè)自學(xué)習(xí)的過程?!?br /> 事實(shí)上,包括微軟、Meta、OpenAI、Anthropic等在內(nèi)的科技巨頭已經(jīng)開始使用合成數(shù)據(jù)來訓(xùn)練AI模型了。據(jù)信息技術(shù)研究和顧問公司Gartner估計(jì),2024年用于AI訓(xùn)練和分析項(xiàng)目的數(shù)據(jù)中,有60%是合成的。 微軟最近開源的Phi-4模型就是使用合成數(shù)據(jù)和真實(shí)世界數(shù)據(jù)共同訓(xùn)練的。谷歌的Gemma模型、Anthropic的Claude 3.5 Sonnet系統(tǒng)以及Meta最新的Llama系列模型也都采用了類似的方法。 分析師表示,使用合成數(shù)據(jù)進(jìn)行訓(xùn)練還能夠節(jié)約成本。AI初創(chuàng)公司W(wǎng)riter聲稱,其幾乎完全使用合成數(shù)據(jù)源開發(fā)的Palmyra X 004模型僅花費(fèi)了70萬美元,而相比之下,OpenAI同等規(guī)模模型的開發(fā)成本估計(jì)為460萬美元。 不過需要注意的是,使用合成數(shù)據(jù)也存在一些潛在風(fēng)險(xiǎn)。一些研究表明,合成數(shù)據(jù)可能導(dǎo)致模型崩潰,即模型的輸出變得不夠“創(chuàng)新”,反而更加偏頗,最終嚴(yán)重影響模型的功能。由于合成數(shù)據(jù)是由模型生成的,如果用于訓(xùn)練這些模型的數(shù)據(jù)本身存在偏見和局限性,那么它們的輸出也會(huì)受到同樣的影響。(華.爾.街.見.聞.蔣.紫.涵) 中財(cái)網(wǎng)
|