2月22日,谷歌宣布將暫停Gemini的人物圖像生成,努力解決與Gemini圖像生成功能相關的最新問題;將很快重新發(fā)布改進版本。
此前,Gemini在圖片中生成了各種性別、種族的人群,即使生成的結果與史實不符,例如以“美國開國元勛華盛頓”為主題的圖片中,出現(xiàn)了婦女和有色人種。
3月2日,50歲的谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林在加州的“AGI之家”與企業(yè)家們進行了交談,談及此事時評價道:“我們在圖像生成方面搞砸得很徹底,我認為這主要由于沒有進行徹底的測試。出發(fā)點是好的,但結果卻讓很多人感到沮喪。”
谷歌發(fā)布基礎世界模型Genie
2月27日,谷歌發(fā)布了生成式AI的全新范式——生成式交互環(huán)境(Genie,Generative Interactive Environments)。
Genie是一個110億參數(shù)的基礎世界模型,可以通過單張圖像提示生成可玩的交互式環(huán)境。GenieAI是一個利用互聯(lián)網(wǎng)視頻訓練的基礎世界模型,可以從合成圖像、照片甚至素描中生成無限多的可玩(可控制動作的)世界。它的使用范圍廣泛,可以用于從圖像或文本生成整個互動世界,是訓練未來通用AI代理的有利工具。
螞蟻集團推出百靈大模型
2月28日,螞蟻集團推出20億參數(shù)多模態(tài)遙感基礎模型SkySense,其論文已被世界計算機視覺頂會CVPR 2024接收。
數(shù)據(jù)顯示,SkySense在17項測試場景中指標均超過國際同類產(chǎn)品,這也是迄今為止國際上參數(shù)規(guī)模最大、覆蓋任務最全、識別精度最高的多模態(tài)遙感基礎模型。SkySense可用于地貌、農作物觀測和解譯等,有效輔助農業(yè)生產(chǎn)和經(jīng)營。
潞晨科技復現(xiàn)Sora并開源
3月4日,國內著名開源團隊Colossal-AI(潞晨科技旗下)根據(jù)Sora技術報告、VideoGPT、擴散Transformers等資料,復現(xiàn)了Sora模型架構方案并將其開源——Open-Sora。
值得一提的是,Colossal-AI還將復現(xiàn)成本降低了46%,同時將模型訓練輸入序列長度擴充至819K patches。目前,Open-Sora在Github超過1200顆星。
Midjourney封禁Stability AI:惡意爬取數(shù)據(jù),致服務器癱瘓24小時
3月7日,Midjourney封禁Stability AI引發(fā)了一場關于數(shù)據(jù)安全和道德責任的爭議。事件起因于Stability AI的數(shù)據(jù)收集工程師對Midjourney服務器發(fā)起了惡意攻擊,導致其服務中斷24小時。盡管Stability AI CEO Emad聲稱公司并未授權此行為,但Midjourney決定暫時封禁其員工使用其軟件。
華為諾亞發(fā)布0.6B文生圖模型PixArt-Σ,可直出4K圖像
3月10日,華為諾亞方舟實驗室聯(lián)合多個研究機構共同開發(fā)的項目,推出了一款名為PixArt-Σ的擴散變換器模型(DiT)。
PixArt-Σ 的進步有兩個方面。一是高質量訓練數(shù)據(jù),引入了更高質量的圖像數(shù)據(jù),配合更精確和詳細的圖像標題;二是高效的token壓縮:在DiT框架內提出了一個新的注意力模塊,能夠壓縮鍵和值,顯著提高效率,從而支持超高分辨率圖像的生成。
這些改進使得PixArt-Σ在模型大小(0.6B參數(shù))上遠小于現(xiàn)有的文本到圖像擴散模型,如SDXL(2.6B參數(shù))和SD Cascade(5.1B參數(shù)),同時在圖像質量和用戶提示遵循能力上都有了顯著提升。此外,PixArt-Σ生成4K圖像的能力,為電影和游戲等行業(yè)的高質量視覺內容制作提供了強大支持。
Pika推出自動生成音效功能Sound Effects
3月11日,Pika 發(fā)布了全新的功能Sound Effects,實現(xiàn)了視頻和音效的無縫生成。用戶可以通過簡單的操作,通過描述prompt或讓 AI 自動生成音效,為視頻增添更多氛圍。
Sound Effects的操作十分簡單,用戶只需一個 prompt或簡單的描述就能生成音效,使視頻更加生動。通過選擇不同的音效,用戶可以為視頻增添各種聲音,從車鳴聲到煙花聲,音效都與視頻畫面高度匹配。此外,用戶還可以在生成視頻后,針對單個視頻添加音效,提升視頻質量和趣味性。
Midjourney發(fā)布角色一致性新功能
3月12日,Midjourney推出了一項新功能,使得在生成多張圖片時,能夠保持同一人物的一致性。通過使用“-cref”(角色參考)標簽,可以保留輸入圖片中的角色特征,使得在不同場景中的臉部特征、體型和服裝保持一致。