家電網(wǎng)-HEA.CN報道:AI生成失敗時不會覺得不好意思。 不好意思的只有用戶。 因為錢已經(jīng)花了,Token已經(jīng)燒了,小貓也已經(jīng)長出手了。
AI幫我省了時間,也幫我燒光了Token
AI視頻最神奇的地方,在于它總能用最認真的方式,把事情做得非常離譜。
比如輸入一句樸素的指令:
“生成一個小貓做飯的視頻。”
在人類世界里,這句話沒有理解難度。小貓站在溫暖的廚房里,用貓爪扒拉兩下鍋里的煎蛋,畫面可愛、童話,動作笨拙但合理。

AI卻會告訴你,事情沒這么簡單。
它生成了小貓、廚房和鍋鏟,也讓小貓開始做飯。唯一的問題是,這只貓長出了一雙人類的手。
你甚至很難說AI完全錯了。你要小貓,它給了小貓;你要做飯,它也安排了做飯。它只是順手解決了一個更底層的問題:小貓怎么拿鍋鏟?
答案是,給它安一雙手。

AI生成視頻讓人崩潰的地方就在這里。它不是完全聽不懂,而是聽懂了一半。小貓負責(zé)可愛,做飯負責(zé)動作。至于人手能不能長在貓身上,用戶如果沒寫,它就可能自己補。
AI的補全能力有時像一個過度熱心的實習(xí)生。它不會停下來問:“這只貓要用貓爪,還是需要五根手指?”它只會默默生成,然后把一只長著人手的小貓端到你面前。
用戶只能深呼吸,開始補提示詞:
不要人手。
不要人類手指。
保持貓爪。
不要半人半貓。
不要多余肢體。
不要把鍋鏟插進貓爪。

到這里,一個六個字就能說清的需求,變成了一份創(chuàng)意合同。用戶不再像創(chuàng)作者,更像風(fēng)險控制專員。每一個“不要”背后,往往都對應(yīng)一次已經(jīng)發(fā)生的事故。
問題還不止于此。
AI視頻有一種近似抽卡的機制。同一句提示詞,第一版小貓可愛,但是手壞了;第二版手正常了,鍋飛了;第三版廚房質(zhì)感不錯,小貓的臉卻像通宵了三天;第四版貓和鍋終于都沒問題,下一秒又多出一條胳膊。
于是用戶進入一種熟悉的狀態(tài):
再來一次。
剛才那一版已經(jīng)很接近了。眼神不錯,光線也可以,只要手別那么像成年人就行。用戶又點了一次生成。

然后Token沒了。
更麻煩的是,修改未必讓結(jié)果越來越好。第一次只是小貓長了人手;第二次強調(diào)不要人手,它可能直接不做飯;第三次要求做飯但不能有人手,鍋鏟開始懸浮;第四次要求貓爪握住鍋鏟,它又在貓爪和人手之間反復(fù)橫跳。
你以為自己在修Bug,AI以為你在增加劇情。
這也是很多人使用AI視頻后的感受:它確實快,但快得不穩(wěn)定;它確實能生成,結(jié)果卻總差一口氣。
完全不能用,用戶會直接放棄。差一點能用,用戶就會想:是不是再加一句就好了?是不是換個詞就好了?是不是再抽一次就好了?
差一點,才是最貴的。

笑完之后,小貓長出人手這件事,暴露了AI創(chuàng)作里的一個基礎(chǔ)問題:模型不能穩(wěn)定理解人類省略掉的常識。
人類說“小貓做飯”時,不會想到人手。我們知道貓的身體結(jié)構(gòu),也知道童話里的擬人化有邊界。貓可以站起來、戴圍裙、拿迷你鍋鏟,但它最好還是一只貓。
這些前提,人類不需要說出來。
AI可以識別“小貓”,也能識別“做飯”,卻未必能處理好兩者之間的關(guān)系。做飯這個動作,在大量圖像和視頻中都和人類手部綁定。模型需要完成翻炒動作時,便可能調(diào)用最常見的方案:一雙能握住鍋鏟的手。
它知道貓長什么樣,也知道做飯長什么樣,卻不一定知道貓該怎樣以貓的身體結(jié)構(gòu)做飯。
視頻又比圖片麻煩。

圖片只要一個瞬間看起來正確。視頻則要在幾秒內(nèi)保持主體、動作、道具和空間連續(xù)。第一幀出了錯,錯誤還會沿著時間延續(xù)。貓開始有點像人,后面可能越來越像人;鍋鏟開始握得不對,下一秒便可能穿過爪子。
因此,AI視頻真正的問題并非生成能力不足,而是可控性不夠。
這也解釋了為什么用戶明明在使用一種效率工具,最后卻覺得更累。
過去,視頻創(chuàng)作的成本主要在拍攝、剪輯、繪制和建模。AI壓低了部分執(zhí)行成本,一句提示詞就能迅速生成雛形。但成本沒有消失,只是換了地方。
一部分轉(zhuǎn)移到了提示詞里。用戶要把默認常識寫出來,把主體結(jié)構(gòu)、動作方式和禁止事項逐項說明。
一部分轉(zhuǎn)移到了試錯里。同一句提示詞可能產(chǎn)生完全不同的結(jié)果,用戶需要不斷生成、篩選、比較和放棄。
還有一部分轉(zhuǎn)移到了質(zhì)檢里。手指數(shù)量、物體穿模、動作漂移、鏡頭跳變和角色一致性,都要重新檢查。
AI讓人更快看到結(jié)果,也讓人更快看到錯誤。它降低了制作門檻,同時抬高了控制門檻;省掉了一些執(zhí)行勞動,又增加了提示詞勞動、抽卡勞動和返工勞動。
很多人為了節(jié)省Token,會下意識地縮短指令。但在AI視頻里,短指令省掉的往往不是錢,而是約束。
“小貓做飯”很便宜,卻把所有關(guān)鍵判斷都留給了模型。更可靠的提示詞需要說明:保持貓科身體結(jié)構(gòu),使用貓爪操作尺寸合適的鍋鏟,不出現(xiàn)人類手指和多余肢體,動作輕微,鏡頭固定。
這段話更長,卻可能比抽十次便宜。
真正貴的從來不是第一行提示詞,而是為了糾正它付出的后續(xù)成本。氣氛和風(fēng)格可以少寫,主體結(jié)構(gòu)、動作邊界和禁止事項卻很難省。
復(fù)雜視頻也不適合塞進一條提示詞。一個鏡頭先解決一個動作,先保證小貓仍然是貓,再討論光線、運鏡和節(jié)奏。先低成本試方向,再鎖定主體、擴展動作,最后檢查不能出錯的部分。
AI視頻生產(chǎn)更接近“測試、篩選、修正、再生成”,而非輸入一句話后坐等成片。
這多少有些諷刺。
AI出現(xiàn)時,人們以為它會讓創(chuàng)作變簡單。現(xiàn)在看,變簡單的是生成,控制仍然很難。人確實少做了一部分執(zhí)行工作,卻被調(diào)到了提示詞、質(zhì)檢和返工崗位。
那只長著人手的小貓,正好說明了這一點。
AI聽懂的可能只是“小貓”和“做飯”。至于怎樣讓一只貓以貓的方式做飯,仍需要用戶把常識翻譯成約束。
否則,省下來的時間會花在抽卡里,省下來的Token會燒在返工里,省下來的人工成本,最后可能變成用戶自己的精神成本。
最荒誕的是,AI生成失敗時不會覺得不好意思。
不好意思的只有用戶。
因為錢已經(jīng)花了,Token已經(jīng)燒了,小貓也已經(jīng)長出手了。
(歡迎關(guān)注家電網(wǎng)微信jiadianwangHEA,點擊閱讀 家電網(wǎng)頭條,最新家電、科技資訊,最專業(yè)的新聞資訊解讀,我們期待與您分享交流)
(家電網(wǎng)? HEA.CN)
責(zé)任編輯:編輯E組