@阑夕: 这几天分享了几个 Runway Gen-2 图转视频的作品,目前来看主要的问题还是在于成像稳定性,比如不能有太大幅度的动作、超过 3 秒以上的镜头容易崩坏等等,所以大多数成品的幻灯片特点都很突出,还不足以称得上影视内容。
但从中长期来看,这些问题都是不值一提的,我记得 ChatGPT 最早公开的版本对基础数学的计算错漏百出,OpenAI 在收到相关差评后花了半个月不到的时间给 ChatGPT 喂料刷题,更新之后的 ChatGPT 就有非常优秀的算术推理能力了。
Midjourney 和 Stable Diffusion 一开始也不咋样,全民嘲笑 AI 啥都能画就是画不好手,各种荒唐可笑的手指扭曲错位,但是你看后面几个版本迭代之后,现在已经没人说这个了,到处都是画师在虚空维权,重演砸烂纺织机的历史。
AI 的自我学习效能甚至连它的制造者都难以摸清,今年年初美国大学老师对学生都用 ChatGPT 来代笔论文意见很大,于是 OpenAI 出来打圆场表示知道你们急单你们先别急,我们自家的 AI 我们自己最懂了,然后反手掏出一个用 AI 检测论文 AI 成分的工具 ClassFier,提供给老师们去批改论文。
结果半年时间过去,OpenAI 先在这场用魔法打败魔法的战斗里认输了,它前几天下线了 ClassFier,承认这个程序彻底失败,不但准确率低得可怜,还经常错判正常论文为 AI 写作。
根据 OpenAI 的说法,它以为掌握了 ChatGPT 的源代码有助于更加方便的理解其运行逻辑,由此产生了魔法对轰的自信,没想到 ChatGPT 的变化速度远比监视产品快得多,当 ClassFier 终于可以识别 ChatGPT 某个阶段的生产时,ChatGPT 早就又往前拱了好几个阶段,于是道高一尺魔高一丈,根本追不上。
图文转视频在现阶段的短板当然不是那么简单就可以逾越的,而且必然会比文本和图片这种低带宽媒介要更加艰难,但是大模型这么跑下去,几乎每周都有新的实质性突破出来,等到 Runway 到了 Gen-3 或是 Gen-4 版本,凭想象生视频可能会是一个类似做 PPT 的基础技能了。