博海拾贝 文摘 大家最想要的全自动工作流,可能只是一场精神按摩

大家最想要的全自动工作流,可能只是一场精神按摩

用 AI coding,最绝望的事情是什么?

如果只给世超一票,我会投给,停在一半。

干了半小时,项目刚起好框架,它停在一半。

弹出十个细节 bug,修了三个,它停在一半。

程序动了上百行,测试没跑完,它停在一半。

3.webp

而面对这些半成品,无能的人类,却连下一句 prompt 都憋不出来,只会搁那 “ 继续继续,你改了啥,回滚回滚,让我们说中文。”

那么问题来了,到底有没有什么办法,能把人类彻底清出 AI 的工作流,让它自己从头干到尾,别再难为还不如豆包聪明的我了?

有的兄弟,有的。最近,小龙虾的创始人 Peter Steinberger 提出了一个新概念,叫 loop engineering。

这玩意儿简单来说,就是人提前给 AI 写一份无脑执行说明书,之后啥也不用管,AI 自己来循环工作。

只不过这份说明书动辄几十页 pdf,里面包含了 AI 实操的各种细节要求,堪称 prompt engineering 的 plus ultra pro max 版。

文章配图-1

从写代码,到测试,查 bug,修复,再测试,再修复。。。总之,什么时候结束条件达成了,比如 “ 所有测试通过,benchmark 提升 xx%,循环 20 回合 ”,AI 才能停止工作。

然而,作为又一横空出世的 AI 黑话,世超看到,大部分人其实对 loop engineering 是持怀疑态度的。

有人觉得它看似简单,实际操作难如登天;有人担心燃烧的 token,试错一次原地破产;还有人说这不过是新瓶装旧酒,这些概念以前软件开发早有了。

文章配图-1

但光这么说大伙儿可能觉得还是太抽象。所以,世超干脆搭了一个简单的 loop engineering 项目,给各位差友看看实验过程,也顺便验证一下这到底是新玩法,还是真炒作。

全流程体验下来,世超感觉,全自动化解放人类双手的想法是好的,但真用起来,没那么轻松流畅。

咱们这回实验的目标,是通过 loop engineering,让 AI 用尽各种方法,调教 stable diffusion v1.5 模型的输出,让它的图片生成更稳定,更好看。

各位差友可能对 stable diffusion 有点印象,但不多。作为图片生成模型的元老级存在,它早期的效果放现在 GPT、midjourney 的面前,可以说是完全依托,差到有点诡异吓人。

文章配图-1

可正是这种又差又不稳定的表现,才让它有很大的优化空间。

即使不动基础模型,只是通过提示词修改,模型参数修改(推理步数,scheduler,seed 等),局部重画等等各种手段,stable diffusion 都有可能抽出更好看的图片。

像是下面这个例子,润一润提示词,效果完全不一样。

这要是用上 loop engineering,自动化尝试更多的方法和案例,岂不是更加未来可期?

文章配图-1

为了让 AI好好干活,工具方面,世超精挑细选了开源编程 Agent OpenCode,接上 DeepSeek V4 Pro,让它们来修改代码。

测试部分,我们引入第三方模型,让 Qwen 3.5 Plus 来评价最终生成的图片质量,保证公平。

文章配图-1

接下来开搓 AI 说明书,几十页的文档,和 GPT 老师三轮对话,也是手到擒来。

整个过程简单来说,就是 DeepSeek 改模型,生图 -> Qwen 锐评 -> DeepSeek 根据评语继续改模型,继续调。

文章配图-1

一切准备就绪,世超亲自从头到尾过了一遍,自我感觉十分良好,放心地按下了启动键。

然而,现实却没想象的那么顺利。。。

给大伙儿看看最终实验结果之一,同样的提示词下,感觉 loop 后还远不如 loop 前。

文章配图-1

在反复调整实验的过程中,世超发现,loop engineering 的坑确实不少。

首先,写一份合理的说明书,真的很难。

人能处理的信息带宽有限,几十页的说明书文档,有时候调优手段设置不合理,有时候 loop 终止条件没想到。

可任何一个细节没处理好,都可能导致大量时间和 token 的浪费。loop 半天一查报告,欸嘿,开始就错了。

而即使你反复优化说明书,修改实验,折腾一通下来,可能只是浪费了钱和时间。

世超第一次实验跑了一小时,第二次实验跑了五个小时,结果都很一般,没有达到预期的优化图片效果。

文章配图-1

其次,没有中途调整机会的 loop engineering,很容易越走越偏。

传统的人机 prompt 回合制虽然烦,至少人还能一轮一轮盯着看。图崩了,可能是某个参数没调好,手崩了,就改改 prompt,主打一个对症下药。

虽然写代码人类已经不行了,但拼经验,AI 还是不如人。

可 loop engineering 不一样,它的核心就是提前把规则写死,然后让 AI 在规则里自己循环。

所以,一旦中间哪里出了岔子,比如评价模型不大聪明,把 “ 画面不够精致 ” 当成主要问题,DeepSeek 就可能一轮轮加柔光,加细节,加色彩,最后反而人物失真,人类没有任何插手纠错的机会。

红线左侧为 loop 前样片,右侧为 loop 20 轮后样片

文章配图-1

最后,并不是所有类型的项目都适合 loop engineering。

举个最简单的例子,如果在上面的实验中,我们每次生成一张图片要耗时半小时,用 loop 来迭代拼运气,很显然是不划算的。

所以一般来说,loop engineering 只适合那些,测试目标明确,迭代验证迅速,错误代价低,上下文不太复杂的任务,非常局限。

但你要说,这么多大佬都在吹的 loop engineering,难道就没有什么优点吗?

我只能说,按下启动键的那一刻真的很爽。

文章配图-1

带着一种盲目的信任,把所有压力抛给 AI,不用盯着干活,不用动脑子,坐等结果和报告,这绝对是每一个开发者的梦想。

但这玩意儿实在太不可控,如果你有无限 token,无限算力,可以同时开一堆炉子赛博炼丹,那也许有机会短时间炼出一个好结果。

可对于普通人来说,世超建议,还是不要轻易踏进这个 token 的火葬场了。

来源:差评

本文来自网络,不代表博海拾贝立场,转载请注明出处:https://www.bohaishibei.com/post/110547/
关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
Telegram
返回顶部