大家最想要的全自动工作流，可能只是一场精神按摩

用 AI coding，最绝望的事情是什么？

如果只给世超一票，我会投给，停在一半。

干了半小时，项目刚起好框架，它停在一半。

弹出十个细节 bug，修了三个，它停在一半。

程序动了上百行，测试没跑完，它停在一半。

而面对这些半成品，无能的人类，却连下一句 prompt 都憋不出来，只会搁那 “ 继续继续，你改了啥，回滚回滚，让我们说中文。”

那么问题来了，到底有没有什么办法，能把人类彻底清出 AI 的工作流，让它自己从头干到尾，别再难为还不如豆包聪明的我了？

有的兄弟，有的。最近，小龙虾的创始人 Peter Steinberger 提出了一个新概念，叫 loop engineering。

这玩意儿简单来说，就是人提前给 AI 写一份无脑执行说明书，之后啥也不用管，AI 自己来循环工作。

只不过这份说明书动辄几十页 pdf，里面包含了 AI 实操的各种细节要求，堪称 prompt engineering 的 plus ultra pro max 版。

文章配图-1

从写代码，到测试，查 bug，修复，再测试，再修复。。。总之，什么时候结束条件达成了，比如 “ 所有测试通过，benchmark 提升 xx%，循环 20 回合 ”，AI 才能停止工作。

然而，作为又一横空出世的 AI 黑话，世超看到，大部分人其实对 loop engineering 是持怀疑态度的。

有人觉得它看似简单，实际操作难如登天；有人担心燃烧的 token，试错一次原地破产；还有人说这不过是新瓶装旧酒，这些概念以前软件开发早有了。

文章配图-1

但光这么说大伙儿可能觉得还是太抽象。所以，世超干脆搭了一个简单的 loop engineering 项目，给各位差友看看实验过程，也顺便验证一下这到底是新玩法，还是真炒作。

全流程体验下来，世超感觉，全自动化解放人类双手的想法是好的，但真用起来，没那么轻松流畅。

咱们这回实验的目标，是通过 loop engineering，让 AI 用尽各种方法，调教 stable diffusion v1.5 模型的输出，让它的图片生成更稳定，更好看。

各位差友可能对 stable diffusion 有点印象，但不多。作为图片生成模型的元老级存在，它早期的效果放现在 GPT、midjourney 的面前，可以说是完全依托，差到有点诡异吓人。

文章配图-1

可正是这种又差又不稳定的表现，才让它有很大的优化空间。

即使不动基础模型，只是通过提示词修改，模型参数修改（推理步数，scheduler，seed 等），局部重画等等各种手段，stable diffusion 都有可能抽出更好看的图片。

像是下面这个例子，润一润提示词，效果完全不一样。

这要是用上 loop engineering，自动化尝试更多的方法和案例，岂不是更加未来可期？

文章配图-1

为了让 AI好好干活，工具方面，世超精挑细选了开源编程 Agent OpenCode，接上 DeepSeek V4 Pro，让它们来修改代码。

测试部分，我们引入第三方模型，让 Qwen 3.5 Plus 来评价最终生成的图片质量，保证公平。

文章配图-1

接下来开搓 AI 说明书，几十页的文档，和 GPT 老师三轮对话，也是手到擒来。

整个过程简单来说，就是 DeepSeek 改模型，生图 -> Qwen 锐评 -> DeepSeek 根据评语继续改模型，继续调。

文章配图-1

一切准备就绪，世超亲自从头到尾过了一遍，自我感觉十分良好，放心地按下了启动键。

然而，现实却没想象的那么顺利。。。

给大伙儿看看最终实验结果之一，同样的提示词下，感觉 loop 后还远不如 loop 前。

文章配图-1

在反复调整实验的过程中，世超发现，loop engineering 的坑确实不少。

首先，写一份合理的说明书，真的很难。

人能处理的信息带宽有限，几十页的说明书文档，有时候调优手段设置不合理，有时候 loop 终止条件没想到。

可任何一个细节没处理好，都可能导致大量时间和 token 的浪费。loop 半天一查报告，欸嘿，开始就错了。

而即使你反复优化说明书，修改实验，折腾一通下来，可能只是浪费了钱和时间。

世超第一次实验跑了一小时，第二次实验跑了五个小时，结果都很一般，没有达到预期的优化图片效果。

文章配图-1

其次，没有中途调整机会的 loop engineering，很容易越走越偏。

传统的人机 prompt 回合制虽然烦，至少人还能一轮一轮盯着看。图崩了，可能是某个参数没调好，手崩了，就改改 prompt，主打一个对症下药。

虽然写代码人类已经不行了，但拼经验，AI 还是不如人。

可 loop engineering 不一样，它的核心就是提前把规则写死，然后让 AI 在规则里自己循环。

所以，一旦中间哪里出了岔子，比如评价模型不大聪明，把 “ 画面不够精致 ” 当成主要问题，DeepSeek 就可能一轮轮加柔光，加细节，加色彩，最后反而人物失真，人类没有任何插手纠错的机会。

红线左侧为 loop 前样片，右侧为 loop 20 轮后样片

文章配图-1

最后，并不是所有类型的项目都适合 loop engineering。

举个最简单的例子，如果在上面的实验中，我们每次生成一张图片要耗时半小时，用 loop 来迭代拼运气，很显然是不划算的。

所以一般来说，loop engineering 只适合那些，测试目标明确，迭代验证迅速，错误代价低，上下文不太复杂的任务，非常局限。

但你要说，这么多大佬都在吹的 loop engineering，难道就没有什么优点吗？

我只能说，按下启动键的那一刻真的很爽。

文章配图-1

带着一种盲目的信任，把所有压力抛给 AI，不用盯着干活，不用动脑子，坐等结果和报告，这绝对是每一个开发者的梦想。

但这玩意儿实在太不可控，如果你有无限 token，无限算力，可以同时开一堆炉子赛博炼丹，那也许有机会短时间炼出一个好结果。

可对于普通人来说，世超建议，还是不要轻易踏进这个 token 的火葬场了。

来源：差评

给这篇文章的作者打赏

相关文章

最近刷社交媒体真是各种世界祥和一片

上帝之手和世纪进球仅差了四分钟

越来越多的大佬认为AI有泡沫了

存不存钱和独身不独身没关系，只是和个人有关系

一座来了就努力养你的城市

崩溃的信徒

微信扫一扫关注我们