GPT-Image-2 ：随意做出可作为“证据”的图片，强到让人恐慌

日期：2026-04-22 20:13:48 / 人气：28

这是4月21日GPT-Image-2在Image Arena Text-to-Image排行榜上领先第二名的Elo分差。Arena官方用了一个词：clean sweep——全榜第一，没有例外。
OpenAI在这天正式发布了GPT-Image-2。面向所有ChatGPT用户，API预计5月初跟进。核心参数：最高4096×4096分辨率，生成速度比前代快一倍，文字渲染准确率从前代的90-95%跳到约99%。定价每百万token$8-$30，折合单张图片$0.006-$0.211。
模型分两种模式。Instant是快出图，所有人可用；Thinking模式集成推理和网页搜索，单次最多生成8张风格一致的图片——但锁在Plus及以上付费层级。
只看参数，这像一次常规迭代。但Arena创始人@ml_angelopoulos看完Arena榜单后说了一句话：""literally broke the chart——有史以来最大的差距。""
差距背后是一个积攒了三年的问题终于被正面回应了。AI图像生成最大的笑话，一直是文字。
DALL-E 3拼不对复杂单词，Midjourney把招牌写成乱码，Stable Diffusion在海报上输出鬼画符。文字渲染是生图模型的""手指问题""——不是不重要，而是一做就露馅。99%的准确率如果成立，AI生成的海报、菜单、UI截图、品牌物料第一次可以跳过人工修正，直接交付。
生图模型的能力边界，正在从""视觉""扩展到""信息""。
1
案例：它到底能做什么
发布当天，社区反应几乎是即时的。
文字渲染是发布当天被验证最多的能力。VentureBeat的Carl Franzen让模型生成阿兹特克、玛雅和印加三大帝国版图的历史地图，附完整图例。地图准确、图例完全可读，他用的词是""seemingly flawlessly""。
TechCrunch的Amanda Silberling让模型生成一份墨西哥餐厅菜单——两年前DALL-E 3拼不对""enchilada""，这次的输出""可以直接放进餐厅使用，客人不会察觉任何异样""。
Thumio创始人@corbin_braun连发几串thread，做了更直觉的对比：把Google Pro 3和GPT Image 2的缩略图生成结果并排放出来。他的结论一个词：""insane。""同一天他还连发数条帖，称这是""YouTube thumbnail endgame""。
文字之外，角色一致性是另一个被反复提到的点。OpenAI演示了从一张自拍生成三页漫画的工作流，角色在多页间保持一致。美妆博主@jameygannon把这个能力拉进了商业场景：一条prompt生成一整套品牌kit——logo、配色、排版、多页应用。

值得注意的是，这些测试全部发生在发布后几小时内，来自不同人、不同场景、不同诉求。没有人在精心挑选最佳输出。
2
技术拆解：为什么这次不一样
架构重写。GPT-Image-2不再基于GPT-4o的图像pipeline。研究负责人Boyuan Chen将其定义为""GPT for images""——一个从头设计的独立系统。社区测试者在4月初Arena泄露阶段（模型以maskingtape-alpha、gaffertape-alpha、packingtape-alpha三个代号出现）就注意到变化：从两阶段生成转向单次推理。
用一个类比：过去的模型是""先听懂你说什么，再动手画""，中间有一次信息压缩；GPT-Image-2是""边理解边画""，语言理解和图像生成在同一过程中完成。所以文字渲染终于准了——生成每个像素时，模型仍然""知道""自己在写什么字。
Thinking模式。开启后，模型在落笔前先规划构图，生成后检查输出，发现错误还会迭代修正。anti gamble创始人@damianplayer的拆解：""reasoning mid-generation——plans the composition,checks its own output。""推理集成还让模型可以在生成过程中调用网页搜索、将文档转化为视觉图表、在8张图片间维持角色一致性。
世界知识的飞跃。训练数据明显偏向真实世界的视觉素材：UI截图、店面招牌、界面布局。当你要求生成""普通工程师的屏幕""，它输出的是可信的显示器画面，不是关键词拼贴。@Yuchenj_UW试用后的判断很直接：""It is really good.OpenAI is finally leading the image gen again。""
架构决定了它能""读懂""文字，Thinking让它能""检查""文字，世界知识让它知道文字应该""长什么样""。三层能力叠在一起，文字渲染从短板变成了长板。
3
人类必须严肃对待这样的以假乱真能力
StartupFortune在发布日给了一个定位：从""creative novelty""到""production infrastructure""。品牌mockup、广告设计、信息图表，过去因为文字不可靠而必须人工介入的场景，开始变成一条prompt可以交付的工作流。
不过StartupFortune自己也加了一句谨慎的提醒：""benchmark performance and production performance often diverge。""99%是实验室数字，真实世界的多语言、多字体、多排版场景能不能hold住，5月API开放后才会有答案。
我们更关心的是另一个问题。
Jake Handy在发布日的Substack技术拆解中写了当天最尖锐的一段：让GPT-Image-2成为最好生产力工具的那组能力——精确的文字渲染、可信的UI布局、真实世界的视觉词汇——恰好也是制造虚假信息的完美工具集。
假UI截图、假Bloomberg终端、假法庭文件、假Slack对话，""every one of those is dense text laid over a known visual vocabulary,which is the exact workload OpenAI optimized for。""（""这些中的每一个都是在已知视觉词汇之上叠加的密集文本，而这正是OpenAI所优化的工作负载。）
这个观察之所以刺眼，是因为它不是在说模型有什么""副作用""，它在说模型最被赞美的那个能力——把文字精确地嵌入可信的视觉场景——本身就是双刃的。
过去的生图模型因为文字太烂，反而天然带有一层""防伪标记""：一眼就能看出是AI做的。GPT-Image-2把这层天然屏障拆掉了。
OpenAI的应对是C2PA元数据水印和溯源分类器。image-2 lauch的直播中，产品负责人Adele Li在发布会上自己承认，元数据""is not a silver bullet""——截图、裁剪、平台压缩，任何一步都让水印失效。
Jake Handy给出的定性我们认为是准确的：""The model is an excellent problem。""
AI图像生成确实进入了""文字时代""。但文字可信这件事，在人类的媒介史上，从来就不只是一个技术问题。
这也许才是那个“强到不应该公开发布”的模型，今天之后，每个人都有了随意生成曾经都会被认作事实证据的图片，信息的判断变得前所未有的难，这个强到离谱的模型会在未来很长一段时间给人们带来恐慌，我们会看到因此而产生的各种冲突和讨论，人类必须一起严肃应对这种以假乱真的能力了。"

作者：耀世娱乐注册登录官网

GPT-Image-2 ：随意做出可作为“证据”的图片，强到让人恐慌

新闻资讯 News

案例展示 Case

现在致电 TG：xylmwohu OR 查看更多联系方式 →

现在致电 TG：xylmwohu OR 查看更多联系方式 →