社区 发现 AI 硬核!亚马逊AI作图方案,结合Deeps...
硬核!亚马逊AI作图方案,结合Deepseek和Gemini,效率翻倍
先上价值观,我觉得这套流程的意义在于节省,运营对比竞品图片的时间,同时把优秀的图片文字化,不用再花时间去想怎么表达。
同时,减少了沟通成本。经常做图的朋友应该知道,和美工沟通是一件很痛苦的事情。他不懂你的品味,你不懂他的技术。
很多时候,运营只是觉得,这张图的感觉很好,但是细说,又说不出哪里好。你给美工说,你要做出这种感觉,具体什么感觉呢,你自己体会。美工说我谢谢你啊。
那至少这一套东西出来后,大家再沟通会有一个共识,不会天马行空了。
想法
言归正传,跑一次代码要5-10分钟,我用Claude做了一个流程图,帮助理解。
1. 先把几个竞品ASIN的图片下载下来
2. 让AI视觉模型去分析竞品图片
3. 识别出内容之后,用文本处理的方法提取特征。
4. 用Deepseek R1进行推理
5. 让Gemini综合所有信息,写出文案。

刚开始,我是直接用视觉分析图片,生成作图方案。后来发现,效果不太好。因为AI大模型就和人一样,有的模型擅长视觉分析,有的模型擅长思考,有的模型擅长写作。
如果竞品分析内容太多的话,只用一个大模型不太够用。一是上下文长度不够,大模型不能识别所有的竞品图片分析内容。
二是视觉模型对于图片分析比较擅长,但不擅长写文字内容。针对这种情况,视觉模型负责处理图片识别,最后写产品的方案时候,用另外一个擅长文字的大模型。
所以,测试了几轮后,我确定了多模型组合的流程。
视觉模型:豆包模型,负责分析竞品图片。免费额度比较多,先用着吧。
推理模型:Deepseek R1,负责根据竞品图片的分析和特征,进行推理。成本低且效果上乘。
文案模型:Gemini pro,负责综合竞品图片分析、R1的推理,写出作图方案。Gemini 2.0 pro 有200万上下文,是目前所有大模型中,上下文最长的模型,非常适合输出大量文本。

流程
竞品图片
用卖家精灵的主图下载功能,把主图下载,包括A+图片。但是A+图片太多,有的是大图,有的是小图,我没有测试很多A+图片。

阶段1:视觉分析
用豆包视觉模型,分析一张图片差不多10几秒,一个ASIN的话,大概1分半。一开始还好,后面分析多了话,还是有点费时间的。
而且对于token的消耗也是很大,一张图大概需要消耗6k以上的token。几个ASIN下来,大几万的token就没了。
一天下来,几十万token就没了。好在现在有免费活动,不然还是有点费钱的。
由于太费token了,所以后面在这里加了一个检查机制。如果本地已经存在了分析结果,就跳过分析过程,这对于后期调提示词还是节省了不少时间。

阶段2:特征处理
这个阶段需要把视觉分析的结果,提取特征,方便分析。不然一个ASIN的视觉分析结果,差不多有一千字,产品多的话,直接全给大模型的话,容易受到上下文限制。
特征处理中,我比较熟悉的是TF-IDF和Kmeans聚类,毕竟之前用过这一套处理关键词。
我又让AI多给了LDA的主题分析和词频统计。整体感觉,特征处理的部分的效果一般。
因为Cursor中也有上下文限制,全让Claude改代码的话,超过1000行就有点吃力了。目前这一整套代码,差不多有2000行。
我还测试了AI embedding模型进行向量化,但是让模型Input视觉分析的结果总是出bug,所以就先不折腾了。

阶段3:Deepseek R1推理
拿到视觉模型的分析结果,和特征提取后,把这些内容都给R1去推理。
R1 模型强在推理,在写文案和上下文上,就很一般了。所以,这里只让R1进行推理。

阶段4:Gemini生成方案
Gemini的上下文很长,所以我把上面收集的所有内容,全给gemini,包括视觉模型的分析界,特征处理,Deepseek R1的推理结果。
为了保证文案质量,使用目前Google最强的Gemini 2.0 pro 生成文案。

效果
这是视觉分析的结果,默认输出json格式,再把它转成csv格式,方便横向对比竞品图。

这是特征词分析,感觉一言难尽。。。

这是Deepseek的推理报告。确实需要先用推理模型过一下,直接生成的话,分析不了这么全面。

这是Gemini最终生成的作图方案。采用了总-分的结构,先写出了整体的设计策略,又细致的把每张图的计划写出来。

从效果来说,大大节省了运营分析图片的时间。对于运营的话,是绝无可能分析的这么细致。就一个视觉分析,就节省了足够多的人工时间,更不用说,还有和美工的沟通成本。
优化
其实有很多细节都可以优化,但是我觉得已经是1+1<2,提升可能不会很大,因为已经做到了70分,可以节省了足够多的人工。
我觉得可以优化的地方:
1.视觉模型可以用阿里千问最新的模型,感觉会强一点,缺点是免费额度少。
2.特征处理可以再优化,TF—IDF对语义识别没有AI embedding模型强。
3.语言模型的提示词可以再优化。跑通逻辑,我就花了很多时间,所以在调提示词上,时间就少了。

总结
再简单回顾下整个流程,先是下载多个竞品图片,然后给视觉模型分析。再提取特征,给Deepseek推理。最后综合所有内容,让Gemini写出方案。
没有AI coding,没有Cursor,我是不可能完成到这个程度的。使用过程中,Claude很强,但Cursor在改超过1000行代码的时候,经常出bug卡顿。
AI在写代码的时候,会写很多冗余。因为他会把所有情况考虑到,都做好备用方案。但是无形中,增加了代码量,不好理解。
AI半自动辅助工作,一定会存在很长时间的。与其说AGI,不如说Agent AI。在相当长的时间内,这一定会是主旋律。
最后,代码还是不会分享,因为这只会吸引更多的人来问我怎么安装。。。
对于本次测试的文件,还是放到飞书文档,找我领取。
另外,感兴趣的朋友,可以把图片或ASIN发给我,我来帮你测试效果。

16 个回复
匿名用户
赞同来自: BeagleWerWer 、 坚持就是胜利 、 飘吧啊 、 Yuan888 、 白月光SSS 、 胖福他爹 、 小菜菜菜 、 烟雨2023 、 lzp1178 、 拥抱黑夜 、 小狗也得吃饭 、 felix0668 、 打大小冬瓜 、 Jay_ 、 子泽 、 迪丽锅巴 、 起名很难系列 、 一颗芦苇 、 困了就睡觉 、 假设我是好人 、 星期四只吃麦当劳 、 跨境小白66 、 NicoZzz 、 小白努力进阶中 更多 »