所在分类:  AI 所属圈子: Amazon AI Deepseek

硬核!亚马逊AI作图方案,结合Deepseek和Gemini,效率翻倍

发帖14次 被置顶3次 被推荐2次 质量分1星 回帖互动169次 历史交流热度54.41% 历史交流深度0%
经过几天的调试,亚马逊AI作图方案已经完成,可以告一段落了。图片分析的效果和文案效果都还行,个人感觉达到了70分左右。在这个基础上,人工再修改,就会节省不少时间。

先上价值观,我觉得这套流程的意义在于节省,运营对比竞品图片的时间,同时把优秀的图片文字化,不用再花时间去想怎么表达。 

同时,减少了沟通成本。经常做图的朋友应该知道,和美工沟通是一件很痛苦的事情。他不懂你的品味,你不懂他的技术。

很多时候,运营只是觉得,这张图的感觉很好,但是细说,又说不出哪里好。你给美工说,你要做出这种感觉,具体什么感觉呢,你自己体会。美工说我谢谢你啊。

那至少这一套东西出来后,大家再沟通会有一个共识,不会天马行空了。

想法
言归正传,跑一次代码要5-10分钟,我用Claude做了一个流程图,帮助理解。

1. 先把几个竞品ASIN的图片下载下来

2. 让AI视觉模型去分析竞品图片

3. 识别出内容之后,用文本处理的方法提取特征。

4. 用Deepseek R1进行推理

5. 让Gemini综合所有信息,写出文案。
https://assert.wearesellers.com/questions/20250318/773848bc1a62c14f353acc2d9f4ddc9d.png AI模型选择

刚开始,我是直接用视觉分析图片,生成作图方案。后来发现,效果不太好。因为AI大模型就和人一样,有的模型擅长视觉分析,有的模型擅长思考,有的模型擅长写作。

如果竞品分析内容太多的话,只用一个大模型不太够用。一是上下文长度不够,大模型不能识别所有的竞品图片分析内容。

二是视觉模型对于图片分析比较擅长,但不擅长写文字内容。针对这种情况,视觉模型负责处理图片识别,最后写产品的方案时候,用另外一个擅长文字的大模型。

所以,测试了几轮后,我确定了多模型组合的流程。

视觉模型:豆包模型,负责分析竞品图片。免费额度比较多,先用着吧。

推理模型:Deepseek R1,负责根据竞品图片的分析和特征,进行推理。成本低且效果上乘。

文案模型:Gemini pro,负责综合竞品图片分析、R1的推理,写出作图方案。Gemini 2.0 pro 有200万上下文,是目前所有大模型中,上下文最长的模型,非常适合输出大量文本。
https://assert.wearesellers.com/questions/20250318/4192fb641f09bc2c8a7af2178b1bc1ba.png
 
流程

竞品图片

用卖家精灵的主图下载功能,把主图下载,包括A+图片。但是A+图片太多,有的是大图,有的是小图,我没有测试很多A+图片。
https://assert.wearesellers.com/questions/20250318/132e4ea0d46331a8d188e7a0409f2d9f.png
 
阶段1:视觉分析

用豆包视觉模型,分析一张图片差不多10几秒,一个ASIN的话,大概1分半。一开始还好,后面分析多了话,还是有点费时间的。

而且对于token的消耗也是很大,一张图大概需要消耗6k以上的token。几个ASIN下来,大几万的token就没了。

一天下来,几十万token就没了。好在现在有免费活动,不然还是有点费钱的。

由于太费token了,所以后面在这里加了一个检查机制。如果本地已经存在了分析结果,就跳过分析过程,这对于后期调提示词还是节省了不少时间。
https://assert.wearesellers.com/questions/20250318/4b2db334fae2dd93c04f3185d4547c7c.png
 
阶段2:特征处理

这个阶段需要把视觉分析的结果,提取特征,方便分析。不然一个ASIN的视觉分析结果,差不多有一千字,产品多的话,直接全给大模型的话,容易受到上下文限制。

特征处理中,我比较熟悉的是TF-IDF和Kmeans聚类,毕竟之前用过这一套处理关键词。

我又让AI多给了LDA的主题分析和词频统计。整体感觉,特征处理的部分的效果一般。

因为Cursor中也有上下文限制,全让Claude改代码的话,超过1000行就有点吃力了。目前这一整套代码,差不多有2000行。

我还测试了AI embedding模型进行向量化,但是让模型Input视觉分析的结果总是出bug,所以就先不折腾了。
https://assert.wearesellers.com/questions/20250318/c84f066d376a551a507769679808b6a3.png
 
阶段3:Deepseek R1推理

拿到视觉模型的分析结果,和特征提取后,把这些内容都给R1去推理。

R1 模型强在推理,在写文案和上下文上,就很一般了。所以,这里只让R1进行推理。
https://assert.wearesellers.com/questions/20250318/2c30f0558e77186961a07da2e4fcad20.png
 
阶段4:Gemini生成方案

Gemini的上下文很长,所以我把上面收集的所有内容,全给gemini,包括视觉模型的分析界,特征处理,Deepseek R1的推理结果。

为了保证文案质量,使用目前Google最强的Gemini 2.0 pro 生成文案。
 
https://assert.wearesellers.com/questions/20250318/5eaf98f1e962c7a897b0713392fb68db.png
 
效果

这是视觉分析的结果,默认输出json格式,再把它转成csv格式,方便横向对比竞品图。
https://assert.wearesellers.com/questions/20250318/a79e6e3ce3d95778bf9bbb4129ad48b7.png
 
这是特征词分析,感觉一言难尽。。。
https://assert.wearesellers.com/questions/20250318/2aabd9793c62ea2d3c235b1874f6e081.png
 
这是Deepseek的推理报告。确实需要先用推理模型过一下,直接生成的话,分析不了这么全面。
https://assert.wearesellers.com/questions/20250318/5c778c4f9b88164d3f83864e09769334.png
 
这是Gemini最终生成的作图方案。采用了总-分的结构,先写出了整体的设计策略,又细致的把每张图的计划写出来。
https://assert.wearesellers.com/questions/20250318/f3964474990b0878b9b06b526a559273.png
 
从效果来说,大大节省了运营分析图片的时间。对于运营的话,是绝无可能分析的这么细致。就一个视觉分析,就节省了足够多的人工时间,更不用说,还有和美工的沟通成本。

优化

其实有很多细节都可以优化,但是我觉得已经是1+1<2,提升可能不会很大,因为已经做到了70分,可以节省了足够多的人工。

我觉得可以优化的地方:

1.视觉模型可以用阿里千问最新的模型,感觉会强一点,缺点是免费额度少。

2.特征处理可以再优化,TF—IDF对语义识别没有AI embedding模型强。

3.语言模型的提示词可以再优化。跑通逻辑,我就花了很多时间,所以在调提示词上,时间就少了。
https://assert.wearesellers.com/questions/20250318/ad160166b8acfc55f293919f7a39113a.png
 
总结

再简单回顾下整个流程,先是下载多个竞品图片,然后给视觉模型分析。再提取特征,给Deepseek推理。最后综合所有内容,让Gemini写出方案。

没有AI coding,没有Cursor,我是不可能完成到这个程度的。使用过程中,Claude很强,但Cursor在改超过1000行代码的时候,经常出bug卡顿。

AI在写代码的时候,会写很多冗余。因为他会把所有情况考虑到,都做好备用方案。但是无形中,增加了代码量,不好理解。

AI半自动辅助工作,一定会存在很长时间的。与其说AGI,不如说Agent AI。在相当长的时间内,这一定会是主旋律。

最后,代码还是不会分享,因为这只会吸引更多的人来问我怎么安装。。。

对于本次测试的文件,还是放到飞书文档,找我领取。

另外,感兴趣的朋友,可以把图片或ASIN发给我,我来帮你测试效果。
https://assert.wearesellers.com/questions/20250318/b93caf322ada01e6882c9b2e5e8d6008.png
已邀请:
h很好很棒,不过还不如直接花点钱给外包,做不好还可以DIAO他们,做个霸道甲方,改到满意为止,不用上面那么多流程,哈哈哈哈
要回复问题请先登录注册

加入卖家社群
关注公众号
加入线下社群
广告 ×
10s