所在分类:  Amazon 所属圈子: Amazon

【原创】亚马逊全站点评论采集器,可批量,永久免费。

发帖12次 被置顶0次 被推荐0次 质量分1星 回帖互动560次 历史交流热度55.28% 历史交流深度0%
Hello, 大家好。
本程序是由python编写,专用于爬取Asin的评论,这是该程序的最初版本,目前是自用于美国站点,后面功能会慢慢增加。作出几点说明:
 
1. 该程序为单线程,楼主条件有限,暂时没有购买代理ip, 所以无法维护自己的代理池,如果不用代理ip的话,直接使用多线程百分百会被亚马逊干掉,单线程和多线程的区别也只是爬取速度上的区别,目前单线程是足够用的。
 
2. 该程序第一次使用会先创建Asin_list.txt文件,你需要先将目标asin填写到txt文件中,数量没有限制,一行一个,asin错误会让程序运行失败。
 
3. 因为是自用,没有给程序写一个美观的ui, 使用的是dos界面(全自动爬取,感觉也不需要ui),图标也没有更换,凑合着用吧。
 
4. 目前爬取的内容包括Review的 : 评论人名字, 星级, 发布时间,验证购买, 评论标题, 评论内容。内容将保存在 xls文件中。 其他的内容看你们需不需要,需要的话是可以加进去的。
 
5. 本程序永久免费,不定期维护更新,请勿出售买卖(虽然很多卖家根本看不上这个程序,但是流程还是要走的呀,哈哈)。
 
6. 如果大家发现了一些bug或是不合理的地方,请指出,我会及时回复和修复。
 
9-12更新:
新加入爬取内容:变体评论标识,点赞数,评论的评论数。提升了爬取速度(爬取大几千或几万评论的时候,后期可能会变慢或假死,变慢是因为大量的请求堵塞网络,假死可能是被亚马逊检测到了,导致重新建立连接也失败),后续将添加其他所有站点的爬取选项。不定期更新。
 
9-12下午更新:
新加入 全站点爬取评论,日本站除外(要科学shangwang才行)。需要注意,因为是批量爬取,所以同站点的Asin放在txt文件中是没有问题的,但是如果将几个站点的asin放在一起,这样是无法爬取成功的。另外楼主的网络访问各个站点都很慢,测试的效果不是很好,具体效果请你们自行测试,如果发现有什么bug和其他问题,可以给我留言。

9-23更新:
新加入Color内容爬取,之前只爬取了是否属于变体。
 
10-12更新:
由于亚马逊更新了Rating概念,导致之前版本爬取出错,现已修复,如发现其他问题,请留言。新版本链接已更新。
 
10-22更新:
修复小语种站点的爬取问题,重构代码,目前版本全站点都能用(nl,jp,cn除外),此版本相比于之前版本速度会稍慢一点,第一次运行程序会触发系统提示,允许连接就行了或者右键以管理员身份运行也可以。如程序卡死可能是电脑配置和网络问题,也有可能是亚马逊前台的问题,多试几次就好,后续版本会尝试新的爬虫库优化爬取速度,最终版本应该会是图形化界面一体程序(包含评论爬取,QA爬取,listing基本信息爬取等等),后续版本不定期更新。

10-22下午更新:
新增评论链接爬取,大幅度优化爬取速度,全站点都能用(nl,jp,cn除外)。
 
10-25更新:
更新单文件版,更换原始图标,该程序依赖谷歌浏览器,使用前需提前安装好谷歌浏览器。
 
12-26更新:
修复部分小问题,新增加爬取评论者Profile。
 

2020-1-7说明:
因某种特殊原因,停止所有亚马逊系列软件的开发和更新。


2020-11-4更新:
加入了日本站点,抽空更新了一下,现在能正常使用了。 


蓝奏云网盘 : 
https://wwa.lanzous.com/b0cer69nc
密码:5rud

 
亚马逊全站点QA采集器 传送门:http://www.wearesellers.com/question/13565
已邀请:
我们值得给有分享精神的人点个赞                                                                                                   

要回复问题请先登录注册

x 点击咨询