.:. 草榴社區 » 技術討論區 » 闲暇之余写了个本站图片下载的小工具
本頁主題: 闲暇之余写了个本站图片下载的小工具字體大小 寬屏顯示 只看樓主 最新點評 熱門評論 時間順序
kingtor


級別:新手上路 ( 8 )
發帖:213
威望:47 點
金錢:389 USD
貢獻:43 點
註冊:2015-08-19

闲暇之余写了个本站图片下载的小工具

批量下载图片的方法有很多,比如浏览器插件、IDM/迅雷等,都提供批量下载的功能。
之前,一直使用fatkun+IDM来批量下载图片,前者用来获取图片链接,后者用来批量下载图片。
但后来觉得这种方法还是有点不方便,一是fatkun之类的浏览器插件加载图片速度慢,要等到所有图片加载完毕后,才能获取到图片链接;二是使用IDM不便于文件管理,下载的图片都保存在一个文件夹里;三是IDM即便已经设置了沉默下载模式,似乎并不起作用,只要下载失败,就会弹出烦人的对话框提示,尤其是在大批量下载的时候,如果出现错误,弹窗能把电脑卡死。
因此,我一直想找一个好用点的批量下载图片工具,能解决上述痛点。但找了很久,尝试过很多工具,都没有让我满意的,便起了自己写一个的心思,于是就有了这个小工具。
在使用了一段时间后,修正了一些bug,特别是逻辑上的错误,自己感觉能用,毕竟上面提到的几个痛点都解决了。
但我不是专业码农,半瓶子不满一瓶子晃荡的水平,所以这个小工具肯定有很多缺点和疏漏,如果有网友发现后更正并分享给大家,不胜感激!
好了,不多废话了,下面简单介绍一下这个小工具。
一、简介
这是一个简单的图片下载工具,可通过多种方式批量抓取和下载图片。
- 支持通过 http和 aria2两种方式下载网页中的图片。 
- 支持多线程、自动重试、断点续传、文件名规范化、代理等功能,并提供友好的命令行交互界面。 
- 支持批量抓取和关键词抓取页面数据,并通过数据库文件打通与下载模块的联系。 
- 提供根据数据库关键词生成词云图的功能。 
- 提供简单的图片面部检测的功能。
二、运行环境搭建
详见README.html
注意:我已经将aria2c.exe可执行文件打包进scripts文件夹了,无需自行下载,所以在安装好python和相关依赖后,就能直接使用了。
三、使用方法
(一)图片下载功能
1、启动下载工具
双击运行根目录下的“给我下.bat”,启动界面如下:

2、选择下载方式
一共两种下载方式,http和aria2,输入数字1或2选择下载方式。

3、单个网页图片下载
以http下载为例,输入数字1后,提示输入网页地址。

输入网页地址后,提示图片下载失败,失败码是403,应该是图片链接失效,或者图床启动了反爬机制,需要输入验证码才能显示。如果遇到这种情况,就只能手动下载了。
换一个网页地址:

提示该链接已经下载过了,无需重复下载。

再换一个网址:

这下没问题了。
切换到aria2下载模式:

在没有403错误和重复下载的前提下,顺利完成了下载任务,图片下载目录位于根目录下的downloads文件夹,图片保存在以帖子标题为名称的文件夹中。
4、多网页下载
输入多个网页地址,网址之间以空格分隔(不支持换行分隔!!!)







5、关键词下载
输入关键词,关键词将匹配帖子标题,如果标题中含有该关键词,则下载这个帖子。
注意:帖子标题信息保存在根目录下的data文件夹中的data.json,使用关键词下载时,程序将读取data.json中的帖子信息,搜索含有关键词的帖子地址。压缩包里已经有现成的data.json文件,里面保存了20000+的帖子信息,可以直接用。当然你也可以运行“给我爬.bat”来自行抓取帖子信息。
比如,输入关键词”反差“,程序搜索data.json返回了696个符合条件的帖子,然后自动启动下载,直到所有帖子下载完毕。






6、帖子抓取
双击运行”给我爬.bat“,程序将给出论坛各板块的ID和名称,输入想要抓取板块的ID。

抓取的帖子信息将保存在data/data.json中,里面包含了每个帖子的地址、标题、关键词等信息。
为了防止重复抓取,程序会检索data.json中的网页地址,如果发现拟抓取的网页地址已经存在了,就会跳过。当某个板块page所有帖子都抓取过了,就会显示空页,如果连续几个空页,那么就会结束抓取任务。具体几个空页结束任务,可以在配置文件里自行设置。




7、其他一些功能
(1)生成词云图
运行”给我画.bat“,程序将统计data.json中所有帖子关键词的词频,然后生成词云图。


通过词云图,可以了解LSP们的喜好,也可以作为关键词下载的一种参考。
比如,从这张词云图可以看出,LSP们最爱“美女”“少妇”“反差”“母狗”“人妻”。

(2)面部检测
这个功能应该是LSP们的最爱,不解释了。当然,这里只提供最简单的、最基础的面部检测功能,而非面部识别功能。
程序运行后,将检索downloads目录下的所有图片,从中找出有脸的图片,并复制到根目录下在face文件夹中。
(3)关键词搜索
下载了这么多图片后,想欣赏某个关键词的图片怎么办?运行“给我搜.bat”,程序会返回所有标题中含有关键词的帖子本地链接,但由于print函数在某些命令行工具中无法打开本地链接,所以本人更推荐使用everything来实现这个功能。
四、工具下载地址
https://mori.teracloud.jp/share/12816bd556b56ae7
按照下面的提示,不需要登陆即可下载:

压缩包解压后,文件结构如下:

其中:.config目录下是存放各种配置文件、停用词表、关键词表、环境依赖文件、字体文件等;data目录下存放的是数据库文件data.json;scripts目录下存放的是各种脚本文件;下载程序启动后,将会在根目录下自动创建downloads目录;README.html是使用说明文档,强烈建议按照该文档配置运行环境,推荐在windows下使用。


[ 此貼由kingtor重新編輯:2025-05-02 21:34 ]

赞(163)
DMCA / ABUSE REPORT | TOP Posted: 05-03 16:56 發表評論
kingtor [樓主]


級別:新手上路 ( 8 )
發帖:213
威望:47 點
金錢:389 USD
貢獻:43 點
註冊:2015-08-19

引用
引用第112樓loveapple於2025-05-07 16:25發表的 :
代理出错了,楼主给个回复呗

看看配置文件里代理服务器的端口跟代理软件的是否一样?
TOP Posted: 05-07 21:18 #1樓 引用 | 點評
.:. 草榴社區 » 技術討論區

電腦版 手機版 客戶端 DMCA
用時 0.02(s) x3, 08-27 14:57