八爪鱼零编程爬虫入门

始、前言

“还在捣鼓python爬虫?不如先来试试零编程爬虫”

最近需要爬很多很多数据集,尝试了一下python爬虫,出现很多奇奇怪怪的问题,还是先来学习下八爪鱼无编程爬虫怎么用吧

这次的任务是在百度搜索中获取“鸡”的图片


一、图片链接采集

1.在首页【输入框】中输入目标网址 https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1586763732362_R&pv=&ic=&nc=1&z=&hd=&latest=&copyright=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&sid=&word=鸡,点击【开始采集】,八爪鱼自动打开网页。(打开网页后,如果开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。)

2.添加一个【循环】,进入【循环】设置页面。选择循环方式为【文本列表】,点击编辑按钮,将我们准备好的关键字输进去后保存。(可同时输入多个关键字,一行一个即可,如“公鸡”、“母鸡”、“小鸡”,可根据自身需求进行替换)

3.选中页面中的搜索框,在黄色操作提示框中,选择【输入文本】后点击【确定】,将【输入文本】步骤拖入【循环】中。然后进入【输入文本】设置页面,勾选【使用当前循环里的文本来填充输入框】后保存。

4.在【循环】中选择一个关键词,再点击【输入文本】,可以看到,关键词成功输入进网页的文本框中。然后选中【百度一下】按钮,在操作提示框中点击【点击该按钮】,出现关键词的搜索结果列表页。

5.向下滚动页面,会加载出新的图片列表,在八爪鱼中也需设置滚动,进入【点击元素】设置页面,点开【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【滚动到底部】,【滚动次数】为10次,【每次间隔】1秒 ,设置后保存。

同时也可以设置 【Ajax超时】10秒 和【执行前等待】3 秒,以便采集更全数据。

6.创建【循环列表】,采集所有图片地址:

① 选中页面上1个图片列表

② 在黄色操作提示框中,点击【选中全部】

③ 点击【采集以下图片地址】

7.自动生成的【循环列表】定位XPath,默认只定位到前21个图片。我们需要修改一下,使其定位到所有的图片。进入【循环列表】设置界面,修改XPath为:**//div[@class="imgpage"]/ul/li** 后保存。

8.八爪鱼自动为我们提取了列表中的所有字段。但是有些字段没提取到,比如关键词的文本。我们可以手动提取。选中页面的输入框,在操作提示框中选择【采集文本框的值】,将输入的关键词文本采集下来。

9.在【当前页面数据预览】页面,可删除多余字段,修改字段名,移动字段顺序等。

10.单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。

经过如上操作,我们已经得到了要采集的图片的URL。

接下来,可通过八爪鱼提供的图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中。


二、图片保存及处理

1.下载八爪鱼图片批量下载工具:**[https://pan.baidu.com/s/1c2n60NI]**下载完成后,双击文件中的`MyDownloader.app.exe`,打开软件,点击【File】,选择从EXCEL导入(目前只支持EXCEL格式文件)

2.进行相关设置:

选择EXCEL文件:导入需要下载图片地址的EXCEL文件

EXCEL表名:对应数据表的名称

文件URL列名:表内图片URL所在的列名称

保存文件夹列名:EXCEL中需要单独一个列,列出图片想要保存到本地的路径(哪个文件夹)。

列名可自定义设置。

列中的数据有固定格式:【D:\图片保存文件夹名\】,其中存储盘和文件夹名可自定义设置,【D:\】需在英文状态下输入,不可用中文输入。(注意路径结尾还有一个“\”)

配置完成后,点击【OK】保存。

3.在文件夹内新建文本文档,文档名称随意,在文档内输入 ren *.* *.jpg,另保存为【新建文本文档.bat】,运行文件(bat是dos下的批处理文件)

这样就将文件夹内所有图片转换成.jpg格式