可视化爬虫SPY | 01

今天把我去年开发等可视化爬虫SPY整理了下,虽然它还在demo阶段,但我已经在经常使用来爬取一些数据了,用的过程还是比较方便的,区别于其他纯代码的爬虫工具。

SPY用的数据库是mongod,我用的数据库管理工具是

mongobooster

本篇把SPY的基本使用流程介绍一下。

1、打开程序,界面是下图这样的:

右上图,我把目前的主要功能罗列了下,可以对照下;

一个爬取数据的过程,我分解为:

step1:

浏览目标网站,提取目标网站的网页结构

step2:  

编写代码,这边用的是纯javascript,我封装了些简单的接口

step3:  

输出爬取结果

2、接下来,我以百度的首页为例子,介绍整个使用流程,地址栏输入百度网址,然后点击刷新(下图红圈)(或回车)

3、打开后,界面如下图,会看到熟悉的chrome浏览器界面,默认应该是开启了chrome的调试工具(见下图)

如果没有自动开启chrome的调试栏,可以,点击菜单栏--view--toggle developer tools,开启(下图)。

4、用chrome的inspect功能。如果你学习过爬虫或者写过前端,那你应该很熟悉inspect功能,如果不熟悉可以查找chrome开发者工具的相关资料进行学习。

5、这边我要爬取首页的所有文章标题,发现都存在于一个

class="s-text-content"的div的h2里面。

6、切换到console栏,编写简单的js代码。

var doms=document.querySelectorAll('.s-text-content');

doms.forEach(function(dom,index){

var title=dom.innerText;

console.log(title);

});

回车,结果如下:

由于百度首页是异步加载的,这边我们把页面滑动到最下面,然后再运行下代码。

对于异步加载的页面,可以用spy的定时器功能。这个等回头我再补一篇教程。

7、把代码复制到step2里的输入框,然后运行。

var res=[];

var doms=document.querySelectorAll('.s-text-content');

doms.forEach(function(dom,index){

var title=dom.innerText;

res.push(title)

});

spy.getResult(res)

这边调用了我封装的接口,spy.getResult(),把爬取的结果保存为json文件。

默认调用接口后会自动保存至Downloads路径的Spyfari+‘数字’路径。

如下图

可以点击下保存按钮,另存为其他路径。

-----------------------

一个完整的爬取流程就是这样。

SPY的下载链接:

https://pan.baidu.com/s/1kUXk1BT

密码: bxaq

暂时只有MAC版本

使用过程有任何问题请跟本号联系。

后续我会把

定时任务;

自动下载图片/文件;

接入mongod数据库;

等内容介绍完整。


(0)

相关推荐

  • Chrome开发者工具不彻底指南:(3、性能篇)

    卤煮在前面已经向你们介绍了Chrome开发者工具的一些功能面板,其中包括Elements.Network.Resources基础功能部分和Sources进阶功能部分,对于通常的网站项目来讲,其实就是须 ...

  • Chrome View Source Code 那些事

    原文:How to View HTML Source in Chrome and Why 您网站的源代码是您网站的"动力". 它决定了您网页的感觉.外观和功能,帮助您实现出色的用户 ...

  • 使用 Chrome 开发者工具分析内存问题

    DevTools 显示了按功能划分的内存分配细目. 默认视图是 Heavy (Bottom Up),它在顶部显示分配最多内存的函数. Fix memory problems 内存泄漏很容易定义. 如果 ...

  • 使用 Chrome Dev tools 分析应用的内存泄漏问题

    Catching memory leaks with Chrome DevTools 当分配的内存没有返回给操作系统或内存池时,我们将其称为内存泄漏. 在这种情况下,内存未被任何应用程序使用,并且被不 ...

  • python爬虫入门01:教你在 Chrome 浏览器轻松抓包

    通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫 也知道了爬虫的具体流程 那么在我们要对某个网站进行爬取的时候 要对其数据进行分析 就要知道应该怎么请求 就要知道获取的数据是 ...

  • Python爬虫入门教程01:豆瓣Top电影爬取

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  • 从0-1带你制作可视化地图(一)

    第三方地图的获取和对接 普通地图一般都是去对接三方平台,如百度地图.高德地图.腾讯地图.谷歌地图等.他们都会提供对应的地图开放服务. 以高德地图为例,实操下地图的获取和调色方法以及最后跟开发交付的流程 ...

  • 爬虫实战 | 采集&可视化知乎问题的回答

    问题链接 https://www.zhihu.com/question/432119474/answer/1597194524 爬虫设计流程 探寻网址规律 尝试对某一网页访问 解析感兴趣的数据 存储到 ...

  • 熬夜整理!Python爬虫可视化 自动化办公

    背景 1.如何系统的学习Python爬虫与可视化 2.如何系统的学习Python自动化 3.SQL在数据分析中的应用 4.优质数据分析文章分享.篇幅限制,内容简短说明. 第一份 Python爬虫可视化 ...

  • 基于京东手机销售数据的爬虫及可视化 来自 陆小北

    买数码3C,大家首选的平台应该是京东吧,不仅物流速度快,有正品保证,退换也很方便,所以京东手机销量数据在几家电商平台有一定的代表性. 项目名称:基于京东手机销售数据的爬虫及可视化 数据来源:基于京东关 ...

  • python爬虫28 | 你爬下的数据不分析一波可就亏了啊,使用python进行数据可视化

    通过这段时间 小帅b教你从抓包开始 到数据爬取 到数据解析 再到数据存储 相信你已经能抓取大部分你想爬取的网站数据了 恭喜恭喜 但是 数据抓取下来 要好好分析一波 最好的方式就是把数据进行可视化 这样 ...

  • 02技能之谷歌Chrome爬虫 |数据爬取及可视化系列

    上期我们研究了01基于位置的用户画像初探. 今天更新一篇<数据爬取及可视化系列>的技能相关的文章:爬虫技能. 前阵子研究了nodejs爬虫相关的内容,发现最好用的还是casperjs,一个 ...

  • 01基于位置的用户画像初探|数据爬取及可视化系列

    研究了1个月的nodejs爬虫,数据提取,mongodb数据库,数据可视化等等内容,我终于写了第一篇关于数据的文章,哈- 这个系列的文章会从: 技能 数据来源 数据可视化的套路 交互设计 等方面进行更 ...