博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫学习日记(三)
阅读量:5746 次
发布时间:2019-06-18

本文共 878 字,大约阅读时间需要 2 分钟。

之前做的task发现commit的时候出现点问题,失败了,具体失败的原因还不知道。而且Cindy姐姐给我们讲QA的时候,也跟我讲了我做的有点问题,应该说是方向有点不对,邮件里面东哥说的是要改stack里面的信息,但是其实Cindy姐姐要的是改掉Content里面的东西,只要搜索不到的船的信息,这样子它爬虫爬不到数据之后,可能好做一些统计工作一些,或许吧。。。具体我的也不懂,QA工具还用的不是很熟练,正确来说应该是不会用。

Cindy的要求:

所以要重新改了

现在的问题就是,我测试不了!

我也不知道这个content里面的值是哪里传进去的,因为content里面有这些内容:

而在代码里面我也看到相似的:

所以我简单的以为,这些信息都是像之前我接触过得,是拼接而成的。 结果认真看的时候,发现其实这都是selenium里面的方法,模拟操作的,跟报的这个没有啥关系,而且我猜测,这个报的content里面的内容,就是selenium里面自己写好的exception,它爬不到数据:就是说网页上没有这条船的信息,就报nosuchexception,后面是各种的配置信息。

问题找到了,所以现在我要做的就是,把content里面的内容替换掉,但是我也没有找到任何传content的,也没有注释,估计有其中一个变量是往上面传的。

问了东哥

是这个,ok,好办了。

重新debug,发现真的对unittest里面的整个逻辑清楚了不少,我这里简单记录下好了:

最上面的红框,是设置一些你要搜索的信息。

下面执行crawler,crawler已经注入了instruction,就是各种配置信息,还有要用到的crawler,搜不同的网站就用相对应的crawler,然后执行excute方法,

excute方法里面获取task就是到执行crawler。

这里是抛出stack的时候。

然后在这里输出了这两个list:

结果发现都是空????

如果这里是空,那么content也应该是空的吧,而且执行到后面就直接抛出异常了,needLogPage也没有放东西进去了,很懵。

转载地址:http://tpozx.baihongyu.com/

你可能感兴趣的文章
React.js 集成 Kotlin Spring Boot 开发 Web 应用实例详解
查看>>
webpack+typescript+threejs+vscode开发
查看>>
python读excel写入mysql小工具
查看>>
如何学习区块链
查看>>
搜索问题的办法
查看>>
微信分销系统商城营销5大重点
查看>>
求职准备 - 收藏集 - 掘金
查看>>
htm5新特性(转)
查看>>
Linux-Centos启动流程
查看>>
php 设计模式
查看>>
后端技术精选 - 收藏集 - 掘金
查看>>
Laravel 服务容器
查看>>
mac安装kubernetes并运行echoserver
查看>>
多页架构的前后端分离方案(webpack+express)
查看>>
算法(第4版) Chapter 1
查看>>
前端技术选型的遗憾和经验教训
查看>>
“亲切照料”下的领域驱动设计
查看>>
SRE工程师到底是做什么的?
查看>>
解读:Red Hat为什么收购Ansible
查看>>
Ossim下的安全合规管理
查看>>