关于爬虫

随笔

Posted by jiang on July 14, 2020

爬取速度并不是越快越好

  • 在不知道后端干了什么事的情况下,伪造请求头是糟糕的想法,爬虫的爬取速度并不是越快越好,大型网站下很容易被封号或者拉黑
  • 持续稳定的爬取才是上上策,这样既没有封号的风险也不容易追踪和发现

反爬虫与爬虫只是成本问题

  • 网站公开就代表用户可以获取一定的数据,反爬虫只是限制一些不常规的请求。
  • 通过一定技术手段,爬虫总是可以获取需要的数据,这是双方的博弈。只不过你愿意花多少时间、精力和金钱来获取,反爬虫愿意花多少时间、精力和金钱来阻止你获取。

尽可能的模拟人的行为

  • 尽可能的模拟人的行为,寻找爬虫与反爬虫的共存点才是最重要的
  • 未来反爬虫可能会加入机器学习,从而对人的行为进行模拟和抽象,来判断是否是爬虫(爬虫有固定的模式,基本不会犯错,但是人可能有些误操作)
  • 哪怕是不封锁,爬虫暴露了一点好处也没有,反爬虫也许会通过一些策略给你些假数据(这个很坑爹)
  • 总之,要做到深藏功与名,匿了匿了