当我们了解了前面讲过的不同库的网页爬取后，在实践当中会发现有的时候代码检查没有问题，就是爬取不到数据，这是因为碰到了使用异步加载技术的网页。

何为异步加载？

想理解异步加载技术，先要知道传统的网页是如何加载的，首先，传统的网页更新内容需要对整个页面进行刷新更新，资源浪费较大，但是现在常用的异步加载技术（AJAX：JavaScript和XML）指的就是一种交互式网页应用技术，如没有翻页，一致下滑可以不断更新网页部分数据信息，同时当前网页基础框架和网址等信息都不变指的就是异步加载技术，大大的节约了网络资源。

还有一种判断是否使用了异步加载的方法，就是通过查看数据是否在网页源代码中。

使用了异步加载的网页后，网页中的内容在HTML中是找不到文本信息的，这时候通过常规三大爬取库是抓不到信息的，因此需要逆向去寻找推导出来网页是如何加载数据的过程，这个过程就叫做逆向工程。

如何实现逆向工程？

以Pexels网站为例，我们来看一下如何实现逆向工程：

打开Chrome浏览器对应Pexels网站，右键检查，打开网页源代码，选择Network选项卡。
继续手动下滑网页，会发现XHR文件在不断加载更新，通过上图红框可以发现在固定变化的URL：

https://www.pexels.com/search/book/?format=js&seed=&page=2&type=

https://www.pexels.com/search/book/?format=js&seed=&page=3&type=

https://www.pexels.com/search/book/?format=js&seed=&page=4&type=

尝试删除上述URL中的部分，得到

https://www.pexels.com/search/book/? page=2发现也可以返回正常的网页

这样就逆向推导出来了真实的网页URL，也知道了网页的变化规律，可以开始进行数据爬取了。

由于Pexels图片网站设置了比较严格的反扒机制，后续我们来讲如何破解，我们用hippopx图片网站来进行实践练习，此网站也有大量精美免费无版权图片，大家可尝试看看。

详细代码如下：

import requests
from lxml import etree
import os
headers={
"accept": "xxxx",
"cookie": "xxxx",
"User-Agent": "xxxx",
"referer": "xxxx"
}
list=[]
file='存储路径'
url='https://www.hippopx.com/'
html=requests.get(url,headers=headers)
selector=etree.HTML(html.text)
imgs=selector.xpath('//*[@id="flow"]/li/figure/a/img')
for img in imgs:
   photo=img.get('src')
   list.append(photo)
for item in list:
   print(item)
   data=requests.get(item,headers=headers)
   fp= open(file+'/'+item.split('/')[-1],'wb')
   fp.write(data.content)
   fp.close()

运行结果如下：

存储图片如下：

以上就是异步加载的内容，大家有任何疑问欢迎随时交流！

--每天一小步，未来一大步！

莫方教程网

专业程序员编程教程与实战案例分享

Python爬虫:如何实现异步加载爬取图片?

何为异步加载？

如何实现逆向工程？

详细代码如下：

运行结果如下：