标签:scrapy

webdriver 获取的page_sorce 还是js怎么办?

304 views

在使用scrapy、selenium 和 chrome结合爬虫爬取网易云动态界面的时候发现有个问题?为什么通过webdriver获取到的page_source 里面都是js,不应该是已经渲染好的页面吗?说好的所见即所得呢?
问题出在哪呢?问题出在页面可能包含多个js文件,这些js文件生成了html代码,而且在生成过程中使用了下图所示的iframe这个东西,导致你的page_source都是js,那怎么把page_source里面的js转换成html呢?

继续阅读