webdriver 获取的page_sorce 还是js怎么办?

304 views

在使用scrapy、selenium 和 chrome结合爬虫爬取网易云动态界面的时候发现有个问题?为什么通过webdriver获取到的page_source 里面都是js,不应该是已经渲染好的页面吗?说好的所见即所得呢?
问题出在哪呢?问题出在页面可能包含多个js文件,这些js文件生成了html代码,而且在生成过程中使用了下图所示的iframe这个东西,导致你的page_source都是js,那怎么把page_source里面的js转换成html呢?

继续阅读

CS学科-生产一篇论文的流水线是什么样子的?

93 views

作为一名计算机学科的硕士,我看到过很多同伴非常迷茫。他们迷茫的原因都来自于同一个问题:生产一篇论文该从何开始下手?相信不止我的同伴们有这个问题,大部分的计算机硕士在刚刚开始的时候都有这个问题。作为一个老油条,我在实验室熏陶了五年之久,对于生产论文这个流水线有个粗略的了解,今天就分享给大家。

继续阅读

CS硕士如何做一场成功的组内学术报告?

90 views

作为在一个实验室打了多年酱油的老油条,本人听过许多次师兄师姐的学术报告,也做过很多次组内的学术报告。组内学术报告的目的一般在于:根据你最近看的论文,讲述这篇论文的工作,然后介绍你将来的工作。报告的重点在于讲述这篇的缺点,引出你想要做的想法。

继续阅读

2020快手编程比赛-苟到18名的思路及总结

81 views

作为一名比赛水军,本菜鸟绝对不会放过任何一次有奖品的比赛。今年是快手第一次举办程序设计类的比赛,本次比赛的题目主要为日志分析。即给你差不多十几个G的数据,你怎么快速分析得到相应的指标,并构造高效的函数接口用于查询。本次比赛主要使用Java编程语言,最终得分8199,苟到了14名。

继续阅读