网页反爬机制比较厉害,尝试selenium+mitmproxy也破不了。网页是socket发送信息的。
逻辑很简单,我的目标是直接获取网页加载完毕后某个时点的页面信息然后发送到python中处理。
现在通过chrome的 web scraper插件,可以获取到相关信息,但是爬到的数据只能下载到电脑中再进行处理。有没有办法能直接发送至python中?
此外,通过mitmproxy可以获取到socket发送的信息,但是解析太困难了,有没有办法通过mitmproxy或其他工具直接获取页面elements,就是最表明的东西,不需要深层次的socket信息。