from requests_html import HTMLSession
session = HTMLSession()
url = 'https://news.163.com/'
r = session.get(url)
print(r.html.text)
r.html.links
sel='//*[@id="index2016_wrap"]/div[1]/div[2]/div[2]/div[1]/div/iframe/html/body/a'
results = r.html.xpath(sel)
//这里也试过使用selector,调用html.find(),但是输出也是空
print(results)
https://news.163.com/
网上查了以后发现可能是因为直接从谷歌浏览器复制的selector、xpath和爬虫爬到的不一样。有没有解决这个问题的方法呢?
也有尝试过想用正则表达式,但是实在看不懂。
要爬取的是网易新闻首页广告的超链接。不知道为什么在图片上html代码最上面标签为iframe的那一行复制出来的路径是绝对路径,再往下就是相对路径了。我直接在标签为a的那行复制出来的是body>a。