救救孩子吧,用requests+re爬取彩虹岛主页信息

我刚学几天python,我也不会啊,
求源代码
例文图片说明图片说明

import requests
import re
url = 'http://tmall.chd.sdo.com/'
res= requests.get(url)
lt=re.findall('

(.*?)

',res.text,re.S)
print(lt)

2个回答

爬取网页内容和简单,主要是看你想要里面的什么内容,然后通过xpath、bs4或者re去匹配即可

#-*- coding:utf-8 -*-

import requests
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"}
url = 'http://tmall.chd.sdo.com/'
res= requests.get(url,headers=headers)
print(res.content.decode('utf-8'))
m0_37886429
幸福丶如此 回复Thanks_21: 就是你自己想从源码里面获取什么数据
2 个月之前 回复
Thanks_21
Thanks_21 回复幸福丶如此: 请问针对格式是什么呢,怎么打出来啊,怎么针对啊。谢谢您
2 个月之前 回复
m0_37886429
幸福丶如此 回复Thanks_21: 我上面写的就是把网站首页源代码都爬取下来了,后面就是看你想要什么数据了,然后再针对性的从源码里面获取
2 个月之前 回复
Thanks_21
Thanks_21 你说的我都看不懂..........,我刚转进来,能帮忙做一下爬取的代码吗,谢谢您
2 个月之前 回复

我用的java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
String url ="https://www.baidu.com";
try {
Document doc = Jsoup.connect("https:www.baidu.com").get();
Element content = doc.body();
Elements links = content.getAllElements();
for (Element link : links) {
String linkText = link.text();
System.out.println(linkText);
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
获取的页面数据,操作起来很像jq,很简单

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问