感谢!
问题有点多。
import urllib.request
#导入urllib包里的request模块。
import re
#导入正则re模块。
from urllib.error import URLError,HTTPError,ContentTooShortError
#从urllib里的error模块导入URLError,HTTPError,ContentTooShortError这三种错误类型。
def download(url,use_agent='wswp',num_retries=2,charset='utf-8'):
#定义一个名为download的函数,该函数有一个叫url的形参;一个名为use_agent,值等于wswp的默参;一个名为num_retries,值等于2的默参;一个名为charset,值为'utf-8'的默参。
print('下载中:',url)
#在ide上显示'下载中:'这个文本和url。
request=urllib.request.Request(url)
#?
request.add_header('User-agent',use_agent)
#添加请求头。
try:
#检测下面的代码是否错误。
resp=urllib.request.urlopen(request)
#urlopen方法用于获取页面内容,返回的数据格式为bytes类型(bytes类型是指一堆字节的集合)。需要decode()解码,转换成str类型。
cs=resp.headers.get_content_charset()
#?
if not cs:
#?
cs=charset
#?
html=resp.read().decode(cs)
#?