用python爬取内部某一个系统的页面,发现逐一爬取没问题,并发爬取网页不完整。
方法1:request,没问题
代码就不列出来了
方法2:grequests设置size=1时,没问题。
for page_index in range(1, page_count + 1):
url_query = r"http://***/SP/SlstxSearch.jsp"
url_query += r"?ACTION=getPage&PAGE={}"
request = grequests.post(
url=url_query.format(page_index),
)
request_list.append(request)
response_list = grequests.map(
requests=request_list,
size=1
)
方法3:grequests设置size=2时,网页开始不完整
for page_index in range(1, page_count + 1):
url_query = r"http://***/SP/SlstxSearch.jsp"
url_query += r"?ACTION=getPage&PAGE={}"
request = grequests.post(
url=url_query.format(page_index),
)
request_list.append(request)
response_list = grequests.map(
requests=request_list,
size=2
)
方法4:多线程+request,网页还是不完整,和方法3一样。
不完整的情况:每一页都有一个表格,内部行数都10,逐一取的时候都能取下来,但是并发的状态,有时就取不到完整的10行。
在网上找资料,逐一能取到说明不是AJAX或是JS的问题吧,为什么会这样,请高手路过支招。