我在爬取一个国外网站遇到的问题?
他的翻页 是动态加载的 每店家下一页 都会多出一个 infinite 请求 俩都是一样的 只能post 来翻页
不知道为什么我的谷歌浏览器看不到表单formdata
不过还好我用抓包工具 fidder上看到了 真是奇怪??
然后就用post提交表单想要达到翻页的效果 但是返回的data是无的 跟我想象的不一样??
这是代码
import requests ,re,json
from bs4 import BeautifulSoup
header={'Accept':'application/json, text/javascript, */*; q=0.01',
'Cookie':'PHPSESSID=95gf2q2rglsttoeimvsqb4saar; cb-enabled=enabled; _ga=GA1.2.1766498299.1637376336; _gid=GA1.2.852145304.1637376336; _gat_gtag_UA_11280151_1=1',
'Hos':'www.aero-mag.com',
'Referer':'https://www.aero-mag.com/category/news',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
,'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
'Content-Typ':'application/x-www-form-urlencoded; charset=UTF-8'
}
body={ 'current_loads':1,
'page_id':'1049',
'psas_page_vars[page_id]':1049,
'loaded_pages[38729][page_id]':38729,
'loaded_pages[38734][page_id]':38734,
'loaded_pages[38736][page_id]':38736,
'loaded_pages[38744][page_id]':38744,
'loaded_pages[38757][page_id]':38757,
'loaded_pages[38758][page_id]':38758,
'loaded_pages[38759][page_id]':38759,
'loaded_pages[38761][page_id]':38761,
'loaded_pages[38766][page_id]':38766,
'loaded_pages[38773][page_id]':38773,
'loaded_pages[38782][page_id]':38782,
'loaded_pages[38783][page_id]':38783,
'block_id':'60c0d24964ef3',
'psas_page_vars[slug_id]':'category',
'tab_id':'false',
'Data':'valuy'}
url='https://www.aero-mag.com/ajax/block/infinite'
data1=requests.post(url,data=json.dumps(body),headers=header,verify=False)
print(data1.url)
print(data1.text)
难道是我表单错误了吗??
我看了一遍没有呀
Content-Typ':'application/x-www-form-urlencoded; charset=UTF-8'
是对应data 的呀 没错误
我只是想要简单的翻页,这给我整不会了,导师不让我用selenium自动化点击 ,说太慢了,看来只能用requests 的post了?或者用别的什么库 scrapy 我还安装错误了目前还没搞懂?
i need help help