cxfxynpy 2023-03-12 13:23 采纳率: 44.4%
浏览 10
已结题

公告的链接找不到是在data里面找吗?


"""
http://www.ccgp-hunan.gov.cn/page/notice/more.jsp

https://hunan.zcygov.cn/luban/announcement/list?utm=a0017.b0064.3.5.f7fcb4c03c7411ed84984b6678c33275
需求
1.招投标网站爬虫软件
2.需要有软件界面
3.可以选择下载保存公告文件
4.文件格式pdf
"""
import csv
import os
import PyPDF2
import requests
from lxml import etree
import json
from bs4 import BeautifulSoup
from pprint import pprint
url = 'http://www.ccgp-hunan.gov.cn/mvc/getNoticeList4Web.do'
headers = {
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    # 'Cookie': 'JSESSIONID=BD97B12D61360D93BEC5912F62B0F8BC',
    'Origin': 'http://www.ccgp-hunan.gov.cn',
    'Referer': 'http://www.ccgp-hunan.gov.cn/page/notice/more.jsp',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}
data = {
    'pType': '',
    'prcmPrjName': '',
    'prcmItemCode': '',
    'prcmOrgName': '',
    'startDate': '2023-01-01',
    'endDate': '2023-03-11',
    'prcmPlanNo': '',
    'page': '1',
    'pageSize': '18',
}
cookies = {
    'JSESSIONID': 'BD97B12D61360D93BEC5912F62B0F8BC',
}
resp = requests.post(url,headers=headers,data=data,cookies=cookies)
r = resp.text
response = json.loads(resp.text)
lis = response["rows"]
# soup = BeautifulSoup(r,'lxml')
# list = soup.find_all('tr')

print(lis)
data = []
for i in lis:
    # item = {}
    # # print(i)
    # item['名字'] = i['ORG_NAME']
    # item['公告'] = i['NOTICE_TITLE']
    # item['时间'] = i['NEWWORK_DATE']
    # # item['链接'] = i['href']
    # data.append(item)
    title = i['ORG_NAME']
    announcement = i['NOTICE_TITLE']
    time = i['NEWWORK_DATE']
  • 写回答

1条回答 默认 最新

  • threenewbee 2023-03-12 13:41
    关注

    这个需要你动态加载网页,它是js动态加载的,不在源代码里,可以用 webdriver

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 3月20日
  • 已采纳回答 3月12日
  • 创建了问题 3月12日

悬赏问题

  • ¥20 机器学习能否像多层线性模型一样处理嵌套数据
  • ¥20 西门子S7-Graph,S7-300,梯形图
  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码
  • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效