阿饱赞 2021-07-30 00:11 采纳率: 50%
浏览 186
已结题

想用pycharm爬虫提取一个网页

用python做爬虫,网站http://fz.people.om.cn/skygb/sk/
结果是这样
img
爬虫的话也爬不出来
img


import requests
from bs4 import BeautifulSoup #用bs4中的BeautifulSoup
import time
import random

def get_html(url):
    try:
        head = {'user-agent': 'Mozilla/5.0'}
        html= requests.get(url,timeout=5)#请求获得网站(不要超时)
        soup=BeautifulSoup(html.content,'html.parser')#创建一个BeautifulSoup对象
        return  soup
    except:
        print('error')#如果弄不出来,就报个错

def xlfirstline(soup):
    get_line=[]
    get_jc_a=soup.find('div',class_='jc_a')
    get_tr=get_jc_a.find('tr')
    tr=get_tr.find_all('th')
    for each_th in tr:
        th=each_th.get_text()
        get_line.append(th)
    return  get_line

def prt_ret(get_result):
    with open(r'D:\学python\国家社科基金项目数据库.txt','a') as f:
        while get_result:
            for i in range(20):
                f.write(get_result.pop(0)+'t')
            f.write('\n')

def get_content(soup):
    get_result=[]
    get_jc_a=soup.find('div',class_='jc_a')
    tr=get_jc_a.find_all('td')
    for each_td in tr:
        td=each_td.get_text()
        get_result.append(td)
    return get_result

def main():
    url='http://fz.people.com.cn/skygb/sk/index.php/Index/index?&p=1'
    soup=get_html(url)
    xlfirstline(soup)
    get_line=xlfirstline(soup)
    prt_ret(get_line)
    for i in range(3):
        wait_time=random.randint(3,10)
        time.sleep(wait_time)
        url = 'http://fz.people.com.cn/skygb/sk/index.php/index/index/' + str(i + 1)
        soup = get_html(url)
        get_result=get_content(soup)
        prt_ret(get_result)

if __name__ == '__main__':
    main()
  • 写回答

4条回答 默认 最新

  • 闭关修炼啊哈 2021-07-30 09:20
    关注

    对你有帮助的话,建议采纳。
    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

问题事件

  • 系统已结题 8月7日
  • 已采纳回答 7月30日
  • 修改了问题 7月30日
  • 创建了问题 7月30日

悬赏问题

  • ¥150 如图所示配置eNSP
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效
  • ¥15 悬赏!微信开发者工具报错,求帮改
  • ¥20 wireshark抓不到vlan
  • ¥20 关于#stm32#的问题:需要指导自动酸碱滴定仪的原理图程序代码及仿真
  • ¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
  • ¥15 stata安慰剂检验作图但是真实值不出现在图上
  • ¥15 c程序不知道为什么得不到结果
  • ¥15 键盘指令混乱情况下的启动盘系统重装