阿饱赞 2021-07-30 00:11 采纳率: 50%
浏览 184
已结题

想用pycharm爬虫提取一个网页

用python做爬虫,网站http://fz.people.om.cn/skygb/sk/
结果是这样
img
爬虫的话也爬不出来
img


import requests
from bs4 import BeautifulSoup #用bs4中的BeautifulSoup
import time
import random

def get_html(url):
    try:
        head = {'user-agent': 'Mozilla/5.0'}
        html= requests.get(url,timeout=5)#请求获得网站(不要超时)
        soup=BeautifulSoup(html.content,'html.parser')#创建一个BeautifulSoup对象
        return  soup
    except:
        print('error')#如果弄不出来,就报个错

def xlfirstline(soup):
    get_line=[]
    get_jc_a=soup.find('div',class_='jc_a')
    get_tr=get_jc_a.find('tr')
    tr=get_tr.find_all('th')
    for each_th in tr:
        th=each_th.get_text()
        get_line.append(th)
    return  get_line

def prt_ret(get_result):
    with open(r'D:\学python\国家社科基金项目数据库.txt','a') as f:
        while get_result:
            for i in range(20):
                f.write(get_result.pop(0)+'t')
            f.write('\n')

def get_content(soup):
    get_result=[]
    get_jc_a=soup.find('div',class_='jc_a')
    tr=get_jc_a.find_all('td')
    for each_td in tr:
        td=each_td.get_text()
        get_result.append(td)
    return get_result

def main():
    url='http://fz.people.com.cn/skygb/sk/index.php/Index/index?&p=1'
    soup=get_html(url)
    xlfirstline(soup)
    get_line=xlfirstline(soup)
    prt_ret(get_line)
    for i in range(3):
        wait_time=random.randint(3,10)
        time.sleep(wait_time)
        url = 'http://fz.people.com.cn/skygb/sk/index.php/index/index/' + str(i + 1)
        soup = get_html(url)
        get_result=get_content(soup)
        prt_ret(get_result)

if __name__ == '__main__':
    main()
  • 写回答

4条回答 默认 最新

  • 闭关修炼啊哈 2021-07-30 09:20
    关注

    对你有帮助的话,建议采纳。
    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

问题事件

  • 系统已结题 8月7日
  • 已采纳回答 7月30日
  • 修改了问题 7月30日
  • 创建了问题 7月30日

悬赏问题

  • ¥15 怎样采集或者其它途径拿到全国最新个体工商户数据
  • ¥20 我是一名大学生,想学习java是自学还是报培训班呢
  • ¥15 pycharm该如何爬取网易云歌曲下的评论?
  • ¥15 java调用sap webservice问题
  • ¥20 如何完全复现何恺明resnet论文里的结果,有代码吗,获得论文中的结果(如下图)
  • ¥15 mysql如果表行行数小于1000条还需要分区吗
  • ¥20 有关matlab自定义特殊算符的问题
  • ¥15 第15届蓝桥杯选拔赛斗鱼养殖场
  • ¥15 在vivado的FIFO使用中,FIFO有没有提供可以输出内部存储空间状态的端口?
  • ¥15 C++ QT内存数据匹配对比指导