想用pycharm爬虫提取一个网页

用python做爬虫，网站http://fz.people.om.cn/skygb/sk/
结果是这样

爬虫的话也爬不出来


import requests
from bs4 import BeautifulSoup #用bs4中的BeautifulSoup
import time
import random

def get_html(url):
    try:
        head = {'user-agent': 'Mozilla/5.0'}
        html= requests.get(url,timeout=5)#请求获得网站（不要超时）
        soup=BeautifulSoup(html.content,'html.parser')#创建一个BeautifulSoup对象
        return  soup
    except:
        print('error')#如果弄不出来，就报个错

def xlfirstline(soup):
    get_line=[]
    get_jc_a=soup.find('div',class_='jc_a')
    get_tr=get_jc_a.find('tr')
    tr=get_tr.find_all('th')
    for each_th in tr:
        th=each_th.get_text()
        get_line.append(th)
    return  get_line

def prt_ret(get_result):
    with open(r'D:\学python\国家社科基金项目数据库.txt','a') as f:
        while get_result:
            for i in range(20):
                f.write(get_result.pop(0)+'t')
            f.write('\n')

def get_content(soup):
    get_result=[]
    get_jc_a=soup.find('div',class_='jc_a')
    tr=get_jc_a.find_all('td')
    for each_td in tr:
        td=each_td.get_text()
        get_result.append(td)
    return get_result

def main():
    url='http://fz.people.com.cn/skygb/sk/index.php/Index/index?&p=1'
    soup=get_html(url)
    xlfirstline(soup)
    get_line=xlfirstline(soup)
    prt_ret(get_line)
    for i in range(3):
        wait_time=random.randint(3,10)
        time.sleep(wait_time)
        url = 'http://fz.people.com.cn/skygb/sk/index.php/index/index/' + str(i + 1)
        soup = get_html(url)
        get_result=get_content(soup)
        prt_ret(get_result)

if __name__ == '__main__':
    main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
闭关修炼啊哈 2021-07-30 09:20
关注
对你有帮助的话，建议采纳。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

python爬虫如何精确提取a标签 pycharm python 爬虫
2022-02-12 15:12

回答 1 已采纳远程看看可以吗
python爬虫代码运行输出结果不完整 pycharm python 爬虫
2021-11-20 01:32

回答 1 已采纳不知道你解决了没，我就简单说一下我的解决方法。 obj3 = re.compile(r'<div id="Zoom">.*?◎片　　名(?P<movie>.*?)<br
pycharm爬取的内容显示空白 python
2021-04-13 21:35

回答 2 已采纳查看网页源代码可以发现这是动态加载的，通过这样根本爬取不到信息，可以考虑使用selenium模块试试
用pycharm进行python爬虫的步骤
2024-07-01 08:58

EcomDataMiner的博客【代码】用pycharm进行python爬虫的步骤。
python爬虫报错，哎，自学进度止步两天！ pycharm python 有问必答爬虫
2021-11-19 15:21

回答 2 已采纳豆瓣的数据接口是https://movie.douban.com/j/chart/top_list?type=25&interval_id=100%3A90&action=&start=0&limit
python爬小说，报错说正则表达式没有获得正文内容，可是我自己测试4个表达式都是可以提取到内容（测试是在Regexpal网站—成功，爬小说是在pyCharm-报错） python 有问必答正则表达式爬虫
2021-09-09 23:12

回答 2 已采纳 1.增加headers请求头，2 章节网址要改下，3.在text_block部分加上try/except异常处理，防止有的不存在。经修改后可正常运行的代码： import requests impor
python爬虫中用xpath总是获取不到内容，希望大家帮我看看这两个网页中所需内容如何定位？谢谢~ python
2019-03-27 09:11

回答 2 已采纳要爬取的是中国货币网上的内容，发现不是静态网页，最后找到了request返回包含json数据的url，得到了所需的信息~ ``` r = requests.get(url) pr
用pycharm进行python爬虫的步骤_使用Pycharm写一个网络爬虫
2020-11-30 11:22

weixin_39974811的博客在初步了解网络爬虫之后，我们接下来就要动手运用Python来爬取网页了。我们知道，网络爬虫应用...我所用的编辑器是 Pycharm，它带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高...
Python 的re为什么匹配不到？正则表达式没错呀 python 爬虫
2022-04-06 23:40

回答 1 已采纳你打印下result1，得出来的不是个列表啊，finditer匹配还没用过，看这个得到的是个对象，不能直接循环它，可以考虑用用findall
爬虫报错TypeError: stat: path should be string, bytes, os.PathLike or integer, not function，如何解决？ pycharm python 有问必答爬虫
2022-01-26 20:48

回答 2 已采纳由于参数verify的值写错了，应该为verify=Faslse。在调用adapter模块时以为读取是证书文件，调用时报错。代码修改成如下即可： import requests import urll
【PyCharm】从零到一：Python爬虫实战教程，小白、绕过反爬虫机制、实战案例全解析
2024-08-22 17:36

花凝雨的博客在本文中，我将通过一个简单的Python爬虫实例（获取豆瓣评分前250的电影名称）来演示如何从一个网页中抓取数据。正如标题所说，本文的关键词为：从零到一、小白、绕过反爬虫机制、实战案例全解析。本文的实战案例也...
Python爬虫——用Pycharm写一个爬虫程序，爬取糗图百科全部糗图，室友看了直呼牛逼
2021-12-22 23:43

瑾瑜_卜卜的博客利用Python爬虫，正则表达式，Pycharm进行糗事百科的所有糗图的爬取
Python+Pycharm+Scrapy搭建爬虫项目.docx
2023-03-17 18:49

总结，通过以上步骤，你已经成功地使用Python、PyCharm和Scrapy搭建了一个爬虫项目，能够进行网页数据抓取和处理。Scrapy的强大在于其组件化的架构，允许开发者灵活地定制各个部分以适应不同需求。记得根据实际项目...
python 爬虫学习pycharm 基础
2023-08-18 18:53

茶茶敲代码的博客所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。对主页面进行分析抓取主页面当中所有壁纸的链接地址练习：爬桌面壁纸第一步先爬它的超链接 import requests import re from lxml ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月30日

悬赏问题

¥30 Matlab打开默认名称带有/的光谱数据
¥50 easyExcel模板动态单元格合并列
¥15 res.rows如何取值使用
¥15 在odoo17开发环境中，怎么实现库存管理系统，或独立模块设计与AGV小车对接？开发方面应如何设计和开发？请详细解释MES或WMS在与AGV小车对接时需完成的设计和开发
¥15 CSP算法实现EEG特征提取，哪一步错了？
¥15 游戏盾如何溯源服务器真实ip?需要30个字。后面的字是凑数的
¥15 vue3前端取消收藏的不会引用collectId
¥15 delphi7 HMAC_SHA256方式加密
¥15 关于#qt#的问题：我想实现qcustomplot完成坐标轴
¥15 下列c语言代码为何输出了多余的空格

想用pycharm爬虫提取一个网页

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新