python实现多个网页链接的表格循环获取功能

问题描述：实现多个网页的表格获取，并保存为excel表，excel表分页sheet分别以XX
命名，对应于上面的获取表格的名称。
已实现功能：单个页面表格的读取和保存；
未实现功能：循环网页，sheet改名。
请大神帮忙改一下代码，看看如何实现。
提供的两个网址如下：
1.https://www.marketbeat.com/stocks/NYSE/BILL/institutional-ownership/
2.https://www.marketbeat.com/stocks/NYSE/SPG/institutional-ownership/
其中，BIll和SPG是可以做成循环网址读取的，表格sheet命名也是与此对应的。
目前已实现代码如下：

import requests
from bs4 import BeautifulSoup
import xlwt

# 请求headers 模拟谷歌浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}


def get_data():
    response = requests.get('https://www.marketbeat.com/stocks/NYSE/BILL/institutional-ownership/', headers=headers)
    bs = BeautifulSoup(response.text, 'lxml')

    # 标题处理
    title = bs.find_all('th')
    data_list_title = []  # 定义一个空列表
    for data in title:
        data_list_title.append(data.text.strip())  # 获取标签的内容去掉两边空格并添加到列表里

    # 内容处理
    content = bs.find_all('td')
    data_list_content = []  # 定义一个空列表
    for data in content:
        data_list_content.append(data.text.strip())  # 获取标签的内容去掉两边空格并添加到列表里
    # 语句featList = [example[i] for example in dataSet]作用为： 将dataSet中的数据按行依次放入example中，然后取得example中的example[i]元素，放入列表featList中
    del(data_list_content[80])
    print(*data_list_content,sep='\n')

    new_list = [data_list_content[i:i+7] for i in range(0, len(data_list_content)-17,8)]

    # 存入excel表格
    book = xlwt.Workbook()
    sheet1 = book.add_sheet('sheet1', cell_overwrite_ok=True)

    # 标题存入
    heads = data_list_title[:]  # 将data_list_title第一位到最后一位赋值给heads
    ii = 0
    for head in heads:
        sheet1.write(0, ii, head)
        ii += 1

    # 内容录入
    i = 1
    for list in new_list:
        j = 0
        for data in list:
            sheet1.write(i, j, data)
            j += 1
        i += 1
    # 文件保存
    book.save('./data.xls')


print("全部完成")

# 调用
get_data()

已实现表格数据如下
Reporting Date Hedge Fund Shares Held Market Value 10/9/2020 Envestnet Asset Management Inc. 2,174 $0.22M 0.0% 10/6/2020 Avitas Wealth Management LLC 5,410 $0.54M 0.2% 9/28/2020 Manchester Capital Management LLC 1,500 $0.14M 0.0% 9/22/2020 Atria Investments LLC 31,463 $2.84M 0.1% 9/15/2020 Two Sigma Advisers LP 5,800 $0.52M 0.0% 9/15/2020 Schonfeld Strategic Advisors LLC 62,798 $5.67M 0.1% 9/4/2020 Principal Financial Group Inc. 2,390 $0.22M 0.0% 8/27/2020 Neuberger Berman Group LLC 34,087 $3.08M 0.0% 8/25/2020 Nuveen Asset Management LLC 96,953 $8.75M 0.0% 8/20/2020 Charles Schwab Investment Management Inc. 8/18/2020 Blackstone Group Inc 172,686 $15.58M 0.1% 8/17/2020 Engineers Gate Manager LP 5,927 $0.54M 0.0% 8/17/2020 California State Teachers Retirement System 27,675 8/17/2020 Townsquare Capital LLC 40,538 $3.37M 0.2% 8/17/2020 Great West Life Assurance Co. Can 1,031 $93K 8/17/2020 Public Employees Retirement System of Ohio 6,024 8/17/2020 Sei Investments Co. 369,166 $33.30M 0.1% 8/17/2020 Capital Impact Advisors LLC 28,000 $2.53M 0.8% 8/17/2020 Private Advisor Group LLC 5,450 $0.49M 0.0% % of Portfolio Quarterly Change in Shares Ownership in Company

N/A 0.003%

+57.2% 0.007%

+50.0% 0.002%

N/A 0.039%

N/A 0.007%

N/A 0.078%

N/A 0.003%

+88.1% 0.047%

+192.5% 0.134%

95,013 $8.57M 0.0% N/A 0.131%

N/A 0.238%

N/A 0.008%

$2.50M 0.0% +66.5% 0.038%

N/A 0.056%

0.0% N/A 0.001%

$0.54M 0.0% +49.0% 0.008%

+3,354.7% 0.509%

N/A 0.039%

N/A 0.008%

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

PythonJavaC++go 2020-10-21 12:35

关注

import requests
from bs4 import BeautifulSoup
import xlwt

# 请求headers 模拟谷歌浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
urls_dict = {
" BILL" : " https://www.marketbeat.com/stocks/NYSE/BILL/institutional-ownership/"
"SPG": "https://www.marketbeat.com/stocks/NYSE/SPG/institutional-ownership/"

def get_data(url, filename):
    response = requests.get(url, headers=headers)
    bs = BeautifulSoup(response.text, 'lxml')

    # 标题处理
    title = bs.find_all('th')
    data_list_title = []  # 定义一个空列表
    for data in title:
        data_list_title.append(data.text.strip())  # 获取标签的内容去掉两边空格并添加到列表里

    # 内容处理
    content = bs.find_all('td')
    data_list_content = []  # 定义一个空列表
    for data in content:
        data_list_content.append(data.text.strip())  # 获取标签的内容去掉两边空格并添加到列表里
    # 语句featList = [example[i] for example in dataSet]作用为： 将dataSet中的数据按行依次放入example中，然后取得example中的example[i]元素，放入列表featList中
    del(data_list_content[80])
    print(*data_list_content,sep='\n')

    new_list = [data_list_content[i:i+7] for i in range(0, len(data_list_content)-17,8)]

    # 存入excel表格
    book = xlwt.Workbook()
    sheet1 = book.add_sheet('sheet1', cell_overwrite_ok=True)

    # 标题存入
    heads = data_list_title[:]  # 将data_list_title第一位到最后一位赋值给heads
    ii = 0
    for head in heads:
        sheet1.write(0, ii, head)
        ii += 1

    # 内容录入
    i = 1
    for list in new_list:
        j = 0
        for data in list:
            sheet1.write(i, j, data)
            j += 1
        i += 1
    # 文件保存
    book.save(filename + '.xls')




# 调用
for filename, url in urls_dict.items():
    get_data(url, filename)
print("全部完成")

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

python中如何只获取for循环的最后一个列表？ python
2022-04-12 18:00

回答 2 已采纳 print缩进一下即可 import os path="E:\Game" files=os.listdir(path) y=[] for file in files: position=path+
python多层嵌套循环如何优化 python 后端开发语言
2022-03-05 22:27

回答 2 已采纳看的不是太明白，如果数据只能一条一条取，貌似只能尽量减少取无用数据的次数，以及通过多线程取数。如果数据是批量的，可以考虑用pandas 之类的进行计算。
python两个for循环只有一个执行 python
2023-02-06 09:49

回答 4 已采纳 h是一个生成器对象，在python中，生成器对象中的数据通过for循环在取完里面所有的数据后，这是生成器对象的长度就变成了0，也就是里面没有数据了。所以后面的for循环就会什么数据也显示不出来。如果要
python实现——处理Excel表格（超详细）
2021-10-12 20:43

lainwith的博客目录xls和xlsx基本操作1：用openpyxl模块打开Excel文档，查看所有sheet表2.1：通过sheet名称获取表格2.2：获取活动表3.1：获取表格的尺寸4.1：获取单元格中的数据4.2：获取单元格的行、列、坐标5：获取区间内的数据...
python怎么实现PPT中表格内容的垂直居中对齐 python 有问必答
2021-08-18 12:01

回答 1 已采纳 table.cell(rows, cols).vertical_anchor = MSO_ANCHOR.MIDDLE
如何使用python设计一个界面，实现类似simulink的拖拽创建功能 python 有问必答
2022-04-12 14:55

回答 2 已采纳可以考虑使用tkinter的canvas和pyautogui的定位结合使用。pyqt5的话最近好像库下载的问题还没解决呢。
Python实现手机通讯录功能 python 有问必答
2021-12-30 18:20

回答 1 已采纳参考下这个,.自己修改下 #-*- coding:utf-8 -*- import json class System(): def __init__(self): self
python网页爬虫循环获取_手把手教你用 Python 搞定网页爬虫
2020-11-23 23:15

weixin_39728320的博客原标题：手把手教你用 Python 搞定网页爬虫编译：欧剃作为数据科学家的第一个任务，就是做网页爬取。那时候，我对使用代码从网站上获取数据这项技术完全一无所知，它偏偏又是最有逻辑性并且最容易获得的数据来源。在...
python多个字典如何循环提取？ json python
2019-07-31 16:27

回答 1 已采纳 ``` page={'a':1},{'b':1},{'c':1} for i in page: print(i) ```
python如何使用遍历循环读取多个csv文件？ python 有问必答
2021-07-18 16:53

回答 2 已采纳循环读取某个文件夹下多个csv文件，参考代码如下：（如有帮助，望采纳！谢谢! 点击我这个回答右上方的【采纳】按钮） import os import pandas as pd import re p
Python怎么实现拆分表格中的数据 python
2022-06-29 01:17

回答 2 已采纳 import xlrd import xlwt def readFromExcelByXlrd(filename, toSaveFilename, sheetName='Sheet1'):
【Python数据分析】利用Python将多个EXCEL表格合并为一个EXCEL表格
2022-04-18 12:34

Python_闲谈项目管理的博客【Python数据分析】利用Python将多个EXCEL表格合并为一个EXCEL表格。想获取代码文件，请微信关注微信公众号“闲谈项目管理”，对话框回复“数据分析案例2”即可获得文件下载链接。
Python中如何用for循环实现txt文件循环open python 有问必答
2022-03-30 22:40

回答 4 已采纳可以这样： res=[] for i in range(1,11): with open(f'saif_{num2str[i]}.txt','r',encoding='utf=8') as f
python实现遍历HTML元素,如何循环遍历Python中的html表格数据集
2021-06-18 07:48

逆行斋的博客请对我友好:-)如何循环遍历Python中的html表格数据集虽然我对编程概念并不陌生(我之前一直在搞PHP)，但对Python的过渡对我来说变得有点困难。我想这主要是因为我缺乏大部分 - 如果不是全部 - 对普通“设计模式”(？)...
【Python数据分析】利用Python实现EXCEL一个表格按条件拆分为多个表格
2022-04-17 17:32

Python_闲谈项目管理的博客【Python数据分析】利用Python实现EXCEL一个表格按条件拆分为多个表格。想获取代码文件，请微信关注微信公众号“闲谈项目管理”，对话框回复“数据分析案例1”即可获得文件下载链接。
没有解决我的问题, 去提问

悬赏问题

¥15 如何用stata画出文献中常见的安慰剂检验图
¥15 c语言链表结构体数据插入
¥40 使用MATLAB解答线性代数问题
¥15 COCOS的问题COCOS的问题
¥15 FPGA-SRIO初始化失败
¥15 MapReduce实现倒排索引失败
¥15 ZABBIX6.0L连接数据库报错，如何解决？(操作系统-centos)
¥15 找一位技术过硬的游戏pj程序员
¥15 matlab生成电测深三层曲线模型代码
¥50 随机森林与房贷信用风险模型

码龄粉丝数原力等级 --

python实现多个网页链接的表格循环获取功能

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

python实现多个网页链接的表格循环获取功能

1条回答 默认 最新

悬赏问题

1条回答默认最新