python提取.csv文件中的链接会经常出现爬取失败


import os
import csv
import requests
import random
import re
from bs4 import BeautifulSoup
import time

# 当前文件夹路径
current_folder = os.getcwd()

def crawl_and_save_links():
    # 用于保存爬取结果
    results = []

    # 定义正则表达式模式匹配链接
    link_pattern = re.compile(r'https?://[^\s]+')

    # 遍历当前文件夹中的文件
    for file in os.listdir(current_folder):
        if file.endswith('.csv'):
            file_path = os.path.join(current_folder, file)
            with open(file_path, 'r') as csv_file:
                csv_reader = csv.reader(csv_file)
                for row in csv_reader:
                    for cell in row:
                        match = link_pattern.search(cell)
                        if match:
                            link = match.group()
                            try:
                                response = requests.get(link)
                                print(response.text)
                                if response.status_code == 200:
                                    soup = BeautifulSoup(response.text, 'html.parser')
                                    text = soup.get_text()
                                    results.append([link, text])
                            except requests.exceptions.RequestException as e:
                                print(f"爬取 {link} 时出错: {e}")
                            # 添加随机时间间隔
                            time.sleep(random.uniform(1, 3))
    # 将结果保存到新的 CSV 文件
    with open('crawled_results.csv', 'w', newline='', encoding='utf-8') as output_file:
        csv_writer = csv.writer(output_file)
        csv_writer.writerow(['链接', '文本内容'])
        for result in results:
            csv_writer.writerow(result)

if __name__ == '__main__':
    crawl_and_save_links()

还有爬取成保存的文件会出现乱码，和不必要的空格

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

25条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-06-20 19:30
关注
获得0.30元问题酬金
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

在Python中使用requests库和BeautifulSoup进行网页爬取时，遇到爬取失败和结果文件乱码或空格问题，通常可以通过以下几个方面来改进：

提高爬取成功率：

设置User-Agent：一些网站会根据请求的User-Agent来决定是否允许访问。你可以设置一个常见的User-Agent来模拟浏览器访问。
处理重定向：使用requests.get()时，可以设置allow_redirects=True（默认值）来自动处理重定向。
设置超时：为请求设置超时时间，避免长时间等待响应。
使用代理：如果遇到IP被封禁的情况，可以使用代理来绕过限制。

处理乱码问题：

确保请求时指定了正确的编码。如果不知道网页的编码，可以先获取网页内容，然后使用chardet库来检测编码。
在保存文件时，确保使用正确的编码，通常是utf-8。

处理不必要的空格问题：

使用strip()方法去除字符串两端的空格。
使用正则表达式去除字符串中间的多余空格。

异常处理：

使用更详细的异常处理来了解请求失败的具体原因。

遵守robots.txt协议：

确保你的爬虫遵守目标网站的robots.txt文件，以免被网站视为恶意访问。

增加爬取间隔：

避免过于频繁的请求同一网站，可以设置更长的随机时间间隔。

下面是改进后的代码示例：

import os import csv import requests import random import re from bs4 import BeautifulSoup import time from requests.exceptions import RequestException, Timeout from chardet import detect # 当前文件夹路径 current_folder = os.getcwd() def crawl_and_save_links(): results = [] link_pattern = re.compile(r'https?://[^\s]+') for file in os.listdir(current_folder): if file.endswith('.csv'): file_path = os.path.join(current_folder, file) with open(file_path, 'r', encoding='utf-8') as csv_file: csv_reader = csv.reader(csv_file) for row in csv_reader: for cell in row: match = link_pattern.search(cell) if match: link = match.group() try: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'} response = requests.get(link, headers=headers, timeout=5) if response.status_code == 200: encoding = detect(response.content)['encoding'] or 'utf-8' soup = BeautifulSoup(response.content, 'html.parser') text = soup.get_text(separator=' ').strip() results.append([link, text]) except (RequestException, Timeout) as e: print(f"爬取 {link} 时出错: {e}") time.sleep(random.uniform(1, 3)) with open('crawled_results.csv', 'w', newline='', encoding='utf-8') as output_file: csv_writer = csv.writer(output_file) csv_writer.writerow(['链接', '文本内容']) for result in results: csv_writer.writerow(result) if __name__ == '__main__': crawl_and_save_links()

注意：以上代码中使用了chardet库来检测网页内容的编码，你可能需要安装这个库：

pip install chardet

至于参考链接，以下是一些有用的资源：

Requests库文档：https://docs.python-requests.org/en/master/
BeautifulSoup库文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/
chardet库文档：https://chardet.readthedocs.io/en/latest/

希望这些信息能帮助你改进你的爬虫代码。如果还有其他问题，随时欢迎提问。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

利用python提取csv文件中特定列的字符（电话号码） python
2022-05-04 15:54

回答 4 已采纳为什么不能直接这样呢：df['phone'] = df['text'].apply(lambda x:re.findall(r"1[3-9]\d{9}",x))
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
python如何提取csv文件中的指定行并保存到新csv文件中 python 有问必答
2021-07-09 09:47

回答 2 已采纳用datetime函数转换一下日期，使用pandas提取出指定日期的数据，to_csv保存为另一个csv文件即可。转换语句可以用data['date'] = data['date'].apply(la
python爬取招聘网信息并保存为csv文件
2023-04-02 19:11

在这个场景中，我们将学习如何使用Python来爬取招聘网站上的职位信息，并将其存储为CSV文件。以猎聘网为例，我们将介绍以下关键知识点： 1. **Parsel库**： Parsel是基于XPath和CSS选择器的Python库，用于从HTML或...
python修改csv文件后读取csv文件失败 python
2022-04-24 16:46

回答 1 已采纳不要用utf-8 换成gbk
Python Pandas 删除.csv文件的指定行 python
2022-04-09 13:50

回答 2 已采纳 df.drop(df.index[int(linenum) + 1], inplace=True) # 删除第int(linenum) + 1行如果有帮助点一下下采纳
python如何读取.csv 文件中具体一行的一个字段和所在行数，写入另外一个文档里？ python
2022-07-15 14:18

回答 1 已采纳姓名,年龄张三,28李四,30王五,22 import pandas if __name__ == '__main__': path = '1.csv' data = panda
【python】爬取豆瓣电影排行榜TOP250存储到CSV文件中【附源码】
2023-11-01 22:40

Yan-英杰的博客设置了请求头部信息，以模拟浏览器的请求，函数返回响应数据的JSON格式内容。...然后，逐行写入电影信息到CSV文件中。# 定义一个空的列表# 创建一个字典像列表中存储数据[{电影一},{电影二}......]
一个python读取csv文件对指定列求和问题 python 开发语言
2022-02-14 15:21

回答 5 已采纳 import pandas as pd df=pd.read_csv('d:/data/newly_confirmed_cases_daily.csv') num=df.Akita.sum() pr
如何用Python 3遍历循环下载CSV文件中内容链接的图片？ python 爬虫
2018-11-07 15:02

回答 2 已采纳把 i=1放在for link in links:的上面如果不放for循环上面，i每次循环都被初始化为 1 了，i = i+1虽然加了1,但是下一次循环，i又被初始化为1了。这样不管下载多少张
如何通过python提取csv文件中的特定列的特定内容？ python 爬虫
2022-06-30 20:19

回答 1 已采纳循环进行读取，转化为字典再通过键进行索引 df = pd.read_csv('pd.csv', usecols=['stat']) print(df) for d in df['stat']:
使用 Python 爬取天气数据并保存至 CSV
2024-04-19 10:35

呆萌宝儿姐的博客天气数据是我们生活中非常重要的一部分。它不仅影响着我们的出行计划，还直接影响到农业、交通运输、航空航天等领域的运营和决策。因此，获取准确、及时的天气数据对于许多人来说是至关重要的。然而，要获取天气数据...
怎样在Python csv文件中每24行提取一次数据并保存到一个单独的csv文件中？ python 有问必答
2022-04-08 03:39

回答 4 已采纳不需要每隔24行数据单独保存到一个文件，只需要用列表切片每隔24行切成为一个列表,把切片出来的列表作为一个元素添加到一个li2列表中.用random.shuffle(li2)随机打乱li2,再合并写到
Python使用Scrapy框架爬取数据存入CSV文件_python scrapy保存csv(1)
2024-05-02 17:41

2401_84584609的博客知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到...
网络爬虫_python_中数爬取_
2021-10-02 04:06

网络爬虫是获取互联网上大量数据的重要工具，Python作为一门功能强大的编程语言，因其简洁的语法和丰富的库支持，成为了网络爬虫开发的首选。在本文中，我们将深入探讨Python中进行网络爬虫的关键知识点，包括基础...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月20日

悬赏问题

¥15 代码在keil5里变成了这样怎么办啊，文件图像也变了，
¥20 Ue4.26打包win64bit报错，如何解决？(语言-c++)
¥15 clousx6整点报时指令怎么写
¥30 远程帮我安装软件及库文件
¥15 关于#自动化#的问题：如何通过电脑控制多相机同步拍照或摄影（相机或者摄影模组数量大于60），并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
¥20 深信服vpn-2050这台设备如何配置才能成功联网？
¥15 Arduino的wifi连接，如何关闭低功耗模式？
¥15 Android studio 无法定位adb是什么问题？
¥15 C#连接不上服务器，
¥15 angular项目错误

python提取.csv文件中的链接会经常出现爬取失败

25条回答 默认 最新

问题事件

悬赏问题

25条回答默认最新