爬取图片，内容问题， Tieba_spider() takes no arguments

import requests
from lxml import etree
import time

创建类对象

class Tieba_spider(object):
def int(self,BaiduTie,start_page,end_page):
self.base_url="http://tieba.baidu.com"
self.headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
#开始页
self.start=start_page

    self.end=end_page
    self.name=BaiduTie
    # 第一层数据解析   找到贴吧的对应链接地址
    self.first_xpath='//div[@class="t_con cleafix"]/div/div/div/a/@href'
    # 第二层数据解析   找到对应网址下所有的图片
    self.sec_xpath='//img[@class="BDE_Image"]/@src'
# 发送请求
def send_request(self,url,params={}):
    time.sleep(1)
    try:
        # 携带参数和头部请求地址
        response=requests.get(url,params=params,headers=self.headers)
        # 返回请求页面内容
        return response.content
    except Exception:
        print("程序异常")
def write_file(self,data,page):
    print(page)
    filename="TieBa"+page
    with open(filename,"wb") as f:
        f.write(data)
# 解析数据
def analysis_data(self,data,xpathstr):
    html_data=etree.HTML(data)
    # 取出所有的指定标签内容
    data_list=html_data.xapth(xpathstr)
    return data_list
# 开始调用
def start_work(self):
    for page in range(self.start,self.end+1):
        pn=(page-1)*50
        params={"kw":self.name,"pn":pn,"fr":"search"}
        # 发送第一次页面请求
        first_data=self.send_request(self.base_url+'/f?',params)
        first_data_list=self.analysis_data(first_data,self.first_xpath)
        # 将每一条的数据请求
         for link in first_data_list:
            # 拼接请求地址
            link_url=self.base_url+link
            # 请求每个href里面的页面
            secode_data=self.send_request(link_url)
            # 二次解析 去取每个帖子里面的图片  地址  请求数据
            secode_list=self.analysis_data(secode_data,self.sec_xpath)
            print(secode_list)
            for imgurl in secode_list:
            
                # 请求每个图片的内容

                img_data = self.send_request(imgurl)
                # 字符串切片 截取字符串末尾15个字符作为文件名
                page = imgurl[-15:]
                self.write_file(img_data, page)

if name=="main":
BaiduTie=input("请输入贴吧名字：")
start_page=1
end_page=1
# 实例化类
tool = Tieba_spider(BaiduTie, start_page, end_page)
# 调度方法
tool.start_work()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
亖夕 Python领域新星创作者 2022-07-17 12:27
关注
给出完整代码大家才好帮你解决问题

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

爬取图片，内容问题， Tieba_spider() takes no arguments python 问答团队
2022-07-16 23:07

回答 1 已采纳给出完整代码大家才好帮你解决问题
scrapy爬取百度图片时Forbid spider access python 有问必答
2021-06-13 23:12

回答 2 已采纳这个是百度反爬虫导致的，
python 爬取图片，部分图片无法下载，求解答 python 爬虫
2021-09-04 11:53

回答 9 已采纳你的目录名过长，而且多级目录，是不是有点自己找苦吃，你确保这个目录存在吗？建议你简化目录结构并确保目录存在，如再不成功再发问题。有帮助请采纳！
spider.zip_increasepy7_python_爬虫_python爬虫_spider Python demo_网吧
2022-07-13 21:14

"spider.zip_increasepy7_python_爬虫_python爬虫_spider Python demo_网吧"这个标题和描述指向了一个压缩包，其中包含了多个Python爬虫的示例代码，如贴吧爬虫和网易爬虫。这些示例代码是学习和理解Python爬虫技术...
Python报错：AttributeError: 'HomeSpider' object has no attribute 'get_page_all', 请教各位? python
2021-09-02 17:51

回答 2 已采纳后面那几个成员函数缩进不对,应该在class内部而不是和class同级
Python 爬虫代码不报错，也不显示爬取内容 python 有问必答
2021-04-22 11:19

回答 4 已采纳代码逻辑问题，main函数里只有计算耗时的部分，没有调用get_html、parse_html等函数。
在python spider中LSP Python一直未启动如何解决？ python 开发语言有问必答
2021-07-29 11:06

回答 1 已采纳我自己解决了这个问题，就自己解决吧，卸载python,利用安装包工具卸载，在卸载之后，把所有的python文件夹删除，再重装。第一次安装的时候路径可能出现了一些问题。
Tieba_Spider:百度贴吧爬虫(基于scrapy和mysql)
2021-05-14 10:56

Tieba_Spider 贴吧爬虫。依赖参考 Python >= 3.6 mysql >= 5.5 beautifulsoup4 >= 4.6.0 scrapy >= 2.4 mysqlclient >= 1.3.10 使用方法先打开config.json文件，在其中配置好数据库的域名、用户名和密码。接着直接...
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-04 01:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
python报错AttributeError: 'tuple' object has no attribute 'items' python 有问必答
2022-02-16 19:48

回答 4 已采纳 def requester(urls): 中 return soup, header 返回两个值, 这两个用逗号分隔的soup, header就会形成一个元组返回,就等同 return (soup
china_region_spider::China:爬取中国城乡数据的爬虫
2021-05-09 03:11

RequirementsPython3MysqlrequestslxmlpymysqltimeosQuick Start执行建表语句修改database.py中的数据库连接配置命令行执行python3 spider.pyFeature数据来源于国家统计局，网址：，总共846462条数据，记录了全中国...
怎么把图片保存到文件夹里(语言-python) python
2022-09-26 18:23

回答 2 已采纳光在这里发问题，问题解决了不给采纳，谁还会帮你回答呢
Taobao_Spider:基于Scrapy的Python3分布式淘宝爬虫
2021-05-06 10:43

基于Scrapy的Python3分布式淘宝爬虫注意: 此项目已失效，且不再更新 Items.py : 定义爬取的数据 pipelines.py : 后处理(Post-process)，存储爬取的数据 taobao.py : 爬虫程序 settings.py : Srapy设定，请参考代码...
python如何爬取图片到指定文件夹_Python之简单爬取图片并保存到本地文件夹。
2021-03-06 01:42

sherlockhj的博客 Python爬取图片项目介绍第三方库：requests,fake_useragent(产生随机请求头进行访问)代码实现：import requestsfrom fake_useragent import UserAgentfilename=0class photo_spider(object):def __init__(self):self...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 7月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月16日

悬赏问题

¥15 在若依框架下实现人脸识别
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同

爬取图片，内容问题， Tieba_spider() takes no arguments

创建类对象

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新