weixin_55452422 2022-01-08 10:09 采纳率: 83.3%
浏览 942

'str' object cannot be interpreted as an integer错误


from flask import Flask,Blueprint

# 创建蓝图对象
user_bp=Blueprint('main',__name__)
# from main import Spider
import requests
import time
from lxml import etree
import random
import urllib3
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
class Spider:
    def __init__(self):
        self.index_url="https://www.daomubiji.com/"

    def get_html(self,url):
        """功能函数一: 请求获取html"""
        headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'}
        html=requests.get(url=url,headers=headers,verify=False).text
        return html

    def xfunc(self,html,x):
        """功能函数2: 解析html请求"""
        eobj=etree.HTML(html)
        r_list=eobj.xpath(x)

        return r_list

    def parse_html(self):
        """爬虫逻辑函数"""
        first_html=self.get_html(url=self.index_url)
        first_x='//li[contains(@id,"menu-item-20")]'
        li_list=self.xfunc(first_html,first_x)
        for li in li_list:
            """提取大标题和大链接"""

            li=[li["parent_title"],li["parent_href"]]
            print(li)

    def carw(self):
        self.parse_html()


if __name__ == '__main__':
    spider=Spider()
    spider.carw()




  • 写回答

1条回答 默认 最新

  • 晴泪 2022-01-08 10:25
    关注

    img

    评论

报告相同问题?

问题事件

  • 创建了问题 1月8日

悬赏问题

  • ¥15 脱敏项目合作,ner需求合作
  • ¥15 脱敏项目合作,ner需求合作
  • ¥30 Matlab打开默认名称带有/的光谱数据
  • ¥50 easyExcel模板 动态单元格合并列
  • ¥15 res.rows如何取值使用
  • ¥15 在odoo17开发环境中,怎么实现库存管理系统,或独立模块设计与AGV小车对接?开发方面应如何设计和开发?请详细解释MES或WMS在与AGV小车对接时需完成的设计和开发
  • ¥15 CSP算法实现EEG特征提取,哪一步错了?
  • ¥15 游戏盾如何溯源服务器真实ip?需要30个字。后面的字是凑数的
  • ¥15 vue3前端取消收藏的不会引用collectId
  • ¥15 delphi7 HMAC_SHA256方式加密