python爬虫原码优化后运行不了

最近看了理想之城连续刷，挺狗血的，准备想看品味下文字版，去网上找了一个网站，试着去抓取数据，原码如下，一切都还顺利。


import requests
from fake_useragent import UserAgent
from lxml import etree

def get_html(x):
    ua = {"User-Agent":UserAgent().random}
    r = requests.get(url=x,headers=ua).text
    
    return r

def get_urls(x):
    html = etree.HTML(x)
    data = html.xpath('//ul/li//@href')[1:-1]
    return data

def get_content(x):
    html = etree.HTML(x)
    data = html.xpath('//p/text()')
    return data
    
def main():
    url = 'http://m.jiewuxian.com/10/10910/'
    s = url.split('/1')[0]
    urls = get_urls(get_html(url))
    #print(urls)
    for i in urls:
        sr = s+i
        text = get_content(get_html(sr))
        break
    
if __name__ == '__main__':
    main()

#但是我发现get_urls与get_content函数功能相同，
#于是做了如下优化。
#但代码就运行不了，
#请各位同仁看下问题出哪里了。
#不胜感激！！


import requests
from fake_useragent import UserAgent
from lxml import etree

def get_html(x):
    ua = {"User-Agent":UserAgent().random}
    r = requests.get(url=x,headers=ua).text
    
    return r

def get_urls(x,y):
    html = etree.HTML(x)
    data = html.xpath(y)
    return data
    
def main():
    url = 'http://m.jiewuxian.com/10/10910/'
    s = url.split('/1')[0]
    url_xpath = '//ul/li/@href'
    text_xpath = '//p/text()'
    urls = get_urls(get_html(url),url_xpath)[1:-1]
    #print(urls)
    for i in urls:
        sr = s+i
        text = get_urls(get_html(sr),text_xpath)
        break
if __name__ == '__main__':
    main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
honestman_ 2022-09-18 00:34
关注
报错是什么

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫解码的问题？ python 有问必答
2021-09-11 15:07

回答 2 已采纳在获得响应后，使用response.encoding=response.apparent_encoding识别网页编码即可，示例： from bs4 import BeautifulSoup from
网页爬取得不到完整的氵原码 python 有问必答
2021-08-23 23:12

回答 1 已采纳因为这个网页中的内容是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。
我这种怎么弄怎么才能看到她原码(语言-java) c语言 java 开发语言
2021-12-31 00:18

回答 1 已采纳这是类似html格式的，源码不是java
Python爬虫学习线路图丨Python爬虫需要掌握哪些知识点
2021-11-15 18:55

燕山588的博客 Python简单易学，对编程初学者十分友好，而且具有丰富而强大的库，开发效率奇高，因此很多编程爱好者都对Python爬虫十分感兴趣。要知道学好爬虫对工作大有裨益，可为今后入门大数据分析、挖掘、机器学习等领域提供...
如何用python开发微信的小程序 python 微信小程序
2021-05-21 12:12

回答 3 已采纳两周学会Python+微信小程序开发实战（免费分享完整版）如果对你有用的，我可以发你视频链接
python多线程问题 python
2022-04-18 16:00

回答 2 已采纳 all =z [x for x in dir(context.default_context) if not x.startswith('')]‘’z和括号之间少了符号，你这是想要做什么操作
二进制的原码、反码、补码 c++ c语言 python
2023-01-12 20:24

回答 1 已采纳操作的是补码
最新适合零基础 Python爬虫数据采集的4种方式
2024-05-03 19:05

2401_84562041的博客平日里最常用到的是xpath，因为xpath这种数据解析的通用性比较强，不止在Python中可以使用xpath，在其它的编程语言中也会使用。 xml库的安装 pip install lxml lxml的导包 from lxml import etree lxml转换解析类型...
关于vue原码老是给我报错前端前端框架开发语言
2022-09-01 19:39

回答 2 已采纳从字面上理解，它在判断当前是不是在浏览器环境中，第二个在判断console这个变量。第一个按道理应该是浏览器，那就是第二个了，有没有定义过变量console,抢占了window.console原本的功
二进制的原码和补数。 c语言 python 有问必答算法
2022-06-09 08:42

回答 2 已采纳最高位表示符号位，1表示负数，1010是10，-10的6-bit源码就是：101010
自己开发网站合适还是下载原码合适？ html5 java python
2022-10-10 16:45

回答 4 已采纳看自己的需求以及想从开发网站这个过程中学到什么，如果你是新手，建议下载个源码，一个项目从零到一的过程不是那么简单的，经验多了，可以尝试自己从零到一去开发网站
基于python的hellokitty原码.zip
2023-10-11 22:58

在这个"基于python的hellokitty原码.zip"压缩包中，我们很可能找到了一个使用Python编程语言绘制Hello Kitty图像的代码示例。 Hello Kitty，作为一个广受欢迎的卡通角色，经常被用作编程初学者练习图形绘制的案例。...
python manager.py runserver 报错SyntaxError: invalid syntax flask python
2022-08-01 16:12

回答 3 已采纳 emmm，运行python文件的命令的在cmd界面
盘点Python网络爬虫过程中xpath的联合查询定位一个案例
2022-09-16 09:00

Python进阶者的博客点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤忽逢青鸟使，邀入赤松家。大家好，我是皮皮。一、前言前几天在Python钻石交流群【髙鵬】问了一个Python网络...
python爬虫需要学习哪些基础知识_Python爬虫学习线路图丨Python爬虫需要掌握哪些知识点...
2020-12-08 22:47

weixin_40009099的博客 Python简单易学，对编程初学者十分友好，而且具有丰富而强大的库，开发效率奇高，因此很多编程爱好者都对Python爬虫十分感兴趣。要知道学好爬虫对工作大有裨益，可为今后入门大数据分析、挖掘、机器学习等领域提供...
Python爬虫
2024-08-02 16:41

Anesthesia'的博客网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月17日
展开全部

悬赏问题

¥200 csgo2的viewmatrix值是否还有别的获取方式
¥15 Stable Diffusion，用Ebsynth utility在视频选帧图重绘，第一步报错，蒙版和帧图没法生成，怎么处理啊
¥15 请把下列每一行代码完整地读懂并注释出来
¥15 pycharm运行main文件，显示没有conda环境
¥15 易优eyoucms关于二级栏目调用的问题
¥15 寻找公式识别开发，自动识别整页文档、图像公式的软件
¥15 为什么eclipse不能再下载了？
¥15 编辑cmake lists 明明写了project项目名，但是还是报错怎么回事
¥15 关于#计算机视觉#的问题：求一份高质量桥梁多病害数据集
¥15 特定网页无法访问，已排除网页问题

python爬虫原码优化后运行不了

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新