Python代码读取网页时发生错误，请问我的代码该怎么改？

# -*- coding: utf-8 -*-
"""
Created on Fri Apr  7 13:18:02 2017

@author: jcj
"""

#from urllib import urlopen
import urllib2
#import requests
from bs4 import BeautifulSoup

class JobScrapy():

    def __init__(self):
        '''初始化函数：初始化内容包括headers'''
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        self.myheaders = { 'User-Agent' : user_agent }        
        self.myhomeUrl = []

    def setUrl(self,strUrl):#该方法用来设置homeUrl
        '''设置读取的homepage'''
        self.myhomeUrl = strUrl

    def load_homePage(self):#通过homeUrl访问网址,并返回访问得到的xml文件
        '''加载homepage'''
        req = urllib2.Request(url = self.myhomeUrl, data = None, headers = self.myheaders)
        home_request = urllib2.urlopen(req)
        home_html = home_request.read()
        return home_html

    def load_cityPage(self,strCity):
        '''加载citypage'''
        cityUrl = self.myhomeUrl+'/'+strCity+'/'
        req = urllib2.Request(url = cityUrl,data = None, headers = self.myheaders)
        city_request = urllib2.urlopen(req)
        city_html = city_request.read()
        return city_html

   # def down_jobinfo(self,path):


def main():
    site = 'http://www.yingjiesheng.com'
    JS = JobScrapy()
    JS.setUrl(site)
    home_html = JS.load_homePage()
    city_html = JS.load_cityPage('beijing')
    city_soup = BeautifulSoup(city_html,from_encoding='GBK')
    print city_soup


if __name__ == '__main__':
    main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
vip_ing 2017-04-10 04:02
关注
city_soup = BeautifulSoup(city_html,from_encoding='GBK') 改为
city_soup = BeautifulSoup(city_html, 'lxml', from_encoding='GBK')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python代码读取网页时发生错误，请问我的代码该怎么改？ python
2017-04-08 08:26

回答 2 已采纳 city_soup = BeautifulSoup(city_html,from_encoding='GBK') 改为 city_soup = BeautifulSoup(city_html, 'l
python2.7idle(python gui)运行代码文件不读取代码怎么办？ python
2020-02-23 12:54

回答 1 已采纳 ``` Python2.7默认使用的字符集是ASCII，并不支持中文字符的显示与处理，因些如果要在Python中处理中文就需要进行一些额外的处理。一、在开头处声明Python使用UTF-
请问python如何读取csv文件某列时保留空值？ python 机器学习
2019-11-07 05:02

回答 4 已采纳你取了一列带空值的dataFrame，统计元素个数的时候用这个dict(data['Gender'].value_counts()) 就是默认去掉空值，那你画图也就没有空值了，你可以用这个：dic
python实现的读取网页并分词功能示例
2020-09-18 12:40

主要介绍了python实现的读取网页并分词功能,结合实例形式分析了Python使用requests模块读取网页,以及jieba库分词的相关操作技巧,需要的朋友可以参考下
请问python心电图数据.dat文件怎么读取？ c++ java python 有问必答
2021-09-30 16:18

回答 3 已采纳 .dat只是data是缩写，表明它是个二进制文件，跟txt一样，并没有什么所谓固定的格式你需要去问提供文件的人，文件里面的数据到底什么格式，而不是在这胡乱猜
Python读取txt文档，并切片竖排保留标点符号，我这段代码有什么错误吗？ list python
2022-07-08 00:55

回答 1 已采纳并切片竖排保留标点符号?你只要标点符合？并竖排？
python如何读取excel中的表格并画折线图？ python
2022-06-05 10:16

回答 1 已采纳这个是饼图，可以在这个基础上修改 ![img]( https://img-mid.csdnimg.cn/release/static/image/mid/ask/589357067456199.png
python改了代码没有生效,我更改了python代码,但python似乎没有读取更改
2021-04-27 06:48

Chace Xie的博客我会给你一些打印的声明,看看到底发生了什么,但他们不会打印。我最终发现我的更改没有在python中注册。所以我开始删除.pyc文件(预编译的python),但这没有帮助。我最终放弃了,直接从matrix lib文件开始编程,但现在这...
编写 Python 代码，读取 CSV 文件，并计算出以下指标 python
2023-03-15 21:22

回答 2 已采纳 csv就是一个以逗号分隔的文本文件，直接读取就可以了如果嫌麻烦，可以用 pandas，直接有 load_csv
我翻到以前保存的Python代码，请问这样读写txt文件，有什么错误吗？ list python
2022-10-04 21:17

回答 2 已采纳第一个参数是文件路径呀 with open("cc.txt","r") as f:# 打开文件 data=f.read()# 读取文件 print(data) # /storage/em
用python pandas 读取json时，出现以下错误是怎么回事呢 python 有问必答
2021-10-22 11:53

回答 3 已采纳代码中是df=pd.read_json，报错里又成了df=pandas.read_json，检查一下代码文件是不是写成了pandas.py，或在同一目录下是否有pandas.py,与库名重名文件,如有
读取parquet数据的Python实战代码
2023-11-29 08:00

爱编程的喵喵的博客本文主要介绍了读取parquet数据的Python实战代码，希望能对读取parquet数据的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案
请问python如何按照空行分块读取？ python 有问必答
2021-09-28 16:01

回答 1 已采纳调用string的split方法,可以按照空格分割字符串你可以维护一个set,然后让每一行和set中的元素比较,如果不在set中就加入set,如果在set中就保留(说明这一行已经出现过至少一次),将其
Python读取Excel数据并生成图表过程解析
2020-09-16 15:53

主要介绍了Python读取Excel数据并生成图表过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
python怎样读取网页中的文本_python 怎么获取网页内容
2020-11-21 02:22

weixin_39743369的博客 Python用做数据处理还是...1 Pyhton获取网页的内容(也就是源代码)（推荐学习：Python视频教程）page = urllib2.urlopen(url)contents = page.read()#获得了整个网页的内容也就是源代码print(contents)url代表网址，...
没有解决我的问题, 去提问

悬赏问题

¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题

Python代码读取网页时发生错误，请问我的代码该怎么改？

2条回答 默认 最新

悬赏问题

2条回答默认最新