python HTMLParser问题

在看python核心编程第三版的时候遇到的问题

```import io
import formatter
from html.parser import HTMLParser
import http
import os
import sys
import urllib.request

from urllib.parse import urlparse,urljoin

class Retriever(object):
slots=('url','file')
def init(self,url):
self.url,self.file=self.get_file(url)

def get_file(self,url,default='index.html'):
    'Create usable local filename from URL'
    parsed=urlparse(url)
    host=parsed.netloc.split('@')[-1].split(':')[0]
    filepath='%s%s' % (host,parsed.path)
    if not os.path.splitext(parsed.path)[1]:
        filepath=os.path.join(filepath,default)
    linkdir=os.path.dirname(filepath)
    if not os.path.isdir(linkdir):
        if os.path.exists(linkdir):
            os.unlink(linkdir)
        os.makedirs(linkdir)
    return url,filepath
def download(self):
    'Download URL to specific named file'
    try:
        retval=urllib.request.urlretrieve(self.url,self.file)
    except (IOError,httplib.InvalidURL) as e:
        retval=(('*** ERROR: bad URL "%s": %s' % (self.url, e)),)
    return retval
def parse_links(self):
    'Parse out the links found in download HTML file'
    f=open(self.file,'rb')
    data=f.read()
    f.close()
    parser=HTMLParser(formatter.AbstractFormatter(formatter.DumbWriter(io.StringIO())))
    parser.feed(data)
    parser.close()
    return parser.anchorlist

class Crawler(object):
count=0

def __init__(self, url):
    self.q=[url]
    self.seen=set()
    parsed=urlparse(url)
    host=parsed.netloc.split('@')[-1].split(':')[0]
    self.dom='.'.join(host.split('.')[-2:])

def get_page(self, url, media=False):
    'Download page & parse links, add to queue if nec'
    r=Retriever(url)
    fname=r.download()[0]
    if fname[0] == '*':
        print(fname,'...skipping parse')
        return
    Crawler.count += 1
    print('\n(',Crawler.count,')')
    print('URL:',url)
    print('FILE:',fname)
    self.seen.add(url)
    ftype=os.path.splitext(fname)[1]
    if ftype not in ('.htm', '.html'):
        return

    for link in r.parse_links():
        if link.startswith('mailto:'):
            print('...discarded, mailto link')
            continue
        if not media:
            ftype=os.path.splitext(link)[1]
            if ftype in ('.mp3', '.mp4', '.m4v', '.wav'):
                print('...discarded, media file')
                continue
        if not link.startswith('http://'):
            link=urljoin(url,link)
        print('*',link)
        if link not in self.seen:
            if self.dom not in link:
                print('...discarded, not in domain')
            else:
                if link not in self.q:
                    self.q.append(link)
                    print('...new, added to Q')
                else:
                    print('...discarded, already in Q')
        else:
            print('...discarded, already processed')
def go(self,media=False):
    'Process next page in queue (if any)'
    while self.q:
        url=self.q.pop()
        self.get_page(url,media)

def main():
if len(sys.argv) > 1:
url=sys.argv[1]
else:
try:
url=input('Enter starting URL: ')
except (KeyboardInterrupt, EOFError):
url=''
if not url:
return
if not url.startswith('http://') and not url.startswith('ftp://'):
url='http://%s/' % url
robot=Crawler(url)
robot.go()

if name=='__main__':
main()

这里报错HTMLParser的__init__()需要一个位置参数而给了它两个
看了下文档，好像这个类只有一个关键字参数，给的例子也是先自定义一个子类再实例化，那么书上这么写是什么意思？要怎么改？求解答

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
微云村 2017-11-28 00:22
关注
可以参考下这篇：http://blog.csdn.net/weixin_35955795/article/details/52823203，我也是初学者，希望对你有帮助

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

菜鸟求助：关于python的正则匹配问题？ python 正则表达式
2015-04-15 09:40

回答 2 已采纳给word字符串添加'.?.?'，生成一个最终的字符串作为正则表达式的pattern
引用HTMLParser提示markupbase没有属性ParserBase python 后端开发语言有问必答
2022-01-21 09:01

回答 2 已采纳 import HTMLParser更换为from html.parser import HTMLParser参考：问题解决：ModuleNotFoundError: N
在写爬虫运用xlwt库将网页信息写入execl中遇到的问题 python 爬虫
2022-04-16 15:54

回答 1 已采纳你抓回来的数据比如name,是这样的[name,],不是字符串就是个列表，你把列表再往表格里写，当然写不进去，你爬下来的比如name之类用join都给变成单个字符串，就能写进去了
Python HTMLParser模块解析html获取url实例
2020-09-22 06:33

主要介绍了Python HTMLParser模块解析html获取url实例,HTMLParser是python用来解析html的模块,HTMLParser采用的是一种事件驱动的模式,需要的朋友可以参考下
安装Pyinstaller的 error: subprocess-exited-with-error 错误 python
2022-08-03 21:53

回答 1 已采纳更新 setuptools 版本 pip3 uninstall setuptoolspip3 install setuptools
xpath解析网页文件，每行结尾都出现一个奇怪的编码“&#13” python 爬虫
2021-11-29 17:50

回答 2 已采纳 method默认为xml，设置为html就行了 etree.tostring(h2, encoding="utf-8", method='html')
python爬虫，爬取百度百科python词条页面数据，是这个页面url的抓取不到还是其他原因？ python 爬虫
2017-12-07 09:21

回答 6 已采纳 def get_new_url(self): return len(self.new_urls) != 0 def has_new_url(self): new_url =
Python中使用HTMLParser解析html实例
2020-09-22 10:04

主要介绍了Python中使用HTMLParser解析html实例,本文直接给出使用示例,并总结出HTMLParser含有的方法分为两类,一类是需要显式调用的,而另一类不需显示调用,需要的朋友可以参考下
termux qqbot 报错，如何解决？ python
2021-12-16 23:30

回答 1 已采纳库的定义改变了。修改一下用法 import html.parser; htmlUnescape = html.parser.HTMLParser().unescap 改成 import h
jupyter notebook求解如下。 python
2023-04-03 07:23

回答 9 已采纳引用chatGPT作答，以下是完整的代码和解答： 1.根据文本text内容创建test.html文件我们可以使用Python的文件操作功能创建一个名为test.html的文件，并将HTML代码写入其中
爬取静态网页，部分内容缺失，<div pathmatch = >这一块全部消失了 html python 有问必答
2021-10-21 17:00

回答 1 已采纳题主是用requests获取网页内容？requests只能获取源代码，ajax动态生成的需要找到接口，requests请求接口获取数据。如果不是ajax动态生成，源代码里面又找不到，那么数据可能是放在
linux python htmlparser 安装,python pycparser安装程序
2021-05-16 06:21

花盆里的水的博客注意：在MacBookYosmite上运行Python2.7.10，尝试使用pip安装TensorFlow。任何尝试安装或升级“numpy”以解决“numpy”版本上的Tensorflow依赖性问题，都会产生如下错误：TypeError: __call__() takes exactly 2 ...
求救py爬虫Xpath 子节点返回为空 python 有问必答
2021-07-02 15:30

回答 1 已采纳你用requests请求的，响应内容不能看开发者的elements标签的，你要看network的doc，如图最简单解决方法是用selenium打开网页，然后获取网页内容再获取数据如果对你有帮助，
python htmlparser怎么用_HTMLParser模块怎么在python中使用
2021-03-17 01:32

HelloGithub的博客 HTMLParser模块怎么在python中使用发布时间：2021-02-09 09:29:29来源：亿速云阅读：82作者：Leah今天就跟大家聊聊有关HTMLParser模块怎么在python中使用，可能很多人都不太了解，为了让大家更加了解，小编给大家...
python htmlparser怎么用_一个Python HTMLParser的使用例子 | 学步园
2020-12-17 10:48

weixin_39538536的博客 /usr/bin/env pythonimport sysimport urllibimport HTMLParserclass CustomParser(HTMLParser.HTMLParser):selected = ('table', 'h1', 'font', 'ul', 'li', 'tr', 'td', 'a')def reset(self):HTMLParser.HTMLPar.....
Python的HTMLParser库的用法
2019-01-06 13:35

weixin_30777913的博客 HTMLParser库的用法如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频... ... ... 好在Python提供了HTMLParser来非常方便地解析HT...
python htmlparser怎么用,在Python中高效地使用HTMLParser
2021-04-26 17:07

咕噜噜在芬兰的博客作为对Python regular expression的响应，我尝试使用HTMLParser实现一个HTML解析器：import HTMLParserclass ExtractHeadings(HTMLParser.HTMLParser):def __init__(self):HTMLParser.HTMLParser.__init__(self)self...
python使用HTMLParser解析网页
2020-11-12 23:53

皓0o0的博客 HTMLParser 是python 3自带的解析html的库。我们只需继承HTMLParser写一个子类，重写函数便可以使用它进行解析网页了。二、使用步骤 1.引入库代码如下（示例）： from html.parser import HTMLParser 2.
在Python中使用HTMLParser解析HTML的教程
2021-01-20 05:11

如果我们要编写一个搜索引擎，第...好在Python提供了HTMLParser来非常方便地解析HTML，只需简单几行代码： from HTMLParser import HTMLParser from htmlentitydefs import name2codepoint class MyHTMLParser(HTMLPa
Python HTML解析模块HTMLParser用法分析【爬虫工具】
2020-09-19 11:34

主要介绍了Python HTML解析模块HTMLParser用法,结合实例形式分析了HTMLParser模块功能、常用函数及作为爬虫工具相关使用技巧,需要的朋友可以参考下
没有解决我的问题, 去提问

悬赏问题

¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog
¥15 Excel发现不可读取的内容
¥15 关于#stm32#的问题：CANOpen的PDO同步传输问题

python HTMLParser问题

1条回答 默认 最新

悬赏问题

1条回答默认最新