以沐、 2016-12-06 09:39 采纳率: 0%
浏览 1091

python爬虫出错 各位大神能不能帮我看一下是什么问题?python2.7

import urllib2
import urllib
import re

class BDTB:
def init(self,baseUrl,see_LZ):
self.baseURL = baseUrl
self.seeLZ = '?see_lz='+str(see_LZ)

def getPage(self,pageNum):
    try:
        url = self.baseURL + self.seeLZ + '&pn=' + str(pageNum)
        request = urllib2.Request(url)
        response  =urllib2.urlopen(request)
        print response.read()
        return response
    except urllib2.URLError , e:
        if hasattr(e,"reason"):
            print u"link fail,reason",e.reason
            return None
def getTitle(self):
    page = self.getPage(1)
    pattern = re.compile('<h3 class="core_title_txt.*?>(.*?)</h3>',re.S)
    result = re.search(pattern,page)
    if result:
        print result.group(1)
        return result.group(1).strip()
    else:
        return None

def getPageNum(self):
    page = self.getPage(1)
    print page.read()
    pattern = re.compile('<li class="l_reply_num.*?</span>.*?<span.*?>(.*?)</span>', re.S)
    result = re.search(pattern, page)
    if result:
        print result.group(1)
        return result.group(1).strip()
    else:
        return None

def getContent(self):
    page = self.getPage(1)
    pattern = re.complie('<div id="post_content_.*?>(.*?)</div>',re.S)
    items = re.findall(pattern,page)
    for item in items:
        print item

baseURL = "http://tieba.baidu.com/p/4866982459"
bdtb = BDTB(baseURL,1)
bdtb.getPage(1)
bdtb.getTitle()
bdtb.getPageNum()
bdtb.getContent()

  • 写回答

3条回答 默认 最新

  • 冰小点 2016-12-06 09:47
    关注

    问问题之前先把报错的traceback和错误提示发出来??

    评论

报告相同问题?

悬赏问题

  • ¥50 永磁型步进电机PID算法
  • ¥15 sqlite 附加(attach database)加密数据库时,返回26是什么原因呢?
  • ¥88 找成都本地经验丰富懂小程序开发的技术大咖
  • ¥15 如何处理复杂数据表格的除法运算
  • ¥15 如何用stc8h1k08的片子做485数据透传的功能?(关键词-串口)
  • ¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗?
  • ¥200 uniapp长期运行卡死问题解决
  • ¥15 latex怎么处理论文引理引用参考文献
  • ¥15 请教:如何用postman调用本地虚拟机区块链接上的合约?
  • ¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题:[h264 @ 000000004faf7500]no frame?