yinghua_shu 2016-08-15 09:54 采纳率: 28.6%
浏览 1431
已结题

python爬虫,爬不了HTML

-*- coding: cp936 -*-

import bs4 as bs
import re, urllib2
import threading
import time
import datetime
import sys
import MySQLdb
import os
from time import strftime
import traceback
import base64
import uuid
from urlfetch import get

def get_page(link):
try:
response = urllib2.urlopen(link)
return response.read()
except:
return ""

def get_page_soup(link):
try:
html = get_page(link)
doc = "".join(html)
soup = bs.BeautifulSoup(html)
return soup
except:
return ""
print get_page('http://v.youku.com/v_show/id_XMTY4MzE0NjU2MA==.html')
print get_page_soup('http://v.youku.com/v_show/id_XMTY4MzE0NjU2MA==.html')
为什么第一个函数能行,第二个函数却抓不到界面?

  • 写回答

1条回答 默认 最新

  • dabocaiqq 2016-08-15 17:17
    关注

    看下是不是网络问题

    评论

报告相同问题?

悬赏问题

  • ¥15 用visual studi code完成html页面
  • ¥15 聚类分析或者python进行数据分析
  • ¥15 逻辑谓词和消解原理的运用
  • ¥15 三菱伺服电机按启动按钮有使能但不动作
  • ¥15 js,页面2返回页面1时定位进入的设备
  • ¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
  • ¥15 (希望可以解决问题)ma和mb文件无法正常打开,打开后是空白,但是有正常内存占用,但可以在打开Maya应用程序后打开场景ma和mb格式。
  • ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
  • ¥20 腾讯企业邮箱邮件可以恢复么
  • ¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗?