python爬虫，爬不了HTML

-- coding: cp936 --

import bs4 as bs
import re, urllib2
import threading
import time
import datetime
import sys
import MySQLdb
import os
from time import strftime
import traceback
import base64
import uuid
from urlfetch import get

def get_page(link):
try:
response = urllib2.urlopen(link)
return response.read()
except:
return ""

def get_page_soup(link):
try:
html = get_page(link)
doc = "".join(html)
soup = bs.BeautifulSoup(html)
return soup
except:
return ""
print get_page('http://v.youku.com/v_show/id_XMTY4MzE0NjU2MA==.html')
print get_page_soup('http://v.youku.com/v_show/id_XMTY4MzE0NjU2MA==.html')
为什么第一个函数能行，第二个函数却抓不到界面？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2016-08-15 17:17
关注
看下是不是网络问题

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫爬到中间报错 python selenium 爬虫
2023-02-27 15:28

回答 3 已采纳 ..谢邀。页数有点多，就不跑完测了。报错是list index out of range,如果是在371页报的错，跟最后一页条数不够没啥关系。那首先317页和316页有啥区别？是317页就不够40条
Python爬虫系列（一）——手把手教你写Python爬虫
2021-10-23 15:47

纸照片的博客这一部分我写在另一篇文章了，Python爬虫批量下载百度图片–点击跳转 5. 后言爬虫还是比较好入门的，这得益于成熟的爬虫工具。爬虫可以满足自己的个性化搜索需求，大家赶快动手试试吧。（如果觉得文章还不错的话...
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
Python，爬虫 HTML代码不理解 javascript python 爬虫
2022-03-20 16:01

回答 2 已采纳鼠标右击复制xpath路径即可。那下一页的按钮应该是li节点 //*[@id="content-box"]/ul/li[4]
如何解决python爬虫问题？ python 人工智能爬虫
2022-08-15 09:11

回答 1 已采纳应该是css选择器里面的规则不够明确，可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall()
Python爬虫详解（一看就懂）
2022-06-21 22:07

练习时长两年半的Programmer的博客爬虫简单的来说就是用程序获取网络上数据这个过程的一种名称。如果要获取网络上数据，我们要给爬虫一个网址（程序中通常叫URL），爬虫发送一个HTTP请求给目标网页的服务器，服务器返回数据给客户端（也就是我们的...
python爬虫怎么改成多线程 python 爬虫
2022-04-29 12:58

回答 6 已采纳楼上的这些线程改造方式放在这里行不通吧。楼主代码中IO操作在循环的地方，这里线程不是应该将循环改成多线程吗。。。##改了一个循环，试一下 ```python import parsel impor
关于python爬虫，图片反爬 html python 爬虫
2022-07-12 00:50

回答 2 已采纳不是你爬到的是个静态的html页但是人家的html页其实是动态的，是需要执行js然后修改上面的值的
python爬虫检索超出范围报错 python 爬虫
2022-09-08 16:31

回答 3 已采纳你输出con，输出的con是空列表，说明你节点的定位是有问题的，直接去开发者面板复制定位路径
xiaohongshuSpider_python爬虫_python小红书_python
2021-09-11 10:20

python，小红书数据爬取工具，使用selenium打开页面，beautifulsoup分析html
python爬虫爬虫的网站源码不齐全怎么办 python
2019-04-26 16:05

回答 1 已采纳现在都是动态网页,你爬取到的只是一个基本框架而已。你可以用f12 然后检测一下http请求，基本上获取到的都是第一个请求。后面的数据都是通过js修改后的网页。交互式的。所以要想做复杂爬虫，
Python 万能代码模版：爬虫代码篇
2021-09-14 15:27

AI悦创|编程1v1的博客但今天的 Python 课程是个例外，因为今天讲的 **Python 技能，不需要你懂计算机原理，也不需要你理解复杂的编程模式。**即使是非开发人员，只要替换链接、文件，就可以轻松完成。并且这些几个实用技巧，简直是 ...
Python爬虫完整代码拿走不谢
2023-03-22 09:46

q56731523的博客对于新手做Python爬虫来说是有点难处的，前期练习的时候可以直接套用模板，这样省时省力还很方便。
没有解决我的问题, 去提问

悬赏问题

¥15 用visual studi code完成html页面
¥15 聚类分析或者python进行数据分析
¥15 逻辑谓词和消解原理的运用
¥15 三菱伺服电机按启动按钮有使能但不动作
¥15 js，页面2返回页面1时定位进入的设备
¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？

python爬虫，爬不了HTML

-*- coding: cp936 -*-

1条回答 默认 最新

悬赏问题

-- coding: cp936 --

1条回答默认最新