抓取网页里的链接地址

图片说明

我试图抓取上图的链接可是返回以下错误

Traceback (most recent call last):
File "/Users/euro3/Library/Preferences/PyCharmCE2018.1/scratches/scratch_7.py", line 65, in
add_index_url(url,num,file_object)
File "/Users/euro3/Library/Preferences/PyCharmCE2018.1/scratches/scratch_7.py", line 51, in add_index_url
write_url=get_download_url(html)
File "/Users/euro3/Library/Preferences/PyCharmCE2018.1/scratches/scratch_7.py", line 14, in get_download_url
url_a=td.find('source')
AttributeError: 'NoneType' object has no attribute 'find'

下面是我运行的代码：

import sys
import urllib2
import os
import chardet
from bs4 import BeautifulSoup
import time
reload(sys)
sys.setdefaultencoding("utf-8")

def get_download_url(broken_html):
    soup=BeautifulSoup(broken_html,'html.parser')
    fixed_html=soup.prettify()
    td=soup.find('video',attrs={'id':'player_html5_api'})
    url_a=td.find('source')
    url_a=url_a['src']
    return url_a

def get_title(broken_html):
    soup=BeautifulSoup(broken_html,'html.parser')
    fixed_html=soup.prettify()
    title=soup.find('h1')
    title=title.string
    return title

def url_open(url):
    req=urllib2.Request(url)
    req.add_header('User-Agent','Mozilla/5.0')
    response=urllib2.urlopen(url)
    html=response.read()
    return html

def add_index_url(url,num,file_object):
    for i in range(1,num):
        new_url=url+str(i)
        print("----------------------start scraping page"+str(i)+"---------------------")
        html=url_open(new_url)
        time.sleep(1)
        soup=BeautifulSoup(html,'html.parser')
        fixed_html=soup.prettify()
        a_urls=soup.find_all('div',attrs={'class':'pic'})
        host="http://zhs.lxxlxx.com"
        for a_url in a_urls:
            a_url=a_url.find('a')
            a_url=a_url.get('href')
            a_url=host+a_url
            print(a_url)
            html=url_open(a_url)
            #html=unicode(html,'GBK').encode("utf-8")
            html=html.decode('utf-8')
            write_title=get_title(html)
            write_url=get_download_url(html)
            file_object.write(write_title+"\n")
            file_object.write(write_url+"\n")

if __name__=='__main__':
    url="http://zhs.lxxlxx.com/new/"
    filename="down_load_url.txt"
    num=int(raw_input("please input the page num you want to download:"))
    num=num+1
    if os.path.exists(filename):
        file_object=open(filename,'w+')
    else:
        os.mknod(filename)
        file_object=open(filename,'w+')
    add_index_url(url,num,file_object)
    print("----------------------scraping finish--------------------------")
    file_object.close()

有谁可以帮忙修改一下，本人自学python中所以不是很明白哪里出错

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
JonathanYan 2018-09-20 08:36
关注
有可能是soup没有查到video标签，然后返回了None给td，建议你在执行soup.find后判断返回值有没有数据

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

网页获取当前时间向后端传的时候出错 java json 后端
2023-03-21 23:41

回答 2 已采纳日期格式不对，前端传到后端的是 2023/3/21 23:35:36 这样的，后端期望的是 yyyy-MM-dd HH:mm:ss后端格式化使用如下试试： @JsonFormat(shape
vue怎么获取后端数据 java spring vue.js
2022-06-15 13:13

回答 3 已采纳 this.phone=resp.data.phone;this.codeType=resp.data.code;可以吗
前端获取数据，到后端存储在map里 java vue.js
2021-08-10 17:45

回答 1 已采纳 public PageData(HttpServletRequest request){ this.request = request; Map properties =
微信公众号获取网页授权前端和后端方法
2019-07-12 11:11

神夜大侠的博客 if($code==''){ //没有传code时去获取code $APPID=''; //APPid $REDIRECT_URI='http://www.xxxx.com/index.html'; //返回前端网址 $scope='snsapi_base'; $url='...
使用thymeleaf获取不到后端req数据 java tomcat
2022-03-31 14:51

回答 2 已采纳 th:object="${fest}" 改为th:each = "orederServlet:${fest}"然后th:value中分改为th:value="${orederServlet.Servl
关于后端获取不到请求头中的token的问题？ ajax 前端后端
2022-06-30 20:05

回答 6 已采纳这些截图看不出来你有啥问题，先确定几件事1、前端那里的token不是空的，是有值的；2、确定前端的请求头是headers吗，改成header试试；3、看一下后端的request是哪里来的
怎么通过前端页面找到后端页面代码 java spring boot 后端
2021-09-10 09:58

回答 5 已采纳 F12 如果是火狐的话看网络那一块然后刷新一下界面所有接口名称就都出现了找到一个接口idea里边ctrl + shift + f搜一下那个接口的名称com后边就是接口的名称去找一下
如何用python做后端写网页-flask框架
2021-02-21 23:32

小花不写代码的博客如何以python做后端写网页-flask框架什么是Flask安装flask模块Hello World更深一步：数据绑定如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右...
如何实现下拉框获取后端传递的数据，展现在下拉框里面 ajax javascript 前端
2021-09-03 11:28

回答 1 已采纳 $('#xiala').append(new Option(显示文本值,对应value值));//往下拉菜单里添加元素追加完成得使用form.render();//菜单渲染把内容加载进去
后端返回token怎么放到请求头里面 ajax html javascript
2022-05-28 23:23

回答 1 已采纳首先拿到token可以存到浏览器缓存session，cookies，storage等 $.ajax({ headers: { "testheader": "test"
用python获取里面的a标签的链接地址 javascript python
2017-11-15 03:55

回答 2 已采纳这是爬取本页a标签url的方法，参考一下，要下载lxml。不下载的话，Beatifusoup()方法里不写,'lxml'也行。 import requests from bs4 import Be
java如何做网页后端_web开发中前端页面是如何跟后端服务器数据交互的
2021-03-09 22:44

黄恒乐的博客本文链接：https://blog.csdn.net/kangkanglhb88008/article/details/84446173后端服务器一般是指servlet容器，用于执行java源程序常见的网页有html，htm,shtml，asp，aspx，php，jsp等格式前两个常用于静态网页，...
后端如何获取ajax里的数据 ajax
2017-12-06 00:46

回答 2 已采纳 java版：request.getParameter("id");
MVC获取网页地址和参数
2023-04-02 11:28

wnety的博客 MVC获取网页地址和参数
【vue】前端调取多个后端服务器地址获取数据
2021-12-17 08:51

菜卷_的博客今天收到这么一个需求，需要我去请求不同的服务器来获取数据，在网上搜了相关的方法，感觉都太复杂，我用下边这个方案也可以解决，并且暂时还没遇到坑，如果遇到坑会及时更新。解决方案：其实思路很简单，通过...
没有解决我的问题, 去提问

悬赏问题

¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误

抓取网页里的链接地址

2条回答 默认 最新

悬赏问题

2条回答默认最新