用Python爬取豆瓣电影链接，为何爬下来的链接总是重复出现两次

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen("https://movie.douban.com/")
bsobj = BeautifulSoup(html)
for titles in bsobj.findAll("li",{"class":"title"}):
print(titles.get_text())

for link in bsobj.findAll("a",href = re.compile("https://movie.douban.com/subject/.*/?from=showing")):
if 'href' in link.attrs:
print(link.attrs['href'])

图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Italink 2019-07-08 16:54
关注
因为图片和标题都有链接，所以加一个条件筛选

from urllib.request import urlopen from bs4 import BeautifulSoup import re html = urlopen("https://movie.douban.com/") bsobj = BeautifulSoup(html) for titles in bsobj.findAll("li",{"class":"title"}): print(titles.get_text()) for link in bsobj.findAll("a",{"onclick":"moreurl(this, {from:'mv_a_pst'})"},href = re.compile("https://movie.douban.com/subject/.*/?from=showing")): if 'href' in link.attrs: print(link.attrs['href'])
解决 3
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

多进程爬取豆瓣电影出现异常 python
2021-08-10 16:43

回答 2 已采纳 Process(target = parse_url,args = url) 这里的args 参数需要是一个元组形式，可以写成args=（url，）
做了python爬取豆瓣电影程序，但是一直出错 python
2020-05-04 10:23

回答 2 已采纳我也爬过豆瓣，应该是你直接用 response.json 这个用法不对，应该将 response.text 转成 JSON： ``` import requests import json
Python爬取豆瓣电影数据返回[]，没有数据 json python
2022-01-02 16:04

回答 3 已采纳找到问题了 interval_id 后面100:90冒号后多了一个空格
使用python爬取豆瓣电影top250的数据
2023-11-07 14:00

提醒一下哟的博客本篇文章主要讲解如何爬取豆瓣电影top250中的数据。爬取豆瓣top250比较适合初学者用于练习和熟悉爬虫技能知识的简单实战项目，通过这个项目，可以让小白对爬虫有一个初步认识和了解。那么就让我们开始吧！爬虫...
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
为什么爬取豆瓣top250得到是的是个空列表啊 python 有问必答
2021-12-03 22:06

回答 2 已采纳被反扒了，加上User-Agent def getHtml(url): r=requests.get(url,headers={'User-Agent':'Mozilla/5.0 (Windo
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
使用Python爬取豆瓣电影 Top 250
2022-01-10 14:26

社恐小fan的博客本博客主要叙述了Python爬虫中xpath解析的实际应用以及如何将解析好的数据保存为.csv格式，这里以豆瓣电影 Top 250 一、大致思路 1.导入第三方库我这里用了几个比较简单的第三方库，大家环境里没有的话需要下载...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
python爬取豆瓣短评_爬虫-爬取豆瓣短评
2020-11-28 20:57

weixin_39758953的博客爬虫-爬取豆瓣短评啥是爬虫？按照一定的规则，...爬虫分为三个部分1、解析网页2、提取信息3、保存信息接下来将会用requests库来实现一个简单地爬虫爬取豆瓣短评首先我们需要安装requests库我们可以cmd指令进入p...
如何用python爬取一个网页上的问题与答案的两部分文字部分？？ python
2019-06-29 17:19

回答 2 已采纳其实就是对网站获得的数据做一个整理，用正则表达式找出你想要的东西就行 ``` from bs4 import BeautifulSoup import requests url="https:
完全小白篇-用python爬取豆瓣电影影评
2020-09-07 10:07

怡宝的代言人连高波的博客 Python爬虫技术5天速成（2020全新合集）
Python实战：爬取豆瓣电影
2021-04-15 21:40

极客范儿的博客春天来了，万物复苏，很多学生都要做课设项目了，又到了码农们爬虫的季节，... 一、通用思路：找到豆瓣电影的汇总页面，整个页面都是各种电影的信息（相当于一个列表，把电影摆到一起）每一条点开后有一个详情页……
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

用Python爬取豆瓣电影链接，为何爬下来的链接总是重复出现两次

2条回答 默认 最新

悬赏问题

2条回答默认最新