用Python爬取豆瓣电影链接，为何爬下来的链接总是重复出现两次

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen("https://movie.douban.com/")
bsobj = BeautifulSoup(html)
for titles in bsobj.findAll("li",{"class":"title"}):
print(titles.get_text())

for link in bsobj.findAll("a",href = re.compile("https://movie.douban.com/subject/.*/?from=showing")):
if 'href' in link.attrs:
print(link.attrs['href'])

图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Italink 2019-07-08 16:54
关注
因为图片和标题都有链接，所以加一个条件筛选

from urllib.request import urlopen from bs4 import BeautifulSoup import re html = urlopen("https://movie.douban.com/") bsobj = BeautifulSoup(html) for titles in bsobj.findAll("li",{"class":"title"}): print(titles.get_text()) for link in bsobj.findAll("a",{"onclick":"moreurl(this, {from:'mv_a_pst'})"},href = re.compile("https://movie.douban.com/subject/.*/?from=showing")): if 'href' in link.attrs: print(link.attrs['href'])
解决 3
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

多进程爬取豆瓣电影出现异常 python
2021-08-10 16:43

回答 2 已采纳 Process(target = parse_url,args = url) 这里的args 参数需要是一个元组形式，可以写成args=（url，）
做了python爬取豆瓣电影程序，但是一直出错 python
2020-05-04 10:23

回答 2 已采纳我也爬过豆瓣，应该是你直接用 response.json 这个用法不对，应该将 response.text 转成 JSON： ``` import requests import json
Python爬取豆瓣电影数据返回[]，没有数据 json python
2022-01-02 16:04

回答 3 已采纳找到问题了 interval_id 后面100:90冒号后多了一个空格
使用python爬取豆瓣电影top250的数据
2023-11-07 14:00

提醒一下哟的博客本篇文章主要讲解如何爬取豆瓣电影top250中的数据。爬取豆瓣top250比较适合初学者用于练习和熟悉爬虫技能知识的简单实战项目，通过这个项目，可以让小白对爬虫有一个初步认识和了解。那么就让我们开始吧！爬虫...
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
为什么爬取豆瓣top250得到是的是个空列表啊 python 有问必答
2021-12-03 22:06

回答 2 已采纳被反扒了，加上User-Agent def getHtml(url): r=requests.get(url,headers={'User-Agent':'Mozilla/5.0 (Windo
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
使用Python爬取豆瓣电影 Top 250
2022-01-10 14:26

社恐小fan的博客本博客主要叙述了Python爬虫中xpath解析的实际应用以及如何将解析好的数据保存为.csv格式，这里以豆瓣电影 Top 250 一、大致思路 1.导入第三方库我这里用了几个比较简单的第三方库，大家环境里没有的话需要下载...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
完全小白篇-用python爬取豆瓣电影影评
2020-09-07 10:07

怡宝的代言人连高波的博客 Python爬虫技术5天速成（2020全新合集）
如何用python爬取一个网页上的问题与答案的两部分文字部分？？ python
2019-06-29 17:19

回答 2 已采纳其实就是对网站获得的数据做一个整理，用正则表达式找出你想要的东西就行 ``` from bs4 import BeautifulSoup import requests url="https:
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析
2023-09-26 12:04

jojo来根易安的博客本次程序只爬取了豆瓣top250电影的展示页面的数据，没有爬取电影详情页的数据。在前面我们已经获取了每一部电影详情页的链接links，如果想要爬取电影的详情页，可以通过for循环遍历列表links，对每一个详情页发起...
Python实战：爬取豆瓣电影
2021-04-15 21:40

极客范儿的博客春天来了，万物复苏，很多学生都要做课设项目了，又到了码农们爬虫的季节，... 一、通用思路：找到豆瓣电影的汇总页面，整个页面都是各种电影的信息（相当于一个列表，把电影摆到一起）每一条点开后有一个详情页……
没有解决我的问题, 去提问

悬赏问题

¥15 stm32流水灯＋呼吸灯＋外部中断按键
¥15 将二维数组，按照假设的规定，如0/1/0 == "4"，把对应列位置写成一个字符并打印输出该字符
¥15 NX MCD仿真与博途通讯不了啥情况
¥15 win11家庭中文版安装docker遇到Hyper-V启用失败解决办法整理
¥15 gradio的web端页面格式不对的问题
¥15 求大家看看Nonce如何配置
¥15 Matlab怎么求解含参的二重积分？
¥15 苹果手机突然连不上wifi了？
¥15 cgictest.cgi文件无法访问
¥20 删除和修改功能无法调用