这个应该怎么改才能抓取详情信息


import requests
from bs4 import BeautifulSoup
import pandas as pd 

def get_data(url):
    headers={'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) \
                        AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36"}
    
    try:
        r = requests.get(url, headers=headers)
        r.encoding = 'GBK'
        r.raise_for_status()
        return r.text
    except requests.HTTPError as e:
        print(e)
        print("HTTPError")
    except requests.RequestException as e:
        print(e)
    except:
        print("Unknown Error !")


def parse_data(html):
    soup = BeautifulSoup(html, "html.parser")
    soup

    tbList =soup.find_all('table', attrs = {'class': 'tbspan'})

    for item in tbList:
        p=item.stripped_strings
        for i in p:
            print(i)
            #print(2)
        movie = []
        link = item.b.find_all('a')[1]
        name = link["title"]
        url = 'https://www.dy2018.com' + link["href"]
    
        try:
            temp = soup.BeautifulSoup(data(url), 'html.parser')
            tbody = temp.find_all('tbody')
        
            for i in tbody:
                download = i.a.text
                if 'magnet:?xt=urn:btih' in download:
                    movie.append(name)
                    movie.append(url)
                    movie.append(download)
                    #print (movie)
                    movie.append(movie)
                    break
        
        except Exception as e:
            print(e)
    return movie  
def save_data(data):
    filename = 'tt.csv'
    dataframe = pd.DataFrame(data)
    dataframe.to_csv(filename,mode='a',index=False, sep=',')

def main():
    for page in range(1,2):
        print('正在爬取：第' + str(page) + '页......')
        if page == 1:
            index = 'index'
        else:
            index = 'index_' + str(page)
        url = 'https://www.dy2018.com/html/bikan/'+ index +'.html'
        html = get_data(url)
        movies = parse_data(html)
        save_data(movies)
        print('第' + str(page) + '页完成！')
    
if __name__ == '__main__':
    print('爬虫启动成功！')
    main()
    print('爬虫执行完毕！')

爬取的电影天堂但是保存不到本地

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-黄老师 2021-06-24 09:36
关注
name = link["title"]，，link没有title这个属性，应该是定位问题吧

如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

这个应该怎么改才能抓取详情信息 python 有问必答
2021-06-24 09:17

回答 2 已采纳 name = link["title"]，，link没有title这个属性，应该是定位问题吧如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
抓取一个电影网站图片，图片链接没有规律，该怎么改才能运行 python 有问必答
2021-12-10 14:42

回答 1 已采纳不知道是不是题主要的，下载图片的代码题主自加下 import requests from lxml import etree from openpyxl import Workbook wb=Wor
我想问一下为什么我这个程序只能爬到第一页的数据呀，怎么改才能抓取全部呢？ python
2022-04-15 16:40

回答 1 已采纳这个时候你就要通过自己的观察，页面怎么跳到下一页，我看着你这个，url最后有一个=1估计就是指的第一页，那就=2就是第2页，做一个循环然后动态改变=n，然后不就可以想爬几页，爬几页，这只是假设，你要去
Python网页抓取教程
2021-09-24 14:52

Oxylabs中文站的博客在之前的文章中我们介绍了怎么用C#和JAVA两种方法来抓取网页，这一期给大家介绍一种更容易，也是使用最广泛的一种抓取方法，那就是Python。说起Python，大家应该并不陌生，它是目前入门最简单的一种方法了，因为它...
抓取韩剧网站多个网页的韩剧详情页链接，图片，现在怎么改才能运行出来 python 有问必答
2021-12-10 18:36

回答 2 已采纳请求的headers和url都要写正确，添加referer，请求头改为 "user-agent"，原代码中detaillink的xpath不正确，多页请求时添加延时。测试代码如下，可获取数据。 imp
抓取一个电影网站多个网页的剧名，主演，年份，现在怎么改才能运行出来 python 有问必答
2021-12-09 19:00

回答 2 已采纳这样？ import requests from lxml import etree from openpyxl import Workbook wb=Workbook() ws=wb.active
抓取一个韩剧网站多个网页的剧名，演员，更新状态，现在怎么改才能运行出来 python 有问必答
2021-12-09 15:43

回答 2 已采纳题主要的xpath采集代码如下 import requests from lxml import etree from openpyxl import Workbook wb=Workbook()
python模拟登陆并抓取_Python 爬虫模拟登录方法汇总
2020-12-09 15:28

weixin_39619481的博客目标网页这是我们要获取内容的网页：这个网页需要先登录才能看到数据信息，登录界面如下：可以看到，只需要输入账号和密码就可以登录，不用输验证码，比较简单。下面我们利用一个测试账号和密码，来实现模拟登录...
python+selenium+xpath如何定位网页table表格中的数据 python selenium 有问必答爬虫
2022-02-25 12:44

回答 2 已采纳使用last()定位最后一个tr节点，再用索引获取。示例： from lxml import etree with open('a.html','r',encoding='utf-8') as f:
python抓取网页源码时，打印的源码（默认使用IE解析）不解析，哪位大神有解决办法呀 python selenium 测试用例
2020-11-11 17:29

回答 1 已采纳什么意思？？？需要指定浏览器进行解析？？你圈出来的那句话不是为了匹配浏览器的吗？？解析使用bs4啊
python爬虫如何取出定位标签下的所有子集文本 python
2021-03-27 16:46

回答 1 已采纳将原代码中这段内容： for j in page_spec_data: for k in j.a: # print(k.string) value_word
如何利用Python爬虫抓取某眼查网站中的q业信息？
2023-06-07 14:41

狗蛋的博客之旅的博客如何利用Python爬虫抓取某眼查网站中的q业信息？
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
Python爬虫抓取网站模板的完整版实现
2022-09-30 00:15

特立独行的猫a的博客业余爱好喜欢倒弄下个人网站。对之前的个人博客网站模板不太满意，网上看到别人的网站真漂亮啊，于是想着搞下来借鉴...若是单个存取太麻烦，用工具的话还得找，于是想到干脆使用python实现下，python用于爬虫可真厉害。
[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
2020-09-30 21:07

Eastmount的博客欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给...
没有解决我的问题, 去提问

悬赏问题

¥15 高价求中通快递查询接口
¥15 解决一个加好友限制问题或者有好的方案
¥15 关于#java#的问题，请各位专家解答！
¥15 急matlab编程仿真二阶震荡系统
¥20 TEC-9的数据通路实验
¥15 ue5 .3之前好好的现在只要是激活关卡就会崩溃
¥50 MATLAB实现圆柱体容器内球形颗粒堆积
¥15 python如何将动态的多个子列表，拼接后进行集合的交集
¥20 vitis-ai量化基于pytorch框架下的yolov5模型
¥15 如何实现H5在QQ平台上的二次分享卡片效果？

这个应该怎么改才能抓取详情信息

2条回答 默认 最新

悬赏问题

2条回答默认最新