piffofthesouth 2023-06-03 17:57
浏览 4
已结题

不知道怎么回事数据一直为空



```python
import urllib.request
import urllib.parse
from lxml import etree

def creat_request(page):
    headers={
        'User-Agent':'....'
    }
    url='https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&'
    data={
        'start':(page-1)*20,
        'limit':20
    }
    data = urllib.parse.urlencode(data)
    url=url+data
    request=urllib.request.Request(url=url,headers=headers)
    return request

def get_connent(request):
    response=urllib.request.urlopen(request)
    connent=response.read().decode('utf-8')
    return connent

def download(connect):
    tree=etree.HTML(connect)
    film_name=tree.xpath('//div[@id="content"]//span[@class]')
    actor_list=tree.xpath('//*[@id="content"]//div[@class="movie-crew"]')
    communite_sum=tree.xpath('//*[@id="content"]//span[@class="comment-num"]')
    print(tree.xpath("//div[@class='info']"))

if __name__ == '__main__':
    start_page=int(input('start_page:'))
    last_page=int(input('last_page:'))
    for page in range(start_page,last_page+1):
        request=creat_request(page)
        connect=get_connent(request)
        download(connect)
    print('下载完成')

```

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 已结题 (查看结题原因) 6月3日
    • 修改了问题 6月3日
    • 创建了问题 6月3日

    悬赏问题

    • ¥15 from seleniumwire import webdriver 在抓取http://链接的时候会自动转https://这个怎么解决
    • ¥15 BAT根据上两级文件夹重新命名文件要求BAT
    • ¥30 不会,学习,有偿解答
    • ¥15 SQL查询语句报错(检查)
    • ¥15 此表中公式应该怎么写
    • ¥15 求HI-TECH PICC 9.50 PL3安装包
    • ¥15 下载ctorch报错,求解
    • ¥15 如何入门学习c语言,单片机
    • ¥15 idea 编辑语言的选择
    • ¥15 Windows下部署Asmjit