爬虫，求友友指点迷津

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

Syb呀呀 2021-12-16 17:01

关注

看了一下你问了几个没人解答，刚好刷到，帮你写一下，仅供参考。


import datetime
import time
from lxml import etree
import requests
import logging

BASE_URL='https://www.igo.cn/zt/University_Rankings/'
def scrape_url(url):
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}
    print(datetime.date.today(),time.strftime("%H:%M:%S"),'正在爬取网站为:{} ...'.format(url))
    try:
        response=requests.get(url,headers=headers)
        response.encoding='gb2312'
        if response.status_code==200:
            return response.text
    except requests.RequestException:
        logging.error('error occurred while scraping %s',url,exc_info=True)

def parser_html():
    html=scrape_url(BASE_URL)
    dom=etree.HTML(html)
    xp=dom.xpath('//tr/td[1]/text()')
    xp_1=dom.xpath('//tr/td[2]/text()')
    xp_2=dom.xpath('//tr/td[3]/text()')
    xp_3=dom.xpath('//tr/td[4]/text()')
    xp_4=dom.xpath('//tr/td[5]/text()')
    for i in range(0,201):
        print('排名:'+str(xp[i].replace('/td>',''))+'\t',
              '中文名:'+xp_1[i]+'\t',
              '英文名:'+xp_2[i]+'\t',
              '国家/地区:'+xp_3[i]+'\t',
              '得分:'+str(xp_4[i]))

if __name__ == '__main__':
    parser_html()

上面代码是获取排行榜的数据，其中数据都打印出来了，你可自行运行一下参考，csv一块比较简单，可以搜搜csdn文件，把对应数据写进去就好了，如有帮助，给个采纳蟹蟹~

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

爬虫，求友友指点迷津 python
2021-12-14 14:42

回答 2 已采纳看了一下你问了几个没人解答，刚好刷到，帮你写一下，仅供参考。 import datetime import time from lxml import etree import requests i
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫使用selenium切换窗口问题 python selenium 有问必答爬虫
2022-03-18 12:30

回答 2 已采纳 driver.swith_to.window(driver.window_handles[1]),函数名写错了，不是swith是switch，少写了个c，改成：driver.switch_to.win
python爬虫数据显示问题 python 爬虫
2022-07-20 16:54

回答 3 已采纳首先，你这里写错了divs = query(".cm-content-box").items()
python爬虫检索超出范围报错 python 爬虫
2022-09-08 16:31

回答 3 已采纳你输出con，输出的con是空列表，说明你节点的定位是有问题的，直接去开发者面板复制定位路径
python爬虫，账号反爬怎么处理 python 爬虫
2021-09-08 19:39

回答 3 已采纳目前来看，账号反爬没有什么太好的应对措施。一旦你的账号确定被反爬了，就只能更换账号了，或者和网站客服沟通。对于账号反爬网站，一般来说，就是ip代理池和账号随机混用，还需要保证ip的质量，地域差异不要太
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月14日

悬赏问题

¥15 怎么生成确定数目的泊松点过程
¥15 python点云生成mesh精度不够怎么办
¥15 QT C++ 鼠标键盘通信
¥15 改进Yolov8时添加的注意力模块在task.py里检测不到
¥50 高维数据处理方法求指导
¥100 数字取证课程关于FAT文件系统的操作
¥15 如何使用js实现打印时每页设置统一的标题
¥15 安装TIA PortalV15.1报错
¥15 能把水桶搬到饮水机的机械设计
¥15 Android Studio中如何把H5逻辑放在Assets 文件夹中以实现将h5代码打包为apk

爬虫，求友友指点迷津

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新