大加加 2021-03-27 20:15 采纳率: 66.7%
浏览 92
已采纳

python爬虫相关的作业

作业是做一个基于python的校园网搜索引擎(老师从一本python项目实战案例的书上选的)

我也就照着书上老师直播的代码改了试着做了一下,现在的要求是“能搜索到整个学校的所有上传的新闻/通知等网页链接”(功能类似于一般大学官网边角带有的搜索功能)

我大学的所有可搜到的新闻、通知等网页链接的规律是这样的:https://(1).ntu.edu.cn/(2)/(3)/(4)/page.htm

其中,(1)为"www"或"news"或"lxyz",可能还有其他,总之就是英文字符串;

         (2)为四位数字,代表年份,如2021;

           (3)为四位数字,几月几日,如0327;

          (4)为一串带字母数字的字符串,如c10a161733;

······

网上我找的python相关的爬虫搜索引擎的实战项目案例,基本都是获取某网站单个页面下的所有物件网页信息,

而我的作业要求模仿学校官网的搜索功能,说白了就是深入官网内每一个子栏目进行深度爬取

官网下子栏目

,爬取每一个子栏目下的所有网页,

搞得我不会弄啊······有什么思路吗

  • 写回答

3条回答 默认 最新

  • CSDN专家-江小黑 2021-03-27 23:21
    关注

    你把你学校官网地址发出来,私信发也行

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 android 集成sentry上报时报错。
  • ¥50 win10链接MySQL
  • ¥35 跳过我的世界插件ip验证
  • ¥15 抖音看过的视频,缓存在哪个文件
  • ¥15 自定义损失函数报输入参数的数目不足
  • ¥15 如果我想学习C大家有是的的资料吗
  • ¥15 根据文件名称对文件进行排序
  • ¥15 deploylinux的ubuntu系统无法成功安装使用MySQL❓
  • ¥15 有人会用py或者r画这种图吗
  • ¥15 MOD04_3K图像预处理