实验内容:给定一个网站,将网站的所有网页的标题(title)进行管理,管理内容:
1.初始化网站网页标题信息,运行自己编写的爬虫程序获取指定网站所有网页标题,并存储在内存数据结构中。注意:相同的网页不需重复获取。
2.用树形方式展示已经获取到的网页标题,在管理界面中输入序号就能够跳转到对应网页
3.根据以下两种方式顺序显示(列表显示),输入序号跳转到对应网页
(1)按照标题字典顺序从小到大;(2)按照标题长度从小到大顺序.
4.根据网站每日变化情况更新网页标题,并输出更新日志.
主菜单
1.初始化获取网站网页标题
2.树形展示网页标题
3.按标题字典顺序展示网页标题
4.按标题长度展示网页标题
5.同步更新网页标题
获取网站网页标题
1.广度优先
2.重复标题识别
3.Title
4.不考虑本网站之外的网页
5.不需复制保存网站网页内容,只要保留标题以及对应链接