cg010 2016-03-24 09:12 采纳率: 0%
浏览 757

智能建立网址列表程序意外停止但不出现错误?

最近想用PHP写一个收集站内网址列表的程序,如果要是为每个独立的网站都配置单独的规则程序就显得不够智能,所以想一次性写一个智能点的,我的思路是,程序从一个入口进入“www.xxx.com”后用FILE_GET_CONTENT 或CURL获取该页的HTML,然后通过正则分析出所有的链接保存到数组中。

这个时候问题就出现了,因为HTML写法问题,会出现很多情况,下面举例说明。

标题
标题
标题
标题
标题
标题
标题

等等吧,还有很多情况就不逐一写出来了,由于FILE_GET_CONTENT是必须能够访问到该页面才可以返回HTML,但是如果在访问之前不处理的话,就会出现无法访问被跳过的现象,于是我就根据一定情况对上述地址进行拼接使其能够被访问到。

但是我写出的程序依旧不能解决所有问题,而且现在会出现程序没执行完毕就停了,程序不报任何错误,好像结束了一样。

想赖咨询一下,大家有没有什么好的方法去匹配所有情况,因为网址拼接这块是个重点,如果不能有效拼接就无法抓取更多网址,但是通常的拼接不能解决所有情况。

希望大家给予指导。

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 安卓adb backup备份应用数据失败
    • ¥15 eclipse运行项目时遇到的问题
    • ¥15 关于#c##的问题:最近需要用CAT工具Trados进行一些开发
    • ¥15 南大pa1 小游戏没有界面,并且报了如下错误,尝试过换显卡驱动,但是好像不行
    • ¥15 没有证书,nginx怎么反向代理到只能接受https的公网网站
    • ¥50 成都蓉城足球俱乐部小程序抢票
    • ¥15 yolov7训练自己的数据集
    • ¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)(相关搜索:51单片机|单片机|测试代码)
    • ¥15 电力市场出清matlab yalmip kkt 双层优化问题
    • ¥30 ros小车路径规划实现不了,如何解决?(操作系统-ubuntu)