情况是这样:
1. 我通过网络抓包(wireshark)能得到用户的所有http请求
2. 我也知道如何解析http,通过host+path的方式还原url
3. 在访问一个网站的时候,会有大量的内嵌的url一并发出,例如图片,iframe标签等
我的问题是 -- 如何是通过网络抓包分析,确定在浏览器地址栏中的URL,而不要那些由于页面src引入的其他url。
我为此问题做的一些思考:
1. 过滤掉js,css,png等请求。不全面,有些iframe的情况是html的
2. refer。只过滤没有refer的url,这条路行不通,因为用户在浏览器中点击链接,新网页的Get请求也会带上原来页面的refer,所以此方法不靠谱。如果只考虑没有refer和refer字段的情况,也不全面。