获取网站head标签失败

我总结了网上的一些代码，做了一款输入网址自动获取网页favicon的java工具类，但是我在获取抖音创作服务平台这个网站的时候出现了问题：他总是会重定向到一级域名，导致我无法正常获取网页的head标签。希望社区里的狼灭们能帮我一下

我输入的网址：

抖音创作服务平台抖音创作服务平台是抖音创作者的专属服务平台，支持用户作为创作者和管理机构两种登陆方式，并通过提供授权管理、内容管理、互动管理及数据管理等服务助力抖音用户高效运营！

https://creator.douyin.com/creator-micro/home

重定向的域名：

https://creator.douyin.com/

工具类源码


package com.websiteCollections.common;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class IconUtil {

    //设置解析网页favicon.ico的link的正则表达式
    private static final Pattern[] ICON_PATTERNS = new Pattern[]{
            Pattern.compile("rel=[\"']shortcut icon[\"'][^\r\n>]+?((?<=href=[\"']).+?(?=[\"']))"),
            Pattern.compile("((?<=href=[\"']).+?(?=[\"']))[^\r\n<]+?rel=[\"']shortcut icon[\"']"),
//            Pattern.compile("property=[\"']og:image[\"'][^\n\r>]+?((?<=content=[\"']).+?(?=[\"']))"),
            Pattern.compile("sizes=[\"'](96x96|32x32|16x16)[\"'][^\n\r>]+?((?<=href=[\"']).+?(?=[\"']))")
    };
    //设置解析网页head标签结尾的正则表达式
    private static final Pattern HEAD_END_PATTERN = Pattern.compile("</head>");

    /**
     * 功能描述：
     * 获取favicon.ico地址的静态方法
     * 也是本工具类的入口
     *
     * @param:网页地址:webUrl
     * @return:
     */
    public static String getIconUrl(String webUrl) {
        //webUrl = getFinalUrl(webUrl);
        return getIconUrlByRegex(webUrl);
    }

    /**
     * 功能描述：
     * getIconUrlByRegex是根据正则表达式从html中获取Icon地址，
     * getHead方法是获取网页的head结束标签之前的文本，
     * 然后用正则表达式匹配内容，
     * 这里的正则表达式是ICON_PATTERNS数组，
     * 这是因为rel和href的顺序是不固定的。
     * 匹配到以后判断一下是否为相对路径，
     * 如果是的话做进一步处理。
     *
     * @param:
     * @return:
     */
    private static String getIconUrlByRegex(String webUrl) {
        System.out.println("进入 getIconUrlByRegex 方法");
        try {
            String headString = getHead(webUrl);
            System.out.println(headString);
            for (Pattern iconPattern : ICON_PATTERNS) {
                Matcher matcher = iconPattern.matcher(headString);

                System.out.println("判断是否拿到原icon地址");
                if (matcher.find()) {
                    //这个时候已经拿到原始的icon地址了
                    String iconUrl = matcher.group(1);
                    System.out.println("拿到原始icon地址");
                    System.out.println(iconUrl);
                    //判断是否为http或https路径
                    if (iconUrl.contains("http") || iconUrl.contains("https")) {
                        return iconUrl;
                    }
                    //判断是否为相对路径或根路径
                    if (iconUrl.charAt(0) == '/') {
                        if (iconUrl.charAt(1) == '/'){
                            URL url = new URL(webUrl);
                            iconUrl = url.getProtocol() + ":" + iconUrl;
                        }else{
                            URL url = new URL(webUrl);
                            iconUrl = url.getProtocol() + "://" + url.getHost() + iconUrl;
                        }
                    } else {
                        iconUrl = webUrl + "/" + iconUrl;
                    }
                    return iconUrl;
                }
            }
        } catch (MalformedURLException m) {
            System.out.println("MalformedURLException 异常");
            m.printStackTrace();
        }
        return null;
    }

    /**
     * 功能描述：
     * 获取稳定的url
     * getFinalUrl是获取网址经过跳转之后的url地址，
     * 如果没有跳转就返回原来的url。
     * 防止有些网址会出现跳转的情况，
     * 所以先搞到跳转之后的网址在进行获取。
     *
     * @param:
     * @return:
     */
    public static String getFinalUrl(String webUrl) {
        HttpURLConnection connection = null;
        try {
            connection = getConnection(webUrl);
            connection.connect();

            // 是否跳转，若跳转则跟踪到跳转页面
            if (connection.getResponseCode() == HttpURLConnection.HTTP_MOVED_PERM
                    || connection.getResponseCode() == HttpURLConnection.HTTP_MOVED_TEMP) {
                String location = connection.getHeaderField("Location");
                if (!location.contains("http")) {
                    location = webUrl + "/" + location;
                }
                return location;
            }
        } catch (Exception e) {
            System.err.println("获取跳转链接超时，返回原链接" + webUrl);
        } finally {
            if (connection != null) {
                connection.disconnect();
            }
        }
        return webUrl;
    }

    // 获取一个连接
    private static HttpURLConnection getConnection(String webUrl) throws IOException {
        URL url = new URL(webUrl);
        HttpURLConnection connection = (HttpURLConnection) url.openConnection();
        connection.setInstanceFollowRedirects(false);
        connection.setConnectTimeout(3000);
        connection.setReadTimeout(3000);
        connection.setRequestProperty(
                "User-Agent",
                "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"
        );
        return connection;
    }

    // 获取截止到head尾标签的文本
    private static String getHead(String webUrl) {
        HttpURLConnection connection = null;
        BufferedReader reader = null;

        try {
            connection = getConnection(webUrl);
            connection.connect();
            reader = new BufferedReader( new InputStreamReader( connection.getInputStream() ) );

            StringBuilder headBuilder = new StringBuilder();
            String line;

            while ( ( line = reader.readLine() ) != null ) {
                Matcher matcher = HEAD_END_PATTERN.matcher( line );
                if (matcher.find()) {
                    break;
                }
                headBuilder.append(line);
            }

            return headBuilder.toString();

        } catch (IOException i) {
            i.printStackTrace();
            return null;
        } finally {
            try {
                if ( reader != null ) {
                    reader.close();
                }
                if ( connection != null ) {
                    connection.disconnect();
                }
            }
            catch ( IOException e ) {
                e.printStackTrace();
            }
        }
    }
}

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2021-09-22 10:08
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答

本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为您补发到账户。

因为有问必答VIP体验卡有效期仅有1天，您在需要使用的时候【私信】联系我，我会为您补发。

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

运维工程师面试总结(含答案)
2023-05-28 12:28

会飞的土拨鼠呀的博客 awk '{array[$1]++}END{for (ip in array)print ip,array[ip]}' access.log |sort -k2 -rn|head 8. 如何删除/var/log/下.log结尾的30天前的日志？ find /var/log/ -type f -name .*.log -mtime 30|xargs rm -f 9. ...
《Linux运维篇：Linux系统运维指南》
2022-12-05 09:24

东城绝神的博客《Linux运维篇：Linux系统运维指南》
运维面试题（每日一题）
2020-09-13 12:55

果子哥丶的博客方法二：ps -aux | sort -k4nr | head -3 6、如何将本地80端口的请求转发到8080端口，当前主机IP为192.168.133.126 iptables -t nat -A PREROUTING -d 192.168.133.126 -p tcp --dport 80 -j DNAT --to-des 192.168....
运维环境部署
2024-09-19 11:42

无用的忙碌的博客 docker 私有镜像仓库的图像化页面 (13)私有仓库镜像管理 ①　首先需要使用 tag 命令重新指定要推送的镜像的标签。因为要想将服务器上的 Docker 镜像推送到刚才搭建的私有镜像仓库中，必须指定该私有镜像的仓库的ip+...
elasticsearch-head索引管理实战：从零实现可视化运维
2026-01-05 06:55

晕过前方的博客通过elasticsearch-head快速搭建Elasticsearch可视化管理界面，实现索引的增删改查与集群状态监控，提升运维效率。深入讲解连接配置、数据浏览及故障排查技巧，让elasticsearch-head成为日常运维利器。
一文带你全面详细了解安全运维
2024-07-19 09:53

～小羊没烦恼～的博客从安全性来讲：正向代理：正向代理允许客户端通过它访问任意网站并且隐蔽客户端自身，因此你必须采取安全措施来确保仅为经过授权的客户端提供服务。反向代理：对外是透明的，访问者并不知道自己访问的是代理。对...
运维系列.Nginx：自定义错误页面
2024-07-07 17:33

jcLee95的博客例如，一个典型的404错误页面可能如下所示： <html> <head><title>404 Not Foundtitle>head> <body> <center><h1>404 Not Foundh1>center> <hr><center>nginx/1.18.0center> body> html> 虽然这些默认错误页面能够...
最新字节跳动运维云原生面经分享
2025-04-29 12:29

王中阳讲编程的博客最新字节跳动的运维工程师岗位的云原生方向的面经，涉及Prometheus、Kubernetes、CI/CD、网络代理、MySQL主从、Redis哨兵、系统调优及基础命令行工具等知识点。
中级运维工程师面试题汇总(含答案)
2025-04-23 14:42

SZHCI的博客 awk '{array[$1]++}END{for (ip in array)print ip,array[ip]}' access.log |sort -k2 -rn|head 8. 如何删除/var/log/下.log结尾的30天前的日志？ find /var/log/ -type f -name .*.log -mtime 30|xargs rm -f 9. ...
运维工程师面试题174道
2025-07-17 12:52

运维成长记的博客应用运维：是给业务上线、维护和做故障排除的，用开发运维开发出来的工具给业务上线、维护、做故障排查。...运维、网站运维、虚拟化运维、监控运维、游戏运维等等。）建立简单的服务器的系统、配置、应用的。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月19日

获取网站head标签失败

1条回答 默认 最新

问题事件

1条回答默认最新