java爬虫中的字符串截取问题

刚开始接触爬虫，已先将网页爬虫至tizi.txt，要从中获取作者和其发表的内容，一开始用的缓存，代码如下：
import java.io.*;

public class SpiderTest01 {

public static void main(String[] args) throws IOException {
    FileReader fr = null;
    FileWriter fw = null;

    try {
        fr = new FileReader("d:/tiezi.txt");
        fw = new FileWriter("d:/replace.txt");
        BufferedReader bufr = new BufferedReader(fr);
        BufferedWriter bufw = new BufferedWriter(fw);

        String line = null;
        String name = null;
        String text = null;
        String userNameBegin = "=utf-8\" target=\"_blank\">";
        String userNameEnd = "</a>";
        String userTextBegin = "class=\"d_post_content j_d_post_content  clearfix\">";
        String userTextEnd = "</div><br>";
        while ((line = bufr.readLine()) != null) {
            String userstr = null;
            String textstr = null;
            if (line.contains(userNameBegin) & line.contains(userNameEnd)) {
                // 若一行中包含开头和结尾
                name = line.substring(line.indexOf(userNameBegin) + 24,
                        line.indexOf(userNameEnd));
            } else if (line.contains(userNameBegin)
                    & (line.contains(userNameEnd) == false)) {
                userstr = line.substring(line.indexOf(userNameBegin));
            } else if (line.contains(userNameEnd)
                    & (line.contains(userNameBegin) == false)) {
                name = userstr
                        + line.substring(0, line.indexOf(userNameEnd));
            } 
            if(name!=null){
            bufw.write(name + '#');
            bufw.flush();
            }
            // 文本匹配
            if (line.contains(userTextBegin) & line.contains(userTextEnd)) {
                // 若一行中包含开头和结尾
                text = line.substring(line.indexOf(userTextBegin) + 36,
                        line.indexOf(userTextEnd));
            } else if (line.contains(userTextBegin)
                    & (line.contains(userTextEnd) == false)) {
                textstr = line.substring(line.indexOf(userTextBegin));
            } else if (line.contains(userTextEnd)
                    & (line.contains(userTextBegin) == false)) {
                text = userstr
                        + line.substring(0, line.indexOf(userTextEnd));
            }
            if(text!=null){
            bufw.write(text);
            bufw.flush();
    } else {
                continue;
            }
        }
        bufr.close();
        bufw.close();
    } catch (IOException e) {
        throw new RuntimeException("读写失败");
    }

}

}

在replace文件中发现并不是想要获取的内容，在想，是不是因为readline方法的局限问题，因为标识符有可能出现在一行的结尾和下一行的开始处，故采用数组方式获取，代码如下：
import java.io.*;
public class SpiderTestDemo02 {

public static void main(String[] args) throws IOException{

    FileWriter fw =null;
    FileReader fr =null;
    String name = null;
    String text = null;
    //定义作者开头及结尾标识，以及正文开始和结尾标识
    String userNameBegin = "=utf-8\" target=\"_blank\">";
    String userNameEnd = "</a>";
    String userTextBegin = "class=\"d_post_content j_d_post_content  clearfix\">";
    String userTextEnd = "</div><br>";

    try
    {
        //指定读写路径
        fw = new FileWriter("d:/tizi.txt");
        fr = new FileReader("d:/replace.txt");
        char[] ch = new char[1024];

        int len = 0;

        while((len=fr.read())!=-1)//读取原文件内容至数组
        {
            String line = new String(ch,0,len);

            if (line.contains(userNameBegin))
            {
                if(line.contains(userNameEnd))
                {
                    // 若一行中包含开头和结尾
                    name = line.substring(line.indexOf(userNameBegin) + 24,
                            line.indexOf(userNameEnd));
                    fw.write(name+"#");
                    fw.flush();
                }

            }
            if (line.contains(userTextBegin))
            {
                if(line.contains(userTextEnd))
                {
                    // 若一行中包含开头和结尾
                    text = line.substring(line.indexOf(userTextBegin) + 36,
                            line.indexOf(userTextEnd));
                    fw.write(text);
                    fw.write("\r\n");
                    fw.flush();
                }

            }
            if(line.contains(userNameBegin)==false&line.contains(userTextBegin)==false)
            {
                continue;
            }
        }
        fr.close();
        fw.close();

    }catch(IOException e){
        System.out.print(e);
    }

}

}

结果这次运行的结果是replace文件中无任何数据，求大婶指点

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
AngellaCan 2016-03-05 03:39
关注
有没有大婶给解释下代码哪里出了问题呢，没有币了，不胜感谢

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

java爬虫中的字符串截取问题 java 爬虫
2016-03-05 02:08

回答 3 已采纳有没有大婶给解释下代码哪里出了问题呢，没有币了，不胜感谢
python后端开发或爬虫怎么系统学习？ python 后端爬虫
2023-04-13 13:18

回答 1 已采纳爬虫严格来讲并不算一个大方向，更偏向于js逆向，python的话推荐走后端方向至于系统学习的话，推荐去blibili找一些路线，然后根据路线去找bilibili上播放量比较高的视频进行系统学习
python爬虫学习中遇到的问题 python 爬虫
2023-02-14 11:17

回答 4 已采纳该回答引用ChatGPT根据错误信息，这个问题可能是由于连接超时或网络连接不可用导致的。因此，建议您检查以下几个方面：确保您的网络连接正常并且能够访问请求的地址。确保请求的地址正确且存在，尝试在浏览
Java字符串的处理
2021-12-23 23:33

小熊coder的博客文章目录本章学习要点Java定义字符串（2种方式）直接定义字符串例 1使用 String 类定义1. String()2. String(String original)3. String(char[ ]value)4. String(char[] value,int offset,int count)小白如何使用...
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
java爬虫网银登录问题 java 爬虫
2016-01-19 12:04

回答 3 已采纳用JWebBrowser加载控件，这是最通用的办法。
java爬虫页面class都一样怎么办 java 爬虫
2018-09-29 03:13

回答 1 已采纳最好能上个样例.自己寻找规律自定义吧.一般现在的网站为了防止非法抓取数据都是做一些防护的.
Java简单爬虫 jsoup工具包
2022-02-19 12:39

ax阿楠的博客首先导入一个爬虫的工具包: jsoup-1.13.1.jar //测试爬虫的网址(爬取王者荣耀英雄的网址) static String url="https://pvp.qq.com/web201605/herolist.shtml"; //文件存放的地址 static String path="D://爬虫...
关于#爬虫#的问题：报错msg: "Text '中国专利 2019-06-25 2022-11-25' could not be parsed at index 0(语言-java) java 后端爬虫
2023-02-17 23:57

回答 1 已采纳 getElementsByClass 返回的不是一个数组么？为什么不遍历取值放到数组里？
关于 java 利用jsoup爬取图片的问题？ java 爬虫
2023-02-13 14:54

回答 3 已采纳每个网站的数据请求方式可能不一样，甚至有些网站不让下载，能够检测到不是人工下载。你可以手动打开那个不能下载的url，复制到浏览器上打开看能否正常显示，其次url是否发生了变化。望采纳！！
java爬虫获取小说相关内容 java 爬虫
2017-06-30 01:53

回答 2 已采纳请参考我发的一个帖子[完整的小说站点爬虫-spring-mybatis-jsoup-http-client ](http://www.52pojie.cn/thread-542306-1-1.html
网络爬虫设计到的Java基础知识
2022-10-04 09:19

周大仙1的博客 Java网络爬虫的基础知识
java 爬虫爬取网页,,,, java 爬虫
2017-09-26 09:29

回答 4 已采纳除了非正常方式登录，无解
Python字符串方法：字符串拼接、截取、转数字
2021-10-25 18:35

Java进阶营菌的博客这节课程我们主要讲有关Python字符串的用法，包括字符串的拼接、字符串怎么转数字、字符串的格式化、字符串函数等内容。 1.Python字符串的拼接拼接方式很简单—我们可以用“+”号作为字符串的拼接符，将两个字符串...
JAVA项目面试常谈问题以及个人开场介绍模板
2020-08-10 22:36

Canda能猫的博客 JAVA 人力面试常谈问题汇总（98个） 1. 请你自我介绍一下回答提示：一般人回答这个问题过于平常，只说姓名、年龄、爱好、工作经验，这些在简历上都有，其实，企业最希望知道的是求职者能否胜任工作，包括：最强的...
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

java爬虫中的字符串截取问题

3条回答 默认 最新

悬赏问题

3条回答默认最新