snakesama 2021-07-24 11:37 采纳率: 100%
浏览 101
已结题

成功爬取网页url得到的结果变成单独字符串怎么办

我成功爬取网站url后,得到的结果不是一个字符串,url的每个字符都单独变成一个字符串了,我用for i in herf: 得到的结果如下
/
t
j
g
b
/
2
0
g
x
/
1
9
7
8
0
.
h
t
m
l
以下是我写的程序
import re
import requests
from bs4 import BeautifulSoup

for page in range(0,10):

url = f"http://www.tjcn.org/tjgb/20gx/index_{page}.html"

if page == 0:
    url = "http://www.tjcn.org/tjgb/20gx/index.html"
print(url)

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"}

response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
html = response.text

soup = BeautifulSoup(html, "lxml")

content_all = soup.find_all("a")

for item in content_all:                    # soup匹配到的有多个数据,用for循环取出
    result = {
        'title': item.get_text(),     # 标签在<a>标签中,提取标签的正文用get_text()方法
        'link': item.get('href'),  # 链接在<a>标签的href中,提取标签中的href属性用get()方法,括号指定属性数据
    }
    result.get("title")
    

    
    if "百色" in str(result):   #记得在要检索的对象前加str,把它转成字符串穿,要不然无法搜索
    
        href = []               #如果不建立元组,则无法直接调用键值(尝试好多次了)
        href = result.get("link") #调用键“link”的值
        

        for i in href:
            print(i)
  • 写回答

2条回答 默认 最新

  • 鸡蛋酱$ 2021-07-24 11:58
    关注

    把最后的循环去掉直接print(href),因为href就是字符串,你的herf=result.get('link')结果是字符串,覆盖了上一句的href=[]
    img

    img
    有用的话点一下采纳

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 8月1日
  • 已采纳回答 7月24日
  • 创建了问题 7月24日

悬赏问题

  • ¥15 装 pytorch 的时候出了好多问题,遇到这种情况怎么处理?
  • ¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
  • ¥15 手机接入宽带网线,如何释放宽带全部速度
  • ¥30 关于#r语言#的问题:如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
  • ¥15 ETLCloud 处理json多层级问题
  • ¥15 matlab中使用gurobi时报错
  • ¥15 这个主板怎么能扩出一两个sata口
  • ¥15 不是,这到底错哪儿了😭
  • ¥15 2020长安杯与连接网探
  • ¥15 关于#matlab#的问题:在模糊控制器中选出线路信息,在simulink中根据线路信息生成速度时间目标曲线(初速度为20m/s,15秒后减为0的速度时间图像)我想问线路信息是什么