snakesama 2021-07-24 11:37 采纳率: 100%
浏览 100
已结题

成功爬取网页url得到的结果变成单独字符串怎么办

我成功爬取网站url后,得到的结果不是一个字符串,url的每个字符都单独变成一个字符串了,我用for i in herf: 得到的结果如下
/
t
j
g
b
/
2
0
g
x
/
1
9
7
8
0
.
h
t
m
l
以下是我写的程序
import re
import requests
from bs4 import BeautifulSoup

for page in range(0,10):

url = f"http://www.tjcn.org/tjgb/20gx/index_{page}.html"

if page == 0:
    url = "http://www.tjcn.org/tjgb/20gx/index.html"
print(url)

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"}

response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
html = response.text

soup = BeautifulSoup(html, "lxml")

content_all = soup.find_all("a")

for item in content_all:                    # soup匹配到的有多个数据,用for循环取出
    result = {
        'title': item.get_text(),     # 标签在<a>标签中,提取标签的正文用get_text()方法
        'link': item.get('href'),  # 链接在<a>标签的href中,提取标签中的href属性用get()方法,括号指定属性数据
    }
    result.get("title")
    

    
    if "百色" in str(result):   #记得在要检索的对象前加str,把它转成字符串穿,要不然无法搜索
    
        href = []               #如果不建立元组,则无法直接调用键值(尝试好多次了)
        href = result.get("link") #调用键“link”的值
        

        for i in href:
            print(i)
  • 写回答

2条回答 默认 最新

  • 鸡蛋酱$ 2021-07-24 11:58
    关注

    把最后的循环去掉直接print(href),因为href就是字符串,你的herf=result.get('link')结果是字符串,覆盖了上一句的href=[]
    img

    img
    有用的话点一下采纳

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 8月1日
  • 已采纳回答 7月24日
  • 创建了问题 7月24日

悬赏问题

  • ¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘
  • ¥15 matlab有关常微分方程的问题求解决
  • ¥15 perl MISA分析p3_in脚本出错
  • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件
  • ¥15 ubuntu虚拟机打包apk错误
  • ¥199 rust编程架构设计的方案 有偿
  • ¥15 回答4f系统的像差计算
  • ¥15 java如何提取出pdf里的文字?
  • ¥100 求三轴之间相互配合画圆以及直线的算法