snakesama 2021-07-24 11:37 采纳率: 100%
浏览 101
已结题

成功爬取网页url得到的结果变成单独字符串怎么办

我成功爬取网站url后,得到的结果不是一个字符串,url的每个字符都单独变成一个字符串了,我用for i in herf: 得到的结果如下
/
t
j
g
b
/
2
0
g
x
/
1
9
7
8
0
.
h
t
m
l
以下是我写的程序
import re
import requests
from bs4 import BeautifulSoup

for page in range(0,10):

url = f"http://www.tjcn.org/tjgb/20gx/index_{page}.html"

if page == 0:
    url = "http://www.tjcn.org/tjgb/20gx/index.html"
print(url)

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"}

response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
html = response.text

soup = BeautifulSoup(html, "lxml")

content_all = soup.find_all("a")

for item in content_all:                    # soup匹配到的有多个数据,用for循环取出
    result = {
        'title': item.get_text(),     # 标签在<a>标签中,提取标签的正文用get_text()方法
        'link': item.get('href'),  # 链接在<a>标签的href中,提取标签中的href属性用get()方法,括号指定属性数据
    }
    result.get("title")
    

    
    if "百色" in str(result):   #记得在要检索的对象前加str,把它转成字符串穿,要不然无法搜索
    
        href = []               #如果不建立元组,则无法直接调用键值(尝试好多次了)
        href = result.get("link") #调用键“link”的值
        

        for i in href:
            print(i)
  • 写回答

2条回答 默认 最新

  • 鸡蛋酱$ 2021-07-24 11:58
    关注

    把最后的循环去掉直接print(href),因为href就是字符串,你的herf=result.get('link')结果是字符串,覆盖了上一句的href=[]
    img

    img
    有用的话点一下采纳

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 8月1日
  • 已采纳回答 7月24日
  • 创建了问题 7月24日

悬赏问题

  • ¥15 51寻迹小车定点寻迹
  • ¥15 谁能帮我看看这拒稿理由啥意思啊阿啊
  • ¥15 关于vue2中methods使用call修改this指向的问题
  • ¥15 idea自动补全键位冲突
  • ¥15 请教一下写代码,代码好难
  • ¥15 iis10中如何阻止别人网站重定向到我的网站
  • ¥15 滑块验证码移动速度不一致问题
  • ¥15 Utunbu中vscode下cern root工作台中写的程序root的头文件无法包含
  • ¥15 麒麟V10桌面版SP1如何配置bonding
  • ¥15 Marscode IDE 如何预览新建的 HTML 文件