weixin_45864635 2021-07-24 09:08 采纳率: 100%
浏览 42
已结题

遇到关于''.join吃字符串的问题

import requests
from lxml import etree
from urllib.parse import urljoin
import queue
# import threading
# import time


new_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36"
               }
url = 'http://www.biqugev.com/book/40234/'

r = requests.get(url, headers=new_headers)
r.encoding = r.apparent_encoding

html = etree.HTML(r.text)
b = html.xpath("//div[@class='listmain']/dl/dd/a/@href")
b = [urljoin(url,i) for i in b]


q = queue.Queue()
for num in range(len(b)):
    qa = dict()
    qa['n'] = num
    qa['url'] = b[num]
    q.put(qa)


def parse_text(n, url):
    # print(n)
    r = requests.get(url,headers=new_headers)
    # print(r.status_code,r.encoding)
    html = etree.HTML(r.text)
    bb = html.xpath("//div[@class='content']/h1/text()")[0]
    aa = html.xpath("//div[@class='content']/div[@id='content']/text()")
    print(aa)
    # print(bb)
    aa = ''.join(aa)
    print('合起来:', aa)
    # time.sleep(1)

d = q.get()

parse_text(d['n'],d['url'])

img

  • 写回答

2条回答 默认 最新

  • 咕泡-三木 2021-07-24 14:51
    关注

    加一行代码
    print(len(aa))
    可以看到,aa的长度很长,由此可以判断没有发送你所说的”吃字符串“的问题

    在加一行代码

    repr(aa)
    

    可以看到字符中有大量的特殊符号,导致部分内容显式不出来

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 8月1日
  • 已采纳回答 7月24日
  • 创建了问题 7月24日

悬赏问题

  • ¥50 易语言把MYSQL数据库中的数据添加至组合框
  • ¥20 求数据集和代码#有偿答复
  • ¥15 关于下拉菜单选项关联的问题
  • ¥20 java-OJ-健康体检
  • ¥15 rs485的上拉下拉,不会对a-b<-200mv有影响吗,就是接受时,对判断逻辑0有影响吗
  • ¥15 使用phpstudy在云服务器上搭建个人网站
  • ¥15 应该如何判断含间隙的曲柄摇杆机构,轴与轴承是否发生了碰撞?
  • ¥15 vue3+express部署到nginx
  • ¥20 搭建pt1000三线制高精度测温电路
  • ¥15 使用Jdk8自带的算法,和Jdk11自带的加密结果会一样吗,不一样的话有什么解决方案,Jdk不能升级的情况