1.<h1 class="c_333 f20 strongbox">解放碑 望江公寓 复旦对面 精装两室一厅 干净整洁 价格美丽</h1>
要把中间的: 解放碑 望江公寓 复旦对面 精装两室一厅 干净整洁 价格美丽 给取出来
2.class="strongbox">2室1厅1卫 85.00
要把中间的: 2室1厅1卫 取出来 这个应该怎么取? 不要 ['2室1厅1卫'] 这种格式的
注:每次取的文本 前面和后面特征都不一样
1.<h1 class="c_333 f20 strongbox">解放碑 望江公寓 复旦对面 精装两室一厅 干净整洁 价格美丽</h1>
要把中间的: 解放碑 望江公寓 复旦对面 精装两室一厅 干净整洁 价格美丽 给取出来
2.class="strongbox">2室1厅1卫 85.00
要把中间的: 2室1厅1卫 取出来 这个应该怎么取? 不要 ['2室1厅1卫'] 这种格式的
注:每次取的文本 前面和后面特征都不一样
最简单的方法直接采用正则匹配
#!/usr/bin/env python
#-*- coding:utf-8 -*-
import re
a1 = '<h1 class="c_333 f20 strongbox">解放碑 望江公寓 复旦对面 精装两室一厅 干净整洁 价格美丽</h1>'
a2 = 'class="strongbox">2室1厅1卫 85.00 '
res1 = re.findall(r'strongbox">(.*?)<',a1)[0]
res2 = re.findall(r'strongbox">(.*?) ',a2)[0]
print("res1是:",res1)
print("res2是:",res2)