求助！！如何用python 爬虫收集佳缘的用户信息

 小弟初学python,写了一个程序想抓取佳缘网站的用户信息，但是正则匹配之后是none，想请教各位大神原因在哪

import urllib2,urllib
from urllib import urlencode
import re,sys,os,time,Queue,thread,cookielib

testurl = 'http://search.jiayuan.com/v2/index.php'
readurl = 'http://search.jiayuan.com/v2/index.php?key=&sex=f&stc=1:51,2:18.21,3:158.170,23:1,4:30.0&sn=default&sv=1&pt=236&ft=off&f=select&mt=d'

uid = '133574961'
passwd = 'lixiaoming'
values = {'password':passwd,'name':uid}
postdata = urllib.urlencode(values)

cookie = cookielib.CookieJar()
urlopener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie),urllib2.HTTPHandler)

headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.111 Safari/537.36',
         'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
         }

req = urllib2.Request(
    url = 'http://passport.jiayuan.com/dologin.php',
    data = postdata,
    headers = headers
)

urlopener.open(req)
page = urlopener.open(readurl).read()
unicodePage = page.decode("utf-8")

#print unicodePage
rst = re.compile('<div class="user_name">(.*?)</div>',re.S)
items = rst.findall(unicodePage)
print items
for item in items:
   print item[0],item[1]

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2015-03-06 12:42
关注
unicode页面内容，你正则匹配的时候是unicde编码吗

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫进程池_python爬虫之进程池爬虫（世纪佳缘案例）
2021-01-13 21:29

刘柏霄的博客 from multiprocessing import Process,Queueimport requestsimport refrom lxml.html import etreeimport jsonimport timefrom concurrent.futures import ProcessPoolExecutordef down_load_page_data(req_url):pat...
Python爬虫实战+数据分析+数据可视化（世纪佳缘）
2021-03-26 15:29

专业的小马哥的博客再加上广大男同胞们都想着努力为自己的事业而奋斗很少能够接触到女人，使得乎广大男同胞大都选择相亲网站来找到属于自己的另一半，，作为90的我深知广大男同胞的心情，于是乎博主通过对世纪佳缘相亲网站进行详细的...
python爬虫被发现_用Python爬虫爬了世纪佳缘后发现了一个秘密
2021-03-06 17:07

对不起对不起的博客用 Python 爬取世纪佳缘的数据是否能证明它的不靠谱？数据抓取在 PC 端打开世纪佳缘网站，搜索 20 到 30 岁、不限地区的女朋友翻了几页找到一个 search_v2.php 的链接，它的返回值是一个不规则的 json 串，其中...
python爬虫进程池_python爬虫之进程池爬取（世纪佳缘案例）
2021-02-04 06:27

长安的雨的博客 detail_data, full_detail_url) detail_handler.add_done_callback(parse_detail_data) else: print('解析第' + str(page) + '数据', '非静态页面') # 使用json.loads()将json字符串转换为python数据类型 json_obj =...
python爬虫的未来发展_用Python爬虫爬了世纪佳缘后发现了一个秘密
2020-12-04 12:10

weixin_39626927的博客用 Python 爬取世纪佳缘的数据是否能证明它的不靠谱？数据抓取在 PC 端打开世纪佳缘网站，搜索 20 到 30 岁、不限地区的女朋友翻了几页找到一个 search_v2.php 的链接，它的返回值是一个不规则的 json 串，其中...
大数据告诉你，世纪佳缘都是谁在相亲（python爬虫&分析，附全部代码）
2020-05-24 17:48

数据小斑马的博客五、Python做图系列——箱型图/散点图/回归图/热力图等六、业务积累系列——流水预测/精细化运营/排序算法等七、Kmeans系列——原理/评价指标/RFM实战等八、决策树系列——算法原理/调参/pyt
卧槽！又一个Python神器！
2022-04-01 20:41

Evan-yzh的博客今天给大家推荐一个优质公众号「Python技术」，作者派森酱。这是我关注了很久的一个技术公众号，抱歉，现在才分享给大家。...这里不仅有百余篇 Python 系统性的基础教程，也有爬虫、数据分析、数...
python 爬虫登录世纪佳缘
2017-07-22 14:01

spiderandbat的博客 python 爬虫登录世纪佳缘
2023脱单指南 - 用Python数据解决单身问题
2023-01-29 18:14

最近很多关于晒择偶标准的帖子，活脱脱把知乎变成了另一个“世纪佳缘”，回答清一色的爆照和晒条件，这对于单身狗来说是妥妥的福利。母胎SOLO的程序员小Q就沉迷其中不能自拔，这是他流着哈喇子发出的第100次感慨...
用Python爬虫爬了世纪佳缘后发现了一个秘密
2020-11-02 11:39

翎子生。的博客用 Python 爬取世纪佳缘的数据是否能证明它的不靠谱？数据抓取在 PC 端打开世纪佳缘网站，搜索 20 到 30 岁、不限地区的女朋友翻了几页找到一个 search_v2.php 的链接，它的返回值是一个不规则的 json 串...
2019年脱单攻略|用Python爬取世纪佳缘美女照片，实现颜值评分
2019-12-08 14:35

数据札记倌的博客用Python爬取世纪佳缘美女照片，实现颜值评分帮你找到心仪的小姐姐 “关爱单身程序猿，人人有责”
用Python爬虫采集了世纪佳缘后发现了一个秘密
2020-11-03 13:45

Python_sn的博客用 Python 爬取世纪佳缘的数据是否能证明它的不靠谱？很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，却不知道如何去学习更加高深的...
python爬取新浪博客_python网络爬虫新浪博客篇
2020-12-09 23:32

weixin_39961636的博客上次写了一个爬世纪佳缘的爬虫之后，今天再接再厉又写了一个新浪博客的爬虫。写完之后，我想了一会儿，要不要在博客园里面写个帖子记录一下，因为我觉得这份代码的含金量确实太低，有点炒冷饭的嫌疑，就是把上次的...
新浪博客python_python网络爬虫新浪博客篇
2021-02-12 05:37

赤道留住寒冷的博客上次写了一个爬世纪佳缘的爬虫之后，今天再接再厉又写了一个新浪博客的爬虫。写完之后，我想了一会儿，要不要在博客园里面写个帖子记录一下，因为我觉得这份说起要爬新浪博客，总归是有一个原因吧。我的原因呢也是...
python 爬取 js渲染_python 爬取世纪佳缘,经过js渲染过的网页的爬取
2020-11-20 20:30

weixin_39664456的博客 /usr/bin/python#-*- coding:utf-8 -*-#爬取世纪佳缘#这个网站是真的烦，刚开始的时候用scrapy框架写,但是因为刚接触框架,碰到js渲染的页面之后就没办法了,所以就采用一般的爬虫了#js渲染过的数据，可能在网页源码...
Python爬虫实战：世纪佳缘爬取近6万条小姐姐数据！脱单的有望！
2020-10-26 13:45

爬遍天下无敌手的博客翻着安静到死寂的聊天列表，我忽然惊醒，不行，我们不能这样下去，光羡慕别人有什么用，我们要行动起来，去找自己的幸福！！！我也想“谈不分手的恋爱” ！！！内牛满面！！！注册登陆一气呵成~ 筛选...
又一个Python学习神器！
2022-01-21 11:01

Python数据之道的博客今天给大家推荐一个优质公众号「Python技术」，作者派森酱。这是我关注了很久的一个技术公众号，抱歉，现在才分享给大家。大家可以点击下方卡片关注：学习编程是一个比较枯燥的过程，所以派森...
Python网络爬虫实战：世纪佳缘爬取近6万条小姐姐数据后发现惊天秘密
2020-06-24 14:40

工程师大胖的博客翻着安静到死寂的聊天列表，我忽然惊醒，不行，我们不能这样下去，光羡慕别人有什么用，我们要行动起来，去找自己的幸福！！！我也想“谈不分手的恋爱” ！！！内牛满面！！！注册登陆一气呵成~ 筛选条件，嗯…...
python爬虫查询IP地址的归属地
2019-04-02 10:19

为祖国健康工作60年的博客我们在www.ip138.com网站中输入一个IP地址，就会弹出来相关的IP地址归属地信息 2、书写我们要访问的链接 >>> import requests >...3、用get 方法获取想要的信息、并查看信息 >>...
没有解决我的问题, 去提问

悬赏问题

¥15 虚拟机打包apk出现错误
¥30 最小化遗憾贪心算法上界
¥15 用visual studi code完成html页面
¥15 聚类分析或者python进行数据分析
¥15 逻辑谓词和消解原理的运用
¥15 三菱伺服电机按启动按钮有使能但不动作
¥15 js，页面2返回页面1时定位进入的设备
¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝

求助！！如何用python 爬虫收集佳缘的用户信息

2条回答 默认 最新

悬赏问题

2条回答默认最新