qq_26367847 2015-03-06 11:40 采纳率: 0%
浏览 2823

求助!!如何用python 爬虫收集佳缘的用户信息

 小弟初学python,写了一个程序想抓取佳缘网站的用户信息,但是正则匹配之后是none,想请教各位大神原因在哪

import urllib2,urllib
from urllib import urlencode
import re,sys,os,time,Queue,thread,cookielib

testurl = 'http://search.jiayuan.com/v2/index.php'
readurl = 'http://search.jiayuan.com/v2/index.php?key=&sex=f&stc=1:51,2:18.21,3:158.170,23:1,4:30.0&sn=default&sv=1&pt=236&ft=off&f=select&mt=d'

uid = '133574961'
passwd = 'lixiaoming'
values = {'password':passwd,'name':uid}
postdata = urllib.urlencode(values)

cookie = cookielib.CookieJar()
urlopener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie),urllib2.HTTPHandler)

headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.111 Safari/537.36',
         'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
         }

req = urllib2.Request(
    url = 'http://passport.jiayuan.com/dologin.php',
    data = postdata,
    headers = headers
)

urlopener.open(req)
page = urlopener.open(readurl).read()
unicodePage = page.decode("utf-8")

#print unicodePage
rst = re.compile('<div class="user_name">(.*?)</div>',re.S)
items = rst.findall(unicodePage)
print items
for item in items:
   print item[0],item[1]
  • 写回答

2条回答 默认 最新

  • oyljerry 2015-03-06 12:42
    关注

    unicode页面内容,你正则匹配的时候是unicde编码吗

    评论

报告相同问题?

悬赏问题

  • ¥15 虚拟机打包apk出现错误
  • ¥30 最小化遗憾贪心算法上界
  • ¥15 用visual studi code完成html页面
  • ¥15 聚类分析或者python进行数据分析
  • ¥15 逻辑谓词和消解原理的运用
  • ¥15 三菱伺服电机按启动按钮有使能但不动作
  • ¥15 js,页面2返回页面1时定位进入的设备
  • ¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
  • ¥15 (希望可以解决问题)ma和mb文件无法正常打开,打开后是空白,但是有正常内存占用,但可以在打开Maya应用程序后打开场景ma和mb格式。
  • ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝