项目需要要写一个爬虫来抓取京东等网站的手机秒杀商品信息
如图
我用curl获取了这个网页的整个内容,现在需要用正则表达式来对里面的网址、图片地址、价格、商品名进行获取,理想状态是把每一件商品的信息获取出来并组成一个新数组,前面对面title、price都可以获取了,但是两个关键的链接就是不能获取,求解!
项目需要要写一个爬虫来抓取京东等网站的手机秒杀商品信息
如图
我用curl获取了这个网页的整个内容,现在需要用正则表达式来对里面的网址、图片地址、价格、商品名进行获取,理想状态是把每一件商品的信息获取出来并组成一个新数组,前面对面title、price都可以获取了,但是两个关键的链接就是不能获取,求解!
这个很简单,思路就是不变的地方照抄,其中特殊字符加上斜杠转义,可变的部分用通配符。
比如第一个
(?<=href\=\")http\:\/\/item\.m\.jd\.com\/product\/\d+.html(?<\")