如何制作一个小的PHP链接“蜘蛛”并提取数据？

I want to spider a simple white website that has lot's of html links that represent a phone number' name and address. From each page i want to extract the exact 3 fields that are between the 3 TD's such as:

    <div id="idTabResults2" align="center">
        <TABLE border='1'>
    <tr><th>Name</th><th>Adress</th><th>Phone number</th></tr>
    <TR>
          <TD>Joe</TD><TD>New York</TD><TD>555999</TD></TR>
    </TABLE>

    </div>

So in the example above i would get "Joe", "New York" & 555999. I'm using php and mysql later to insert every result to my DB. Can someone point me to the right direction on how to go about this?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douyu5679 2011-12-25 23:56
关注
Maybe a faster (and simpler) way than PeeHaa's solution:

Retrieve the page using file_get_contents()

Parse it with Simple DOM Parser

For instance:

<?php require("simple_html_dom.php"); $data = file_get_contents(YOUR_PAGE_HERE); $html = str_get_html($data); $tds = $html->find('td'); foreach ($tds as $td) { // Do something } ?>
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

如何制作一个小的PHP链接“蜘蛛”并提取数据？ php
2011-12-25 23:50

回答 2 已采纳 Maybe a faster (and simpler) way than PeeHaa's solution: Retrieve the page using file_get_conten
php判断真假蜘蛛该怎么修改？ php
2023-02-19 18:30

回答 4 已采纳看起来您正在尝试修改 PHP 代码以从基于用户代理的蜘蛛检测切换到基于 IP 和主机名的检测。这是修改代码以实现此目的的一种方法： function getip() { if ($_SERVE
如何使用带有Scrapy的admin-ajax.php从网站上抓取数据 ajax php python
2018-07-11 12:56

回答 1 已采纳 I finally found how to do so, I am sure this is not the best way but at least I did what I wanted
百度自动php推送蜘蛛怎么不来访问,使用代码向百度蜘蛛主动推送链接
2021-04-10 12:10

weixin_39630880的博客站长主动向百度搜索推送数据，可缩短爬虫发现网站链接时间，可加快爬虫抓取速度，但无法解决网站内容是否收录问题。2. 百度搜索资源平台为站长提供链接提交通道，但不保证一定能够收录提交的链接。3.通过程序代码...
从PHP中的View计数器中排除机器人和蜘蛛 php
2013-07-07 19:10

回答 4 已采纳 You need to serve the ADs with JavaScript. That's the only way to avoid most of the crawlers. Only
php如何包含访问css文件 css html php
2016-04-06 00:43

回答 2 已采纳 You have correctly identified the problem, that the HTML cannot find the CSS. That is directly bec
如何跳出红蜘蛛的监控？
2015-12-10 03:31

回答 9 已采纳这个简单,我也有过经历,有两种确定的方法一种我自己猜的方法,1:你下载或者有360的话找到360的流量防火墙找到红蜘蛛的进程禁止访问网络或者点击360悬浮加速球在弹出的方框中点击下方的**网速**
python数据爬取---爬取文本数据并进行特征提取_python 域名提取
2020-12-22 05:53

weixin_39652810的博客我们可以用requests和beautifulsoup完成一个实用的爬虫，但如果想大规模爬取的话，我们需要学习Scrapy这个优秀Python框架，学习它的哲学思想，可以帮助我们更好写自己的爬虫。事前准备由于Windows存在许多莫名其妙的...
可以使用一段代码来阻止旧浏览器访问网站阻止搜索引擎蜘蛛吗？ php
2011-09-06 04:15

回答 1 已采纳 No, it shouldn't affect any of major crawlers. get_browser() relies on the User-Agent string sent
如何执行PHP蜘蛛/刮刀但没有超时 php
2009-02-25 12:52

回答 4 已采纳 "nothing is displayed in the browser until the PHP execute is completed" You can use flush()
如果一个网址下不存在robots.txt文件，是不是代表了没有做爬虫限制？求解 python
2022-04-15 15:16

回答 1 已采纳若某网站无robots.txt文件，即默认对于爬虫无限制而实际上，robots协议只是一个说明文件，指出需遵守的爬虫协议，并没有实际的限制效果如有用请采纳
wordpress 百度主动推送 PHP,wordpress使用代码向百度蜘蛛主动推送链接
2021-04-26 13:36

ZUHXS的博客站长主动向百度搜索推送数据，可缩短爬虫发现网站链接时间，可加快爬虫抓取速度，但无法解决网站内容是否收录问题。2. 百度搜索资源平台为站长提供链接提交通道，但不保证一定能够收录提交的链接。3.通过程序代码...
pom文件变成蜘蛛，但是ant却没有pom idea intellij-idea java
2022-10-31 16:21

回答 1 已采纳删除pom文件重新引入一下pom文件
小旋风蜘蛛池pro2.5(主程序)官方原版
2023-04-23 16:42

gggvv5555的博客谷歌蜘蛛池，小旋风蜘蛛池
php 计数txt数据库,php提取txt数据库
2021-04-11 13:55

淨梧的博客带你读《Python数据分析与数据化运营(第2版)》之二：数据化运营的数据来源点击查看第一章点击查看第三章第2章数据化运营的数据来源“巧妇难为无米之炊”，对于数据工作者来说数据便是所有工作的基础。企业的数据化...
php 采集 ajax,火车头如何采集ajax数据和百度站内搜索数据
2021-04-08 09:32

小荧的博客项目中遇到需要采集某个网站的数据，经过查看发现它用的是百度的站内搜索技术。站内搜索，采用的是ajax的技术，通过请求获取百度返回的json字符串，写入到页面中的。随后尝试了许多的方法，去采集他的数据，都是失败...
东方标准网络营销内部SEO记录系统 v2.0.zip
2019-07-07 07:55

1.关键字批量生成导入(带百度相关搜索词提取) 关键字排名批量检测(一个主监控站3个竞争网站) 2.文章收录批量检测功能(主受监控站数据) 3.网站外部链接存在状态批量检测功能 4.网络负面监控功能 5.外部推广账号...
没有解决我的问题, 去提问

悬赏问题

¥20 易康econgnition精度验证
¥15 msix packaging tool打包问题
¥28 微信小程序开发页面布局没问题，真机调试的时候页面布局就乱了
¥15 python的qt5界面
¥15 无线电能传输系统MATLAB仿真问题
¥50 如何用脚本实现输入法的热键设置
¥20 我想使用一些网络协议或者部分协议也行，主要想实现类似于traceroute的一定步长内的路由拓扑功能
¥30 深度学习，前后端连接
¥15 孟德尔随机化结果不一致
¥15 apm2.8飞控罗盘bad health，加速度计校准失败

如何制作一个小的PHP链接“蜘蛛”并提取数据？

2条回答 默认 最新

悬赏问题

2条回答默认最新