如何跨站抓取别的站点的页面的补充_php基础

在实际的应用中,经常会遇到一些特殊的情况,比如需要新闻,天气预报,等等,但是作为个人站点或者实力小的站点 我们不可能有那么多的人力 物力 财力去做这些事情,怎么办呢?  
好在互联网是 资源共享的,我们可以利用程序 自动的把别的站点的页面抓取回来经过处理后被我们所利用。
  用什么呢,那个战友给的是不行的,其实在Php有这个功能,那就是用curl库。请看下面的代码!  
<?php

$ch = curl_init ("http://dailynews.sina.com.cn");
$fp = fopen ("php_homepage.txt", "w");

curl_setopt ($ch, CURLOPT_FILE, $fp);
curl_setopt ($ch, CURLOPT_HEADER, 0);

curl_exec ($ch);
curl_close ($ch);
fclose ($fp);
?>

  但有时会出现一些错误,但实际上已经下载完了!我问了老外,他们没有给我一个答复,我想实在不行,就在函数前面加个◎;这样我们只要对$txt进行适当的分析后,我们就可以偷偷的抓取sina的新闻!不过,还是不用的为好!以免发生法律纠纷,这里只是想告诉你Php的功能非常的强大!你可以做许多事情!  

【本文版权归作者与奥索网共同拥有,如需转载,请注明作者及出处】    

时间: 2024-07-30 02:40:28

如何跨站抓取别的站点的页面的补充_php基础的相关文章

如何跨站抓取别的站点的页面的补充

在实际的应用中,经常会遇到一些特殊的情况,比如需要新闻,天气预报,等等,但是作为个人站点或者实力小的站点 我们不可能有那么多的人力 物力 财力去做这些事情,怎么办呢?  好在互联网是 资源共享的,我们可以利用程序 自动的把别的站点的页面抓取回来经过处理后被我们所利用.   用什么呢,那个战友给的是不行的,其实在Php有这个功能,那就是用curl库.请看下面的代码!  <?php $ch = curl_init ("http://dailynews.sina.com.cn"); $

php如何跨站抓取别的站点的页面的补充

在实际的应用中,经常会遇到一些特殊的情况,比如需要新闻,天气预报,等等,但是作为个人站点或者实力小的站点 我们不可能有那么多的人力 物力 财力去做这些事情,怎么办呢?  好在互联网是 资源共享的,我们可以利用程序 自动的把别的站点的页面抓取回来经过处理后被我们所利用.  用什么呢,那个战友给的是不行的,其实在Php有这个功能,那就是用curl库.请看下面的代码!  <?php $ch = curl_init ("http://dailynews.sina.com.cn");$fp

asp+ 如何跨站抓取页面

如何用 PHp 和 Asp 跨站抓取别的站点的页面,今天我们来测试一下 asp+是怎么实现 跨站抓取 别的站点的页面 Code Listing <%@ Assembly Name="System.Net" %><%@ Import Namespace="System.Net" %><%@ Import Namespace="System.IO" %><script language="VB&qu

在Asp中不借助第三方组件抓取别的站点的页面

微软在Asp中给我们提供了一种使用ActiveX的来做页面的方法,我们就用一个简单的抓取页面的例子来实际讲解一下这种方法,在本站的专栏的php版面中,我曾经讲过如何使用php来抓取别的站点的页面.<%url = "http://www.asp888.net/study/testSSi.txt"set inet = createobject("InetCtls.Inet")inet.RequestTimeOut = 20inet.Url = urlstrRet

jquery+thinkphp实现跨域抓取数据的方法_php实例

本文实例讲述了jquery+thinkphp实现跨域抓取数据的方法.分享给大家供大家参考,具体如下: 今天做一个远程抓取数据的功能,记得jquery可以用Ajax远程抓取,但不能跨域.再网上找了很多.但我觉得还是来个综合的,所以我现在觉得有点把简单问题复杂化了,但至少目前解决了: 跨域抓取数据到本地数据库再异步更新的效果 我实现的方式:jquery的$.post发送数据到服务器后台,在由后台的PHP代码执行远程抓取,存到数据库ajax返回数据到前台,前台用JS接受数据并显示. //远程抓取获取数

python-scrapy如何循环抓取所有类似的页面

问题描述 scrapy如何循环抓取所有类似的页面 我是刚刚开始学习爬虫,模仿网上一个例子自己写了一个,想循环抓取所有页面新闻标题和链接,但是只能抓取到起始页面的. 这是抓取的起始页面 从下面可以看到列表有很多,我想抓取所有的新闻条目,每一页的地址仅一个数字不同 spider文件夹下的关键代码如下所示 # -*- coding:utf-8 -*- from scrapy.spiders import Spider from scrapy.selector import Selector from

http访问-人为编码实现网页页面内容的抓取与浏览器访问页面的区分点有哪些?

问题描述 人为编码实现网页页面内容的抓取与浏览器访问页面的区分点有哪些? 请问大神们用浏览器访问页面与编码实现请求访问来获取内容有什么区分点吗?都是HTTP协议的情况下,希望大家能给分享下经验,谢谢! 解决方案 是说爬虫吗?开发爬虫可以去神箭手云爬虫看看.很不错的爬虫云开发平台

百度谷歌对新站抓取和收录方面的几个差异

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 3月1日开始着手制作一个服装类型的新网站,在本地调试完毕后上传到空间.这个网站无论从域名.空间还有网站内容都是全新的,域名和空间是当天注册和购买的,我具体观察了百度和谷歌的蜘蛛抓取情况以及新站收录的整个过程.对于一个全新的网站,百度和谷歌在爬取网站内容和收录过程都有许多差异,主要表现在以下几个方面: 一.蜘蛛抓取差异 我一直喜欢观察蜘蛛行踪,

PHP的cURL库功能简介 抓取网页、POST数据及其他_php技巧

无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,反应釜cURL 是一个功能强大的PHP库.本文主要讲述如果使用这个PHP库. 启用 cURL 设置 首先,我们得先要确定我们的PHP是否开启了这个库,你可以通过使用php_info()函数来得到这一信息. 复制代码 代码如下: <?php phpinfo(); ?> 如果你可以在网页上看到下面的输出,那么表示cURL库已被开启. 如果你看到的话,那么你需要设置你的PHP并开启这个库.如果你是在