php curl模拟post请求提交数据

 最近在做校园图书馆图书信息的采集程序,既然是图书馆图书的采集,肯定有提交搜索的页面,无非是post提交,让我想到了curl模拟提交,首先通过firebug进行抓包查询下post提交后的格式如下:
 
txtWxlx=CN&hidWxlx=spanCNLx&txtPY=HZ&txtTm=%D2%F4%C0%D6&txtLx=%25&txtSearchType=1&nMaxCount=100&nSetPageSize=10&cSortFld=%D5%FD%CC%E2%C3%FB&B1=%BC%EC+%CB%F7;搜索的关键字name=txtTm,随后代码如下:
 
 
 
复制代码
<?php 
$keyword="音乐";$post="txtWxlx=CN&hidWxlx=spanCNLx&txtPY=HZ&txtTm={$keyword}&txtLx=%25&txtSearchType=1&nMaxCount=100&nSetPageSize=20&cSortFld=%D5%FD%CC%E2%C3%FB&B1=%BC%EC+%CB%F7";
$url = "http://210.30.68.130/wxjs/tmjs.asp";
//查询地址
$ch = curl_init(); 
curl_setopt ($ch, CURLOPT_REFERER, "http://210.30.68.130/wxjs/tmjs_form.asp/ "); //模拟来源  
curl_setopt($ch, CURLOPT_URL, $url);//URL  
curl_setopt($ch,CURLOPT_FOLLOWLOCATION,1);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_POST, 1);  //模拟POST  
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);//POST内容  
curl_exec($ch);  
$output = curl_close($ch); 
echo $output;
 ?>
复制代码
 
 
但返回的页面总是显示没有相关内容,如果把关键字改成英语或者数字就可以正常显示了,于是想到这应该是编码问题,然后在post上面可以看到txtTm=%D2%F4%C0%D6经过查询得知这是url编码,汉字会进行转化,如果是英语则不会发生任何改变,于是就把头信息也加了部分内容进去如下:
 
$header = array();
$header[] = 'User-Agent: Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/30.0';
$header[] = 'Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8';
$header[] = 'Connection: keep-alive';
$header[] = 'Content-Type:application/x-www-form-urlencoded';
curl_setopt ( $ch, CURLOPT_HTTPHEADER, $header ); 
其实主要是$header[] = 'Content-Type:application/x-www-form-urlencoded';再次加载页面后如果是汉字显示还是没有相关的内容,随后想到了一个很简单的问题所在,php程序是utf8的,然而图书馆的网站是gb2312,好吧,再加上一句,$keyword =  iconv('UTF-8', 'GB2312', $keyword);再次加载成功,这个应该才是问题关键所在,然后我把头信息删除后添加一句$keyword = urlencode($keyword);再次加载也就是下面的代码:
 
复制代码
<?php 
$keyword="世界";
$keyword =  iconv('UTF-8', 'GB2312', $keyword);
$keyword = urlencode($keyword);
$post="txtWxlx=CN&hidWxlx=spanCNLx&txtPY=HZ&txtTm={$keyword}&txtLx=%25&txtSearchType=1&nMaxCount=100&nSetPageSize=20&cSortFld=%D5%FD%CC%E2%C3%FB&B1=%BC%EC+%CB%F7";
$url = "http://210.30.68.130/wxjs/tmjs.asp";
//查询地址
$ch = curl_init();
curl_setopt ($ch, CURLOPT_REFERER, "http://210.30.68.130/wxjs/tmjs_form.asp/ "); //模拟来源  
curl_setopt($ch, CURLOPT_URL, $url);//URL  
curl_setopt($ch,CURLOPT_FOLLOWLOCATION,1);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_POST, 1);  //模拟POST  
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);//POST内容  
curl_exec($ch);  
$output = curl_close($ch); 
echo $output;
 ?>
复制代码
不出所料,正常显示了,随后就是页面内容的采集排版问题了。无非是正则了。(由于是校园网只能我们内网访问)
 
 

时间: 2024-12-21 18:49:27

php curl模拟post请求提交数据的相关文章

php curl模拟post请求提交数据例子总结

注意:curl函数在php中默认是不被支持的,如果需要使用curl函数我们需在改一改你的php.ini文件的设置,找到php_curl.dll去掉前面的";"就行了 例1  代码如下 复制代码 <?php $uri = "http://tanteng.duapp.com/test.php"; // 参数数组 $data = array (         'name' => 'tanteng' // 'password' => 'password'

php curl模拟post请求和提交多维数组的示例代码_php实例

下面一段代码给大家介绍php curl模拟post请求的示例代码,具体代码如下: <?php $uri = "http://www.cnblogs.com/test.php";//这里换成自己的服务器的地址 // 参数数组 $data = array ( 'name' => 'tanteng' // 'password' => 'password' ); $ch = curl_init (); // print_r($ch); curl_setopt ( $ch, C

ajax-php采集高手进:利用curl模拟登录抓取数据遇到json调用问题不成功,求助!

问题描述 php采集高手进:利用curl模拟登录抓取数据遇到json调用问题不成功,求助! 我在抓取一个页面的信息(假设a.php),这个页面只是一些基本的html框架,其他关键信息是通过ajax请求(b.php)回来的,返回的是json,然后在通过页面js将json解析,绘制到页面上.问题的关键是ajax请求的信息里有个手机号码需要登录后才显示完整,原网站利用ajax请求b.php获得json数据,如果直接访问b.php也是可以直接得到:{"name":"zhangsan&

文件上传-linux curl模拟表单提交不成功,新手求指教

问题描述 linux curl模拟表单提交不成功,新手求指教 以下是upload.jsp页面 <html><head><meta http-equiv=""Content-Type"" content=""text/html; charset=UTF-8""><title>上传文件</title></head><body> <form m

PHP利用Curl模拟登录并获取数据例子

PHP的curl()在抓取网页的效率方面是比较高的,而且支持多线程,而file_get_contents()效率就要稍低些,当然,使用curl时需要开启下curl扩展. 代码实战 先来看登录部分的代码:  代码如下 复制代码 //模拟登录 function login_post($url, $cookie, $post) {     $curl = curl_init();//初始化curl模块     curl_setopt($curl, CURLOPT_URL, $url);//登录提交的地

PHP中使用CURL模拟登录并获取数据实例_php实例

cURL 是一个功能强大的PHP库,使用PHP的cURL库可以简单和有效地抓取网页并采集内容,设置cookie完成模拟登录网页,curl提供了丰富的函数,开发者可以从PHP手册中获取更多关于cURL信息.本文以模拟登录开源中国(oschina)为例,和大家分享cURL的使用. PHP的curl()在抓取网页的效率方面是比较高的,而且支持多线程,而file_get_contents()效率就要稍低些,当然,使用curl时需要开启下curl扩展. 代码实战 先来看登录部分的代码: 复制代码 代码如下

Asp.Net模拟表单提交数据和上传文件的实现代码_实用技巧

如果你需要跨域上传内容到另外一个域名并且需要获取返回值,使用Asp.Net的作为代理是最好的办法,要是客户端直接提交到iframe中,由于跨域是无法用javascript获取到iframe中返回的内容的.此时需要在自己的网站做一个动态页作为代理,将表单提交到动态页,动态页负责将表单的内容使用WebClient或HttpWebRequest将表单数据再上传到远程服务器,由于在服务器端进行操作,就不存在跨域问题了. WebClient上传只包含键值对的文本信息示例代码: 复制代码 代码如下: str

python模拟浏览器POST提交数据的例子

python脚本: testpost.py  代码如下 复制代码 import urllib import urllib2 url = 'http://localhost/tools/testpost.php' values = {'obs_year':'2011','name':'Tom','sex':'Male'} data = urllib.urlencode(values) print data req = urllib2.Request(url, data) response = ur

php curl模拟post请求小实例_php实例

本机: 复制代码 代码如下: <?php$uri = "http://www.a.com/test.php";//这里换成你服务器的地址// 参数数组$data = array (  'name' => 'tanteng' // 'password' => 'password'); $ch = curl_init ();// print_r($ch);curl_setopt ( $ch, CURLOPT_URL, $uri );curl_setopt ( $ch, C