最近在做校园图书馆图书信息的采集程序,既然是图书馆图书的采集,肯定有提交搜索的页面,无非是post提交,让我想到了curl模拟提交,首先通过firebug进行抓包查询下post提交后的格式如下:
txtWxlx=CN&hidWxlx=spanCNLx&txtPY=HZ&txtTm=%D2%F4%C0%D6&txtLx=%25&txtSearchType=1&nMaxCount=100&nSetPageSize=10&cSortFld=%D5%FD%CC%E2%C3%FB&B1=%BC%EC+%CB%F7;搜索的关键字name=txtTm,随后代码如下:
复制代码
<?php
$keyword="音乐";$post="txtWxlx=CN&hidWxlx=spanCNLx&txtPY=HZ&txtTm={$keyword}&txtLx=%25&txtSearchType=1&nMaxCount=100&nSetPageSize=20&cSortFld=%D5%FD%CC%E2%C3%FB&B1=%BC%EC+%CB%F7";
$url = "http://210.30.68.130/wxjs/tmjs.asp";
//查询地址
$ch = curl_init();
curl_setopt ($ch, CURLOPT_REFERER, "http://210.30.68.130/wxjs/tmjs_form.asp/ "); //模拟来源
curl_setopt($ch, CURLOPT_URL, $url);//URL
curl_setopt($ch,CURLOPT_FOLLOWLOCATION,1);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_POST, 1); //模拟POST
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);//POST内容
curl_exec($ch);
$output = curl_close($ch);
echo $output;
?>
复制代码
但返回的页面总是显示没有相关内容,如果把关键字改成英语或者数字就可以正常显示了,于是想到这应该是编码问题,然后在post上面可以看到txtTm=%D2%F4%C0%D6经过查询得知这是url编码,汉字会进行转化,如果是英语则不会发生任何改变,于是就把头信息也加了部分内容进去如下:
$header = array();
$header[] = 'User-Agent: Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/30.0';
$header[] = 'Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8';
$header[] = 'Connection: keep-alive';
$header[] = 'Content-Type:application/x-www-form-urlencoded';
curl_setopt ( $ch, CURLOPT_HTTPHEADER, $header );
其实主要是$header[] = 'Content-Type:application/x-www-form-urlencoded';再次加载页面后如果是汉字显示还是没有相关的内容,随后想到了一个很简单的问题所在,php程序是utf8的,然而图书馆的网站是gb2312,好吧,再加上一句,$keyword = iconv('UTF-8', 'GB2312', $keyword);再次加载成功,这个应该才是问题关键所在,然后我把头信息删除后添加一句$keyword = urlencode($keyword);再次加载也就是下面的代码:
复制代码
<?php
$keyword="世界";
$keyword = iconv('UTF-8', 'GB2312', $keyword);
$keyword = urlencode($keyword);
$post="txtWxlx=CN&hidWxlx=spanCNLx&txtPY=HZ&txtTm={$keyword}&txtLx=%25&txtSearchType=1&nMaxCount=100&nSetPageSize=20&cSortFld=%D5%FD%CC%E2%C3%FB&B1=%BC%EC+%CB%F7";
$url = "http://210.30.68.130/wxjs/tmjs.asp";
//查询地址
$ch = curl_init();
curl_setopt ($ch, CURLOPT_REFERER, "http://210.30.68.130/wxjs/tmjs_form.asp/ "); //模拟来源
curl_setopt($ch, CURLOPT_URL, $url);//URL
curl_setopt($ch,CURLOPT_FOLLOWLOCATION,1);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_POST, 1); //模拟POST
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);//POST内容
curl_exec($ch);
$output = curl_close($ch);
echo $output;
?>
复制代码
不出所料,正常显示了,随后就是页面内容的采集排版问题了。无非是正则了。(由于是校园网只能我们内网访问)
php curl模拟post请求提交数据
时间: 2024-12-21 18:49:27
php curl模拟post请求提交数据的相关文章
php curl模拟post请求提交数据例子总结
注意:curl函数在php中默认是不被支持的,如果需要使用curl函数我们需在改一改你的php.ini文件的设置,找到php_curl.dll去掉前面的";"就行了 例1 代码如下 复制代码 <?php $uri = "http://tanteng.duapp.com/test.php"; // 参数数组 $data = array ( 'name' => 'tanteng' // 'password' => 'password'
php curl模拟post请求和提交多维数组的示例代码_php实例
下面一段代码给大家介绍php curl模拟post请求的示例代码,具体代码如下: <?php $uri = "http://www.cnblogs.com/test.php";//这里换成自己的服务器的地址 // 参数数组 $data = array ( 'name' => 'tanteng' // 'password' => 'password' ); $ch = curl_init (); // print_r($ch); curl_setopt ( $ch, C
ajax-php采集高手进:利用curl模拟登录抓取数据遇到json调用问题不成功,求助!
问题描述 php采集高手进:利用curl模拟登录抓取数据遇到json调用问题不成功,求助! 我在抓取一个页面的信息(假设a.php),这个页面只是一些基本的html框架,其他关键信息是通过ajax请求(b.php)回来的,返回的是json,然后在通过页面js将json解析,绘制到页面上.问题的关键是ajax请求的信息里有个手机号码需要登录后才显示完整,原网站利用ajax请求b.php获得json数据,如果直接访问b.php也是可以直接得到:{"name":"zhangsan&
文件上传-linux curl模拟表单提交不成功,新手求指教
问题描述 linux curl模拟表单提交不成功,新手求指教 以下是upload.jsp页面 <html><head><meta http-equiv=""Content-Type"" content=""text/html; charset=UTF-8""><title>上传文件</title></head><body> <form m
PHP利用Curl模拟登录并获取数据例子
PHP的curl()在抓取网页的效率方面是比较高的,而且支持多线程,而file_get_contents()效率就要稍低些,当然,使用curl时需要开启下curl扩展. 代码实战 先来看登录部分的代码: 代码如下 复制代码 //模拟登录 function login_post($url, $cookie, $post) { $curl = curl_init();//初始化curl模块 curl_setopt($curl, CURLOPT_URL, $url);//登录提交的地
PHP中使用CURL模拟登录并获取数据实例_php实例
cURL 是一个功能强大的PHP库,使用PHP的cURL库可以简单和有效地抓取网页并采集内容,设置cookie完成模拟登录网页,curl提供了丰富的函数,开发者可以从PHP手册中获取更多关于cURL信息.本文以模拟登录开源中国(oschina)为例,和大家分享cURL的使用. PHP的curl()在抓取网页的效率方面是比较高的,而且支持多线程,而file_get_contents()效率就要稍低些,当然,使用curl时需要开启下curl扩展. 代码实战 先来看登录部分的代码: 复制代码 代码如下
Asp.Net模拟表单提交数据和上传文件的实现代码_实用技巧
如果你需要跨域上传内容到另外一个域名并且需要获取返回值,使用Asp.Net的作为代理是最好的办法,要是客户端直接提交到iframe中,由于跨域是无法用javascript获取到iframe中返回的内容的.此时需要在自己的网站做一个动态页作为代理,将表单提交到动态页,动态页负责将表单的内容使用WebClient或HttpWebRequest将表单数据再上传到远程服务器,由于在服务器端进行操作,就不存在跨域问题了. WebClient上传只包含键值对的文本信息示例代码: 复制代码 代码如下: str
python模拟浏览器POST提交数据的例子
python脚本: testpost.py 代码如下 复制代码 import urllib import urllib2 url = 'http://localhost/tools/testpost.php' values = {'obs_year':'2011','name':'Tom','sex':'Male'} data = urllib.urlencode(values) print data req = urllib2.Request(url, data) response = ur
php curl模拟post请求小实例_php实例
本机: 复制代码 代码如下: <?php$uri = "http://www.a.com/test.php";//这里换成你服务器的地址// 参数数组$data = array ( 'name' => 'tanteng' // 'password' => 'password'); $ch = curl_init ();// print_r($ch);curl_setopt ( $ch, CURLOPT_URL, $uri );curl_setopt ( $ch, C