php结合正则批量抓取网页中邮箱地址

   php如何抓取网页中邮箱地址,下面我就给大家分享一个用php抓取网页中电子邮箱的实例。

  ?

1
2
3
4
5
6
7
8
9
10
11
12
13

<?php
$url='http://www.3lian.net'; //要采集的网址
$content=file_get_contents($url);
//echo $content;
function getEmail($str) {
//$pattern = "/([a-z0-9]*[-_.]?[a-z0-9]+)*@([a-z0-9]*[-_]?[a-z0-9]+)+[.][a-z]{2,3}([.][a-z]{2})?/i";
$pattern = "/([a-z0-9-_.]+@[a-z0-9]+.[a-z0-9-_.]+)/";
preg_match_all($pattern,$str,$emailArr);
 
return $emailArr[0];
}
print_r( getEmail($content));
?>

  方法2:

  ?

1
2
3
4
5
6
7
8
9
10

<?php
$url='http://www.j3lian.net'; //当页已留邮箱
$content=file_get_contents($url); //获取页面内容
function getEmail($str) { //匹配邮箱内容
$pattern = "/([a-z0-9-_.]+@[a-z0-9]+.[a-z0-9-_.]+)/";
preg_match_all($pattern,$str,$emailArr);
return $emailArr[0];
}
print_r( getEmail($content));
?>

  以上所述就是本文的全部内容了,希望大家能够喜欢。

时间: 2024-10-03 15:14:19

php结合正则批量抓取网页中邮箱地址的相关文章

ASP.NET实现抓取网页中的链接

asp.net|链接|网页 输入一个地址,就可以把那个网页中的链接提取出来,下面这段代码可以轻松实现,主要的是用到了正则表达式.      GetUrl.ASPx代码如下:      <%@ Page Language="<a href="http://dev.21tx.com/language/vb/" target="_blank">VB</a>" CodeBehind="GetUrl.aspx.vb&

求教如何通过python抓取网页中表格信息

问题描述 求教如何通过python抓取网页中表格信息 刚刚开始学习python 不清楚如何通过python抓取网页中的表格信息 比如给定一个student.html 里面有学号.姓名.性别等信息 怎么样写才能够输入学号 读出其他信息? 解决方案 用正则表达式,表格数据放在table->tr->td中 解决方案二: 输入学号然后服务器在给你其他数据,应该是一个post的过程-你可以抓包看一下整个过程-至于提取特定的信息,你可以先看下整个表格的结构,再有针对性的写个正则表达式来提取出信息- 解决方

使用HtmlAgilityPack批量抓取网页数据

原文:使用HtmlAgilityPack批量抓取网页数据 相关软件点击下载 登录的处理.因为有些网页数据需要登陆后才能提取.这里要使用ieHTTPHeaders来提取登录时的提交信息. 抓取网页  HtmlAgilityPack.HtmlDocument htmlDoc;            if (!string.IsNullOrEmpty(登录URL))            {                htmlDoc = htmlWeb.Load(登录URL, 提交的用户验证信息,

关于使用webbrowser控件批量抓取网页时遇到的问题

问题描述 由于有很多网址,并且很多都是带有js跳转的动态页面,于是只能使用浏览器对象.现在的工作方式是,以每个线程配备一个browser对象,所有线程依次从文件中获取需要访问的网址,并且访问时间是被限定的如果超时,则判定访问失败,然后将访问成功与否的结果输出到另一个文件进行汇总.这样的工作方式就是,当启动50个线程时,就有50个webbrowser在运行然而现在遇到的问题是,不同的线程数抓取的成功率也会不同.比如现在有100个网址,2个线程时只失败6个:而20个线程时则失败17个.这是为何?是网

怎样用Java代码抓取网页中的iframe中的数据

问题描述 最近老大让我做一个深度搜索功能,但是不知道怎样获取网页中iframe中的数据,求大神指教! 解决方案 解决方案二:看看吧解决方案三:iframe里面也是src的地址啊.解决方案四:有了src不就有地址了?继续下载啊,一个递归处理就行

抓取-网页同一请求地址两次的网页显示不同,源码也不一致

问题描述 网页同一请求地址两次的网页显示不同,源码也不一致 本人最近在尝试网页抓取,发现当当店铺的商品列表页面每次请求的结果都不相同. 举个例子:韩都衣舍 = http://shop.dangdang.com/4609/list.html. 多次请求这个地址会发现每次的商品页数可能不同,源码也不同.实际结果就是明明应该有几十页的内容,却只显示有几页.这是什么原因导致呢?因为我是通过页面内的下一页来抓取下一页内容,这样的话必然导致抓取不足,甚至有时候明明下一页是第三页,却显示了第一页的内容,望解答

抓取网页中的Silverlight数据初探

1.在浏览器中,打开Silverlight页面,点击右键,查看页面源代码:   2. 在html源代码中搜索"xap",很快就能定位出xap的位置.例如:<param name="Source" value="test/getdata.xap" /> 该value就是xap在服务器端的位置. 3.把它和网址域名地址拼接起来,来获取当前的xap文件.在地址栏输入:  http://www.moumou.com/test/getdata.

采集邮箱的php代码(抓取网页中的邮箱地址)_php技巧

复制代码 代码如下: <?php $url='http://www.jb51.net'; //这个网页里绝对含有邮件地址. $content=file_get_contents($url); //echo $content; function getEmail($str) {     //$pattern = "/([a-z0-9]*[-_\.]?[a-z0-9]+)*@([a-z0-9]*[-_]?[a-z0-9]+)+[\.][a-z]{2,3}([\.][a-z]{2})?/i&qu

python抓取网页中的图片示例_python

复制代码 代码如下: #coding:utf8import reimport urllibdef getHTML(url):    page = urllib.urlopen(url)    html = page.read()    return html def getImg(html,imgType):    reg = r'src="(.*?\.+'+imgType+'!slider)" '    imgre = re.compile(reg)    imgList = re.