httpunit-java 正则表达式 抓取2行特定中文词语中的一段中文

问题描述

java 正则表达式 抓取2行特定中文词语中的一段中文

老师让我们做一个能从汉字网站http://hanyu.iciba.com上抓取汉字信息的爬虫,现在遇到了一个难题,下面是我用httpunit解析出来的某个字的部分信息。

繁体

笔画
5笔
造字法
原为形声
部首
龙部
五笔
DXV
结构
单一结构
比如说现在我要截取这个字的部首,也就是部首和五笔这2行字中间的那段字,那正则表达式是不是就是"部首.五笔",但是这样做了之后什么也没有截取出来,能告诉我怎么写这个表达式吗。

时间: 2024-09-19 09:01:30

httpunit-java 正则表达式 抓取2行特定中文词语中的一段中文的相关文章

PHP正则表达式抓取某个标签的特定属性值的方法_正则表达式

php正则学了一些日子,抓了一些网站的数据,从而发现每次都自己写正则重新抓很麻烦,于是就想写一个抓取特定标签具有特定属性值的接口通用,直接上代码. //$html-被查找的字符串 $tag-被查找的标签 $attr-被查找的属性名 $value-被查找的属性值 function get_tag_data($html,$tag,$attr,$value){ $regex = "/<$tag.*?$attr=\".*?$value.*?\".*?>(.*?)<\

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片_java

利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;

PHP正则表达式抓取某个标签的特定属性值的方法

php正则学了一些日子,抓了一些网站的数据,从而发现每次都自己写正则重新抓很麻烦,于是就想写一个抓取特定标签具有特定属性值的接口通用,直接上代码. //$html-被查找的字符串 $tag-被查找的标签 $attr-被查找的属性名 $value-被查找的属性值 function get_tag_data($html,$tag,$attr,$value){ $regex = "/<$tag.*?$attr=\".*?$value.*?\".*?>(.*?)<\

正则-java如何抓取不同网站不同网页的内容

问题描述 java如何抓取不同网站不同网页的内容 请教大神们如何用java抓取不同网页(不同网站)相同属性的内容,如图: 用同一个java程序或正则一次性抓取图片上标注的内容(注:有很多这样的网页). 解决方案 内容一般在table或者div中,找出特征匹配,截取字符串就行了 解决方案二: 对于HTML标签,最好用XML解析类库,通过XPATH等方式来查找,这样简单,也不会容易出错,正则表达式处理这个比较麻烦,而且容易出错 解决方案三: 应该用到了,网络请求协议http!

java 网页内容抓取-java网页内容抓取问题。

问题描述 java网页内容抓取问题. 这个问题困扰我很久,谁能帮我解答我叫他哥了.问题是这样的,给个网站:http://www.wsdot.wa.gov/ferries/vesselwatch/TerminalDetail.aspx?terminalid=3 中间绿色数据部分是要收集的,但是问题出来啦,他是实时更新的,我用firebug看了下,里面能显示出相应的table,但是好像不是用的js,哪位大神有办法获得相应的数据,我叫他哥了. 解决方案 我已经解决了,送你们个网址http://www.

Java爬虫抓取视频网站下载链接_java

本篇文章抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中.这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/).本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接. 一 原理简介 其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,如果不对这些标签加以取舍的话,需要花费的时间难以想象. 分类链接和标签链接都不要,不通过这些链接去爬取其他页面,只通过页底的

java代码抓取网页邮箱的实现方法_java

实现思路: 1.使用java.net.URL对象,绑定网络上某一个网页的地址 2.通过java.net.URL对象的openConnection()方法获得一个HttpConnection对象 3.通过HttpConnection对象的getInputStream()方法获得该网络文件的输入流对象InputStream 4.循环读取流中的每一行数据,并由Pattern对象编译的正则表达式区配每一行字符,取得email地址 package cn.sdhzzl; import java.io.Buf

网络爬虫-用Java来抓取网页实例中HttpClient类的问题

问题描述 用Java来抓取网页实例中HttpClient类的问题 报这么一大堆错误我也是受不了了...... 主要的问题应该是HttpClient类这个东西,在网上查了这个类是httpclient-2.x.jar包的产物,我导入的是httpclient-4.2.2.jar和httpcore-4.2.2.jar包,而这两个新的工具包并不包含HttpClient类,查阅了Java API帮助文档后,自己并没有找到HttpClient类的替代类,而是一堆接口和抽象类,由于是刚开始写这个,所以有点懵.

socket-c语言正则表达式抓取网站的&amp;amp;lt;title&amp;amp;gt;

问题描述 c语言正则表达式抓取网站的<title> 本程序的功能是搜索网站的 字段的值 遗憾的是并不通用:ps:我也不知道为什么失败 问题1:正则表达式或运算消除标签大小写后匹配不到字符串 问题2:正则表达式实现零宽断言后发现匹配不到字符串 问题3:在科大官网上测试 成功 在其他网站可能会失败 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <sys/types.h