Java精确抽取网页发布时间_java

对网页中各种不同格式的发布时间进行抽取,将发布时间以规整的“yyyy-MM-dd HH:mm:ss”格式表示出来,只能尽量追求精确,但是因为网络发布时间的格式十分灵活,所以做不到百分百地正确抽取

package whu.extract.pubtime.core;

import java.util.ArrayList;
import java.util.Calendar;
import java.util.Collections;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import whu.utils.TimeUtil;

/**
 * Created On 2014年3月13日 下午2:49:05
 * @description 获取网页的发布时间
 */
public class FetchPubTime {
  /** 表示url中连续的8位日期,例如http://www.baidu.com/20140311/2356.html */
  private static String url_reg_whole= "([-|/|_]{1}20\\d{6})";
  /** 表示 用-或者/隔开的日期,有年月日的,例如 http://www.baidu.com/2014-3-11/2356.html */
  private static String url_reg_sep_ymd = "([-|/|_]{1}20\\d{2}[-|/|_]{1}\\d{1,2}[-|/|_]{1}\\d{1,2})";
  /** 表示 用-或者/隔开的日期,只有年和月份的,例如 http://www.baidu.com/2014-3/2356.html */
  private static String url_reg_sep_ym = "([-|/|_]{1}20\\d{2}[-|/|_]{1}\\d{1,2})";
  private static Calendar current = Calendar.getInstance();
  /** 格式正确的时间正则表达式*/
  private static String rightTimeReg = "^((\\d{2}(([02468][048])|([13579][26]))[\\-\\/\\s]?((((0?[13578])|(1[02]))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])))))|(\\d{2}(([02468][1235679])|([13579][01345789]))[\\-\\/\\s]?((((0?[13578])|(1[02]))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[\\-\\/\\s]?((0?[1-9])|(1[0-9])|(2[0-8]))))))(\\s(((0?[0-9])|([1-2][0-3]))\\:([0-5]?[0-9])((\\s)|(\\:([0-5]?[0-9])))))?$";

  /**
   * @param url
   * @param urlContent
   * @return
   */
  public static String getPubTimeVarious(String url,String urlContent) {

    String pubTime = getPubTimeFromUrl(url);

   //链接里面没有,匹配文本中的
    if(pubTime == null)
    {
      if(urlContent!=null&&!urlContent.trim().equals(""))
        return extractPageDate(urlContent);
    }

    return pubTime;
  }

  /**从url里面抽取出发布时间,返回YYYY-MM-DD HH:mm:ss格式的字符串
   * @param url
   * @return
   */
  public static String getPubTimeFromUrl(String url)
  {
    Pattern p_whole = Pattern.compile(url_reg_whole);
    Matcher m_whole = p_whole.matcher(url);
    if(m_whole.find(0)&&m_whole.groupCount()>0)
    {
      String time = m_whole.group(0);
      time = time.substring(1,time.length());
      //每一步都不能够超出当前时间
    if(current.compareTo(TimeUtil.strToCalendar(time, "yyyyMMdd"))>=0)
    {

      return time.substring(0,4)+"-"+time.substring(4,6)+"-"+
         time.substring(6,8)+" "+"00:00:00";
    }
    }

    p_whole = null;
    m_whole = null;
    Pattern p_sep = Pattern.compile(url_reg_sep_ymd);
    Matcher m_sep = p_sep.matcher(url);
    if(m_sep.find(0)&&m_sep.groupCount()>0)
    {
       String time = m_sep.group(0);
       time = time.substring(1,time.length());
       String[] seg = time.split("[-|/|_]{1}");
       Calendar theTime = Calendar.getInstance();
       theTime.set(Calendar.YEAR,Integer.parseInt(seg[0]));
       theTime.set(Calendar.MONTH, Integer.parseInt(seg[1]));
       theTime.set(Calendar.DAY_OF_MONTH, Integer.parseInt(seg[2]));
       if(current.compareTo(theTime)>=0)
        {

      return seg[0]+"-"+seg[1]+"-"+seg[2]+" "+"00:00:00";
        }
    }
    p_sep = null;
    m_sep = null;
    Pattern p_sep_ym = Pattern.compile(url_reg_sep_ym);
    Matcher m_sep_ym = p_sep_ym.matcher(url);
    if(m_sep_ym.find(0)&&m_sep_ym.groupCount()>0)
    {
       String time = m_sep_ym.group(0);
       time = time.substring(1,time.length());
       Calendar theTime = Calendar.getInstance();
       String[] seg = time.split("[-|/|_]{1}");
       theTime.set(Calendar.YEAR,Integer.parseInt(seg[0]));
       theTime.set(Calendar.MONTH, Integer.parseInt(seg[1]));
       theTime.set(Calendar.DAY_OF_MONTH, 1);
       if(current.compareTo(theTime)>=0)
      {

      return seg[0]+"-"+seg[1]+"-"+"01"+" "+"00:00:00";
      }
    }

    return null;
  }

  /** 从网页源码中取出发布时间
   * java中正则表达式提取字符串中日期实现代码
   * 2013年12月19日15:58:42
   * 读取出2013-12-19 15:48:33或者2013-12-19或者2012/3/05形式的时间
   * @param text 待提取的字符串
   * @return 返回日期
   * @author: oschina
   * @Createtime: Jan 21, 2013
   */
  public static String extractPageDate(String text) {
    boolean containsHMS =false;
    String dateStr = text.replaceAll("r?n", " ");
    try {
      List matches = null;
      Pattern p_detail = Pattern.compile("(20\\d{2}[-/]\\d{1,2}[-/]\\d{1,2} \\d{1,2}:\\d{1,2}:\\d{1,2})|(20\\d{2}年\\d{1,2}月\\d{1,2}日)", Pattern.CASE_INSENSITIVE|Pattern.MULTILINE);
      //如果是仅仅抽取年月日,则按照上面的,如果是抽取年月日-时分秒,则按照下面的
      Pattern p = Pattern.compile("(20\\d{2}[-/]\\d{1,2}[-/]\\d{1,2})|(20\\d{2}年\\d{1,2}月\\d{1,2}日)", Pattern.CASE_INSENSITIVE|Pattern.MULTILINE);
      //Matcher matcher = p.matcher(dateStr);
      Matcher matcher_detail = p_detail.matcher(dateStr);

      if(!(matcher_detail.find(0) && matcher_detail.groupCount() >= 1))
      {
        matcher_detail = p.matcher(dateStr);
        containsHMS = true;
      }else
        matcher_detail = p_detail.matcher(dateStr);
      if (matcher_detail.find() && matcher_detail.groupCount() >= 1) {
        matches = new ArrayList();
        for (int i = 1; i <= matcher_detail.groupCount(); i++) {
          String temp = matcher_detail.group(i);
          matches.add(temp);
        }
      } else {
        matches = Collections.EMPTY_LIST;
      }      

      if (matches.size() > 0) {
        for(int i=0;i<matches.size();i++)
        {
          String pubTime = matches.get(i).toString().trim();
          //取出第一个值
          pubTime = pubTime.replace("/", "-").replace("年", "-").replace("月", "-").replace("日", "-");
          if(current.compareTo(TimeUtil.strToCalendar(pubTime, "yyyy-MM-dd"))>=0)
          {
            if(containsHMS)
              pubTime+=" "+"00:00:00";
            if(pubTime.matches(rightTimeReg))
            {
              return pubTime;
            }
          }
        }
      } else {
        return null;
      } 

    } catch (Exception e) {
      return null;
    }
    return null;
  }
}

以上就是本文的全部内容,希望对大家学习java程序设计有所帮助。

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索Java抽取网页时间
, Java抽取发布时间
Java抽取时间
精确抽取网页发布时间、java新闻网页正文抽取、java list随机抽取、实体关系抽取 java、java随机抽取名字,以便于您获取更多的相关知识。

时间: 2024-09-08 07:51:01

Java精确抽取网页发布时间_java的相关文章

java显示当前的系统时间_java

编写Applet小程序,通过在HTML文档中接收参数,用不同颜色.字体显示当前的系统时间. Ex4_1.java import java.awt.*; import java.applet.Applet; import java.util.Calendar; public class Ex4_1 extends Applet { Calendar now; private String s1; private int size,color; public void init() { now=Ca

java随机抽取指定范围内不重复的n个数_java

一.JAVA中生成随机数的方式1.在j2se中使用Math.random()令系统随机选取一个0~1之间的double类型小数,将其乘以一个数,比如25,就能得到一个0~25范围内的随机数,这个在j2me中没有:    int randomNumber = (int) Math.round(Math.random()*(max-min)+min); 2.在System类中有一个currentTimeMillis()方法,这个方法返回从1970年1月1号0点0分0秒到目前的一个long型的毫秒数,

Java使用正则表达式及字符串操作,抽取网页信息

使用正则表达式及字符串操作,抽取网页信息,实现代码如下: /* 去script */ public static String trimScript(String content) { String regEx = "<script[^>]*>[^<]+</script>"; Pattern p = Pattern.compile(regEx); Matcher m = p.matcher(content); String result = cont

Java 8中日期和时间的处理方法_java

Java 8新增了LocalDate和LocalTime接口,为什么要搞一套全新的处理日期和时间的API?因为旧的java.util.Date实在是太难用了. java.util.Date月份从0开始,一月是0,十二月是11,变态吧!java.time.LocalDate月份和星期都改成了enum,就不可能再用错了. java.util.Date和SimpleDateFormatter都不是线程安全的,而LocalDate和LocalTime和最基本的String一样,是不变类型,不但线程安全,

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片_java

利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;

学习Java中的日期和时间处理及Java日历小程序的编写_java

Java 在 java.util 包中提供了 Date 类,这个类封装了当前的日期和时间. Date 类支持两种构造函数.第一个构造函数初始化对象的当前日期和时间. Date( )下面的构造函数接收一个参数等于自1970年1月1日午夜起已经过的毫秒数 Date(long millisec) 一旦有一个可用的日期对象,可以调用以下任何一种支持的方法使用时间: SN 方法和描述 1 boolean after(Date date) 如果调用Date对象包含或晚于指定的日期则返回true,否则,返回f

Java中的日期和时间类以及Calendar类用法详解_java

Java日期和时间类简介 Java 的日期和时间类位于 java.util 包中.利用日期时间类提供的方法,可以获取当前的日期和时间,创建日期和时间参数,计算和比较时间. Date 类 Date 类是 Java 中的日期时间类,其构造方法比较多,下面是常用的两个: Date():使用当前的日期和时间初始化一个对象. Date(long millisec):从1970年01月01日00时(格林威治时间)开始以毫秒计算时间,计算 millisec 毫秒.如果运行 Java 程序的本地时区是北京时区(

java实现oracle插入当前时间的方法_java

本文实例讲述了java实现oracle插入当前时间的方法.分享给大家供大家参考.具体分析如下: 我在做一个inser操作的时候 要获取当前时间 存入数据库 就直接 ps.setDate(new java.util.Date()); 但是会报转换错误 此时应该 java.util.Date utilDate = new java.util.Date(); java.sql.Date sqlDate = new java.sql.Date(utilDate.getTime()); ps.setDat

java采用中文方式显示时间的方法_java

本文实例讲述了java采用中文方式显示时间的方法.分享给大家供大家参考.具体如下: 其中t为秒,比如有时候需要计算两个任务相差多久,或者该任务何时结束或者某个任务间隔多久重新启动等适用于本方法.如果是微秒,自己先/1000 private static String chinese_period(int t){ int y, n, d, h, m, s; String time; if(t<=0) return "立即"; s = t % 60; t /= 60; m = t %