请 java 高手 数据抓取高手 帮忙了 急??问题有难度哦

问题描述

需求是这样的:1抓取互联网上包含了评论或者回复功能的页面;2实现对这些网页的自动回复或者自动评论;包还2方面:1可以匿名的发表回复或者评论的直接评论或者回复;2需要注册的可是实现自动注册随后进行评论或者回复;注意验证码的处理!!!!请各位高手说说大体的实现过程,思路。。。小弟跪谢了~~..~!分要多少给多少了,只要我有呵呵或者提供些可以用到的工具包或这抓取软件

解决方案

解决方案二:
这个不好处理,验证码就是来避免这样的问题的
解决方案三:
引用1楼feiyangdesky的回复:

这个不好处理,验证码就是来避免这样的问题的

对于可以直接回复或者评论的直接回复或评论,对于有验证码的做图片分析是在解析不了就标记一下继续评论其他页面。请大家说说实现思路吧或者这几步分别能用到什么技术或者工具

时间: 2024-09-20 08:48:23

请 java 高手 数据抓取高手 帮忙了 急??问题有难度哦的相关文章

谢谢帮忙-如何实现数据抓取并生成Excel文件

问题描述 如何实现数据抓取并生成Excel文件 如何实现 网络数据抓取,那个需求分析如何去设计啊,要这么样才能达到在抓取数据时并进行筛选,并保存到本地的数据库中去 解决方案 这个要看你使用的什么语言,不同的语言有不同的做法 而Excel本身有标准的xls文件和Excel可以加载的xml和csv文件等,生成方法也不一样,难易程度却相差很大 解决方案二: 这个要看你使用的什么语言,不同的语言有不同的做法 而Excel本身有标准的xls文件和Excel可以加载的xml和csv文件等,生成方法也不一样,

数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置

数据抓取是一门艺术,和其他软件不同,世界上不存在完美的.一致的.通用的抓取工具.为了不同的目的,需要定制不同的代码.不过,我们不必Start from Scratch,已经有许多的基本工具.基本方法和基础框架可供使用.不同的工具.不同的方法.不同的框架的特点也不同.了解这些工具.方法和框架是首要任务,接下来就需要明白它们的差异都在哪里.什么情境该用什么东东,最后才是析出规则.编写代码.运行程序来抓取数据.所以说,其实数据抓取的学习路线,不但很长而且很杂.     为了一个特定的目的,我需要爬取G

JAVA使用爬虫抓取网站网页内容的方法_java

本文实例讲述了JAVA使用爬虫抓取网站网页内容的方法.分享给大家供大家参考.具体如下: 最近在用JAVA研究下爬网技术,呵呵,入了个门,把自己的心得和大家分享下 以下提供二种方法,一种是用apache提供的包.另一种是用JAVA自带的. 代码如下: // 第一种方法 //这种方法是用apache提供的包,简单方便 //但是要用到以下包:commons-codec-1.4.jar // commons-httpclient-3.1.jar // commons-logging-1.0.4.jar

数据抓取的艺术(二):数据抓取程序优化

      续前文:<数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置>. 程序优化:第一步开始: for i in range(startx,total):     for j in range(starty,total):         BASE_URL = createTheUrl([item[i],item[j]])         driver.get(BASE_URL)         driver = webdriver.PhantomJS()    

10-穿墙代理的设置 | 01.数据抓取 | Python

10-穿墙代理的设置 郑昀 201005 隶属于<01.数据抓取>小节   我们访问 Twitter 等被封掉的网站时,需要设置 Proxy . 1.使用HTTP Proxy 下面是普通HTTP Proxy的设置方式: 1.1.pycurl 的设置 _proxy_connect = "http://127.0.0.1:1984" c = pycurl.Curl() - c.setopt(pycurl.PROXY, _proxy_connect)   1.2.urllib2

一淘网的数据抓取和插件屏蔽涉及的法律问题

今天探讨B2C购物网站京东商城和阿里巴巴集团旗下的比价网站一淘网的数据抓取和插件屏蔽涉及的法律问题.说明下,笔者和两网站均无业务关系和联系.先介绍背景: 2011年11月,京东商城采取技术措施,屏蔽一淘网搜索引擎,一淘网随后在微博表示不再直接抓取京东商城的价格数据,但近期又在京东商城与苏宁的价格战中实时公布京东商城和其他购物网站商品价格比较.近日,京东商城又在其网站屏蔽了一淘网的浏览器插件,该插件向用户实时提供包括京东商城在内的各大购物网站同款商品价格,一淘网方面表示京东商城是在破坏其软件运行.

Java爬虫实战抓取一个网站上的全部链接_java

前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫. 一 算法简介 程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式进行解析,取出其中未被发现的新链接,加入集合中,待下一次循环时遍历. 具体实现上使用了Map<String, Boolean>,键值对分别是链接和是否被遍历标志.程序中使用了两个Map集

java简单网页抓取的实现方法_java

本文实例讲述了java简单网页抓取的实现方法.分享给大家供大家参考.具体分析如下: 背景介绍 一 tcp简介 1 tcp 实现网络中点对点的传输 2 传输是通过ports和sockets ports提供了不同类型的传输(例如 http的port是80) 1)sockets可以绑定在特定端口上,并且提供传输功能 2)一个port可以连接多个socket 二 URL简介 URL 是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址. 互联网上的每个文件都有一个唯一的

07-爬虫的多线程调度 | 01.数据抓取 | Python

07-爬虫的多线程调度 郑昀 201005 隶属于<01.数据抓取>小节 一般让爬虫在一个进程内多线程并发,有几种方法: Stackless :Stackless Python是Python的一个增强版本.Stackless Python修改了Python的代码,提供了对微线程的支持.微线程是轻量级的线程,与前边所讲的线程相比,微线程在多个线程间切换所需的时间更多,占用资源也更少. Twisted :主要利用 Twisted 中的异步编程能力.如 addCallback , callLater