请 java 高手数据抓取高手帮忙了急？？问题有难度哦

问题描述

需求是这样的：1抓取互联网上包含了评论或者回复功能的页面；2实现对这些网页的自动回复或者自动评论；包还2方面：1可以匿名的发表回复或者评论的直接评论或者回复；2需要注册的可是实现自动注册随后进行评论或者回复；注意验证码的处理！！！！请各位高手说说大体的实现过程，思路。。。小弟跪谢了~~..~！分要多少给多少了，只要我有呵呵或者提供些可以用到的工具包或这抓取软件

解决方案

解决方案二：
这个不好处理，验证码就是来避免这样的问题的
解决方案三：
引用1楼feiyangdesky的回复:

这个不好处理，验证码就是来避免这样的问题的

对于可以直接回复或者评论的直接回复或评论，对于有验证码的做图片分析是在解析不了就标记一下继续评论其他页面。请大家说说实现思路吧或者这几步分别能用到什么技术或者工具

时间： 2024-09-20 08:48:23

请 java 高手数据抓取高手帮忙了急？？问题有难度哦的相关文章

谢谢帮忙-如何实现数据抓取并生成Excel文件

问题描述如何实现数据抓取并生成Excel文件如何实现网络数据抓取,那个需求分析如何去设计啊,要这么样才能达到在抓取数据时并进行筛选,并保存到本地的数据库中去解决方案这个要看你使用的什么语言,不同的语言有不同的做法而Excel本身有标准的xls文件和Excel可以加载的xml和csv文件等,生成方法也不一样,难易程度却相差很大解决方案二: 这个要看你使用的什么语言,不同的语言有不同的做法而Excel本身有标准的xls文件和Excel可以加载的xml和csv文件等,生成方法也不一样,

数据抓取的艺术（一）：Selenium+Phantomjs数据抓取环境配置

数据抓取是一门艺术,和其他软件不同,世界上不存在完美的.一致的.通用的抓取工具.为了不同的目的,需要定制不同的代码.不过,我们不必Start from Scratch,已经有许多的基本工具.基本方法和基础框架可供使用.不同的工具.不同的方法.不同的框架的特点也不同.了解这些工具.方法和框架是首要任务,接下来就需要明白它们的差异都在哪里.什么情境该用什么东东,最后才是析出规则.编写代码.运行程序来抓取数据.所以说,其实数据抓取的学习路线,不但很长而且很杂. 为了一个特定的目的,我需要爬取G

JAVA使用爬虫抓取网站网页内容的方法_java

本文实例讲述了JAVA使用爬虫抓取网站网页内容的方法.分享给大家供大家参考.具体如下: 最近在用JAVA研究下爬网技术,呵呵,入了个门,把自己的心得和大家分享下以下提供二种方法,一种是用apache提供的包．另一种是用JAVA自带的. 代码如下: // 第一种方法 //这种方法是用apache提供的包,简单方便 //但是要用到以下包:commons-codec-1.4.jar // commons-httpclient-3.1.jar // commons-logging-1.0.4.jar

数据抓取的艺术（二）：数据抓取程序优化

续前文:<数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置>. 程序优化:第一步开始: for i in range(startx,total): for j in range(starty,total): BASE_URL = createTheUrl([item[i],item[j]]) driver.get(BASE_URL) driver = webdriver.PhantomJS()

10-穿墙代理的设置 | 01.数据抓取 | Python

10-穿墙代理的设置郑昀 201005 隶属于<01.数据抓取>小节我们访问 Twitter 等被封掉的网站时,需要设置 Proxy . 1.使用HTTP Proxy 下面是普通HTTP Proxy的设置方式: 1.1.pycurl 的设置 _proxy_connect = "http://127.0.0.1:1984" c = pycurl.Curl() - c.setopt(pycurl.PROXY, _proxy_connect) 1.2.urllib2

一淘网的数据抓取和插件屏蔽涉及的法律问题

今天探讨B2C购物网站京东商城和阿里巴巴集团旗下的比价网站一淘网的数据抓取和插件屏蔽涉及的法律问题.说明下,笔者和两网站均无业务关系和联系.先介绍背景: 2011年11月,京东商城采取技术措施,屏蔽一淘网搜索引擎,一淘网随后在微博表示不再直接抓取京东商城的价格数据,但近期又在京东商城与苏宁的价格战中实时公布京东商城和其他购物网站商品价格比较.近日,京东商城又在其网站屏蔽了一淘网的浏览器插件,该插件向用户实时提供包括京东商城在内的各大购物网站同款商品价格,一淘网方面表示京东商城是在破坏其软件运行.

Java爬虫实战抓取一个网站上的全部链接_java

前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫. 一算法简介程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式进行解析,取出其中未被发现的新链接,加入集合中,待下一次循环时遍历. 具体实现上使用了Map<String, Boolean>,键值对分别是链接和是否被遍历标志.程序中使用了两个Map集

java简单网页抓取的实现方法_java

本文实例讲述了java简单网页抓取的实现方法.分享给大家供大家参考.具体分析如下: 背景介绍一 tcp简介 1 tcp 实现网络中点对点的传输 2 传输是通过ports和sockets ports提供了不同类型的传输(例如 http的port是80) 1)sockets可以绑定在特定端口上,并且提供传输功能 2)一个port可以连接多个socket 二 URL简介 URL 是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址. 互联网上的每个文件都有一个唯一的

07-爬虫的多线程调度 | 01.数据抓取 | Python

07-爬虫的多线程调度郑昀 201005 隶属于<01.数据抓取>小节一般让爬虫在一个进程内多线程并发,有几种方法: Stackless :Stackless Python是Python的一个增强版本.Stackless Python修改了Python的代码,提供了对微线程的支持.微线程是轻量级的线程,与前边所讲的线程相比,微线程在多个线程间切换所需的时间更多,占用资源也更少. Twisted :主要利用 Twisted 中的异步编程能力.如 addCallback , callLater

猜你喜欢

css

文章简介:并不是说css-sprite技术不好,只是什么时候需要用,什么时候不需要用,不能够一概而论的跟风,看人家网易用了,你也用! 最开始的时候,图片都是一张一张单独存在,需要哪张,就发送http请 ...

简单的页面缓冲技术（一）(转载中文用户)

页面|中文前言其实说它为技术,也许不能说是真正的技术.这只不过是我自已想出来的页面处理的方法,当然与别人的想法可能是一致的.不过我还是想给它一个好听的名字.那么我这里所指的页面缓冲是什么呢?就是指 ...

个人网站—求贤若渴的饥荒

现在已是深夜2点我还在各大站寻找有用的资源,for999.cn建站10天每天都在努力,看看自己的站里孤零零的躺着200篇文章我并不感到孤独因为有那些文章的陪伴,看到他们我有着异样的亲切,是啊这里的文 ...

技巧：用 isapi rewrite 实现asp的HTML静态化

技巧|静态 asp网站程序在国内运用很广,但是类似于im286.asp?id=20050307213811这样的url有点不利于搜索引擎的收录,也就是说不符合友好url(urls-friendly)的 ...

精彩推荐：.Net编程的十个技巧

编程|技巧 .NET编程的10点技巧-------------------------------------------------------------------------------- 不 ...

ASP.NET: Dynamically set Text and Value fields for a DropDownList

asp.net This code was written in response to a message posted on one of Charles Carroll's ASP.NET li ...

菜鸟学装机之九图解外部连线安装

经过一番折腾,终于大功告成!最后大家再将键盘.鼠标.音箱.麦克风.显示器.电源线.电话线等其他外部连线分别对应地插入机箱后面板的插座中.很多初学者在组装电脑的过程中,面对机箱背部的各种接口就感到不知所 ...

Oracle性能调整与优化（三）

正如在第1和第2部分中提到那样,有几个相对容易的改善性能的步骤你可以采取,这些步骤其中一个涉及到使用自动化工具"指导"你编写SQL语句,有许多生产性能分析或性能调整工具的厂家 , ...

jquery实现的缩略图预览滑块实例

本文实例讲述了jquery实现的缩略图预览滑块.分享给大家供大家参考.具体如下: 运行效果如下图所示: 主要代码如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ...

如何识别XP死机并自动重新启动

如何识别XP死机并自动重新启动单击"开始→运行",键入"REGEDIT"并回车,打开注册表编辑器,找到并展开[HKEY_LOCAL_MACHINESyst ...

50个让用户流连忘返的网站页头设计(上)

在模板满天飞的今天,开个博客好像是一件特别简单的事情,不是么?平台就在那儿摆着,博主只需要去发文就好了,这有何难? 但是实际的状况是,网站和博客成千上万,想要用户注意到你,关注你,并不是一件简单的 ...

PS修复污损老照片实例讲解

这篇教程教三联的朋友们用PS修复污损老照片,教程难度中等,但是呢这篇教程中提到的方法都非常的实用,转发过来和三联学习PS照片后期加工处理的朋友们一起分享学习了,我们先来看看原图和修复之后的效果图对比: ...

wps office意外关闭造成文件未保存该怎么办？

一.WPS中有定时备份机制.默认时间是10分钟.出现程序关闭的情况,可以点击WPS左上角的"WPS文字",在下拉菜单中选择"备份管理". 二.可以使用快捷键 ...

360极速浏览器网必通开启使用教程

1.安装360极速浏览器最新的8.1版本(版本号不低于8.1.0.231). 2.打开选项-实验室,勾选最下面的"启用网必通功能".

PS人像的景深效果

我一直将模拟景深效果列为后期的上乘功夫,他不仅需要极其娴熟的技术,还需要巨大的耐心,需要你愿意为了一个完美的效果而一个像素一个像素的去调整,还需要你有丰富的摄影经验,知道如何模拟出的景深才最接近机 ...

猩猩助手怎么用?

手机玩游戏往往存在的问题就是:耗电快,流量高,屏幕小等. 猩猩助手是一款在PC上运行安卓APP的最强安卓模拟器以及手机游戏应用管理软件.拥有5000款以上手机应用下载,一键安装手机应用,实现电脑完 ...

cgroup子系统2_devices子系统

devices子系统用于控制cgroup中所有进程可以访问哪些设备,三个控制文件:devices.allow,devices.deny,devices.list. devices.allow用于指定c ...

Linux下更新firefox版本

第一步:到官网下载最新的安装包 [点击下载] 得到 Firefox-latest.tar.bz2 第二步:解压安装包 $ tar jxfv Firefox-latest.tar.bz2 解压得 fir ...

小米推进国际化：海外用户数据移至国外服务器

DoNews 10月23日消息 (记者张琳)小米全球副总裁雨果·巴拉通过http://www.aliyun.com/zixun/aggregation/33868.html">Goo ...

禾苗〗-分别使用SQL Server数据库，Access数据库，Excel数据库实现点名的功能

问题描述分别使用SQL Server数据库,Access数据库,Excel数据库实现点名的功能使用C#来实现这些问题的具体代码,使用的方式不同,要求一个简单的代码,谢谢大家解决方案 ACCESS ...

窗口隐藏-c# winform 如何判断窗口是否处于隐藏状态？

问题描述 c# winform 如何判断窗口是否处于隐藏状态? 应用场景是这样的:多个窗口实例化之后个别执行了Hide方法怎么才能知道具体是哪些窗口被隐藏呢,开始以为用WindowState结果发现F ...

窗体属性-C#VS2010两个窗体修改一个窗体的Name属性另一个窗体Name属性也会修改，请问怎么调过来

问题描述 C#VS2010两个窗体修改一个窗体的Name属性另一个窗体Name属性也会修改,请问怎么调过来 C#VS2010两个窗体修改一个窗体的Name属性另一个窗体Name属性也会修改,请问怎么调 ...

一个函数程序的编写。

问题描述一个函数程序的编写. 题目: 请编写函数fun(char *str, int num[］),它的功能是:分别找出字符串中每个数字字符(0,1,2,3,4,5,6,7,8,9)的个数,用num ...

如果真的要把Go语言加入OpenStack开发，需要考虑哪些问题？

一直以来OpenStack都只是用Python编写的,别的语言不是没用只是用到的很少,核心部分几乎都是Python,现有人提议让Go语言也用在API服务方面. 在新版本Newton出炉的周期中,技术评 ...

Hacking Team安卓浏览器攻击过程中的漏洞分析 Stage4

一.漏洞简介: Hacking team今年爆出了针对android4.0.x-4.3.x android浏览器的漏洞攻击利用代码.该漏洞攻击代码,通过连续利用多个浏览器与内核漏洞,完成通过Javas ...

光纤厂商的2017：运营商雨露均沾五巨头更显强势

中国光纤光缆厂商(下称"光纤厂商")的2016年是幸福的.在宽带中国战略持续推进和LTE建设高潮的刺激下,中国市场需求量再创新高.CRU中国区总裁John Johnson预计,全球 ...

docker初识

转:作者@oilbeater 官网的介绍是这样的: Docker is an open platform for developers and sysadmins to build, ship, an ...

apache错误：internal server error 500问题解决办法

错误是今天做一个微信绑定wap网站登录了,在本地测试没有问题但在服务器上发现无法正常运行打开程序连接提示internal server error 500了,接就查百度第一,权限配置问题,文件没有权 ...

javascript计时器事件使用详解_基础知识

在 JavaScritp 中使用计时事件是很容易的,两个关键方法是: setTimeout()未来的某时执行代码 clearTimeout()取消setTimeout()setTimeout()语法 ...

anroid-AchartEngine柱状图如何一个x轴的点显示多个柱状进行对比

问题描述 AchartEngine柱状图如何一个x轴的点显示多个柱状进行对比有大神么!求解解决方案 http://bbs.csdn.net/topics/391832977

热搜

© 2024 iVAN | info#iamivan.net | 12 q. 0.032 s.