nutch1.7/1.8爬取pdf无法解析,全是乱码,求大神!急,好久了。

问题描述

最近公司让研究nutch。我测试了好多个版本解析如下url的pdf都不行,全是乱码(英文文档)我使用命令bin/nutchreadseg-list-dirtest01/segments/显示PARSED也是0求大神帮忙啊。为什么我爬取的pdf都是乱码,解析不了。http://www.accessdata.fda.gov/drugsatfda_docs/label/2014/202293s000lbl.pdf

解决方案

时间: 2024-09-10 13:33:09

nutch1.7/1.8爬取pdf无法解析,全是乱码,求大神!急,好久了。的相关文章

dictionary-Edit.jsp取值问题,onchange问题,求大神指导

问题描述 Edit.jsp取值问题,onchange问题,求大神指导 我在edit.jsp为客户设计随写随算的功能,代扣卸费=代扣卸费单价*实际重量.利用onchange 在实际重量数据改变时,代扣卸费自动算出来 但是我的代扣卸费单价 是字典表里的数值,我在这个页面怎么用它呢,求大神指导 function setdaiKouXieFei(){ var daikouxiefei= document.getElementById("ruKu.shiJiZongLiang").value*

大数据-新手求大神推荐网络爬取基础的书籍

问题描述 新手求大神推荐网络爬取基础的书籍 自己毕设选到了一个与网络爬取有关的题目,自己有些JAVA基础,想请教大神们我这种菜鸟应该看些什么书?会一些数据库基础知识 解决方案 这种程序也不复杂,所以根本没必要写书,也没有这种书. 你只要在gogle里面搜索 site:download.csdn.net 爬虫 java 找几个例子看下,人家代码怎么写,自己改改也就行了. 解决方案二: 看看http请求相关,学学正则表达式 解决方案三: http://download.csdn.net/detail

数据-python 实现爬取网页的审查元素,求大神路过

问题描述 python 实现爬取网页的审查元素,求大神路过 网页源代码只有 JavaScript,没有我想要的数据.只能通过审查元素看到,怎样才能抓取审查元素的内容 暂时用的是selenium,但只能看源代码.求大神路过 解决方案 selenium拿到数据后,用lxml来解析节点,获取你对应的数据 解决方案二: beautifulsoup试试吧.. 解决方案三: 我发现了一个在云上写和运行爬虫的网站,http://www.shenjianshou.cn/.被吓到了,之前就有过这种想法,终于有人帮

面试爬楼梯算法,每次可以跨一阶或者两阶,每次可以退后一步。求大神提供思路

问题描述 面试爬楼梯算法,每次可以跨一阶或者两阶,每次可以退后一步.求大神提供思路 前面有n节楼梯,每次可以跨一阶或者两阶,每次可以退后一步.求大神提供思路 解决方案 你的题目没有写完整吧.不知道你最终要干什么 是不是这个下面题目? http://blog.sina.com.cn/s/blog_63627b0d0100lcmi.html 解决方案二: 本质上和汉诺塔差不多,用堆栈解决 解决方案三: 每次可以后退一步是在跨1或2步之后还是同时?

c语言取小数问题,急求大神解答!

问题描述 c语言取小数问题,急求大神解答! 程序是#include int main() { float a,b; int n; scanf("%f",&a); n=(1000*a+0.5); b=(n*1.0)/1000; printf("%f",b); return 0; } 输入123.4567 输出是123.457001 输入1234.567 输出时1234.567017 输入12345.67 输出是12345.669922 为什么会这样呢?求大神解

大数取模问题求大神审查!

问题描述 大数取模问题求大神审查! #include int mod(int aint nint m);int main(){ unsigned int abm; while(scanf(""%d%d%d""&a&b&m)!=EOF) printf(""%dn""mod(abm)); return 0;}int mod(int aint nint m){ if(n==1) return a; else

spring batch 说step取不到 求大神!!!!!!!!!!

问题描述 spring batch 说step取不到 求大神!!!!!!!!!! 错误信息:信息: Loading XML bean definitions from class path resource [message_job.xml]Exception in thread ""main"" org.springframework.beans.factory.parsing.BeanDefinitionParsingException: Configurati

服务器控件-取值问题,求大神帮忙!!!!!

问题描述 取值问题,求大神帮忙!!!!! JS获取服务器控件下拉列表框 的文本值,求大神解决,急用!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 解决方案 var obj = document.getElementById(""select_id""); //selectid下拉框的idvar index = obj.selectedIndex; // 选中索引var text = obj.options[i

取模运算-求大神解答关于大数幂的运算和去模运算,谢谢!!c语言

问题描述 求大神解答关于大数幂的运算和去模运算,谢谢!!c语言 RT 比如说,2的10000000次方,我用double倒是可以算,但是如何去模呢... 2的10000000次方对1234567取模... 谢谢大神们! 解决方案 我记得以前在蓝桥杯上做过这样的题,你可以使用一个for循环进行计算,然后在每次计算以后就用得数对1234567取模,然后再使用取模后的数继续进行 运算,这样就不会溢出了. 解决方案二: 快速幂取模,对数时间. //求a的b次方对x取余数 int powmod(int a