问题描述
最近公司让研究nutch。我测试了好多个版本解析如下url的pdf都不行,全是乱码(英文文档)我使用命令bin/nutchreadseg-list-dirtest01/segments/显示PARSED也是0求大神帮忙啊。为什么我爬取的pdf都是乱码,解析不了。http://www.accessdata.fda.gov/drugsatfda_docs/label/2014/202293s000lbl.pdf
解决方案
时间: 2024-09-10 13:33:09
最近公司让研究nutch。我测试了好多个版本解析如下url的pdf都不行,全是乱码(英文文档)我使用命令bin/nutchreadseg-list-dirtest01/segments/显示PARSED也是0求大神帮忙啊。为什么我爬取的pdf都是乱码,解析不了。http://www.accessdata.fda.gov/drugsatfda_docs/label/2014/202293s000lbl.pdf