问题描述
- python获取html源码中省略文本的内容
-
- 浏览器打开该网页,页面可以显示完整的文本。
- 但用Python获取网页源码时,发现源码中只显示文本的前半部分,后面文本用省略号(...)替代了。
htmlContent = urllib2.urlopen().read().decode('utf-8')
请问用python,要怎么获取完整的文本?
谢谢!
解决方案
网页可能用了ajax等异步技术来显示页面内容
urllib等获取的时候只能取到当时页面内容,可能页面内容还没有加载完成
这种情况需要用selenium等webdriver机制模拟浏览器来获取所有的页面内容
解决方案二:
用fiddler这个软件抓浏览器和服务器的通讯数据,看是什么请求包含了完整的文本。然后用python直接模拟。
时间: 2024-08-30 08:41:02