抓网页遇到js 生成内容问题

问题描述

这几天抓图书网站的书籍信息发现书籍目录 有些需要 点击 显示详细信息 才能在本页显示出来 不知道大家有没有 什么好方法另外 我用的py 其他语言也说说~

解决方案

即使他用的是ajax,始终都要有一个url(写在js代码中),你可以直接用那个url得到想要的信息。
解决方案二:
引用 显示详细信息 才能在本页显示出来 你直接请求 这个详细信息的 地址!就能看到了

时间: 2024-12-25 09:05:03

抓网页遇到js 生成内容问题的相关文章

百度工程师告诉你网页里注释的内容是否会被抓取

摘要: 很多站长都知道网页代码里面有注释代码这么个东西,其形式是!-注释内容-,在HTML里面注释的内容出现在网页源代码,而用户浏览网页的过程中是看不到的.因为注释内容在源代码展现 很多站长都知道网页代码里面有注释代码这么个东西,其形式是<!-注释内容->,在HTML里面注释的内容出现在网页源代码,而用户浏览网页的过程中是看不到的.因为注释内容在源代码展现又不会影响页面内容,所以很多人觉得蜘蛛会抓取注释信息并参与到网页的分析排名,于是在网页加入大量的注释内容,甚至直接在注释里面堆砌关键词. 那

网页里注释的内容会被抓取吗?

很多站长都知道网页代码里面有注释代码这么个东西,其形式是,在HTML里面注释的内容出现在网页源代码,而用户浏览网页的过程中是看不到的.因为注释内容在源代码展现又不会影响页面内容,所以很多人觉得蜘蛛会抓取注释信息并参与到网页的分析排名,于是在网页加入大量的注释内容,甚至直接在注释里面堆砌关键词. 那么网页里注释的内容会被抓取吗?我们先来看看百度工程师是如何回答的: 问:注释掉的内容否会被百度抓取分析? 百度工程师:在html中的注释内容,会在正文提取环节忽略.虽然注释的代码不会被抓取,但也会造成代

python抓取最新博客内容并生成Rss

  本文给大家分享的是使用python抓取最新博客内容并生成Rss的代码,主要用到了PyRSS2Gen方法,非常的简单实用,有需要的小伙伴可以参考下. osc的rss不是全文输出的,不开心,所以就有了python抓取osc最新博客生成Rss ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 4

JS中使用mailto实现将用户在网页中输入的内容传递到本地邮件客户端_javascript技巧

背景: 想在自己的网站中有这样一个设计: 用户点击提交按钮之后,就会打开本地邮件客户端,并自动将他在输入框中输入的内容作为邮件的内容,像下面这样: mailto可以帮助实现这个功能. 简介: mailto是一种电子邮件协议,通过该协议可以创建一个指向电子邮件地址的超级链接,通过该链接可以在Internet中发送电子邮件.就像在地址栏输入一个网址会打开一个网页一样,输入mailto:name@email.com,就会打开本地邮件客户端,并将邮件发送给name@email.com. 在HTML中使用

JSP调用Java Bean在网页上动态生成柱状图

js|动态|网页|柱状图 我们经常要在网页看到一些动态更新的图片,最常见的莫过于股票的K线图,本文试图通过一个简单的实例,向大家展示如何通过JSP 调用Java Bean在网页上动态生成柱状图. 背景:本人最近在为某统计局开发项目时,涉及到在网页上动态生成图片的问题,费了一天的时间,终于搞定,为帮助大家在以后遇到同样的问题时不走弯路,现将设计思想及源代码公布出来,与大家共勉.以下代码在Windows2000成功测试通过,Web应用服务器采用Allaire公司的Jrun3.0,如有疑问,敬请联系作

求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做

问题描述 求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做 求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做 解决方案 你会什么语言就用什么语言.如果你什么语言都不会,那么也可以用什么"火车头"之类的傻瓜工具来抓取. 解决方案二: 把文档解析成一颗DOM树,获得里面所有的a标签节点,获得节点内文本节点,大部分需要都有相应的生成解析和操作DOM树的工具 解决方案三: 用正则表达式把连接全部匹配出来 什么语言都可以 解决方案四: Python 爬虫 可以

C#抓取AJAX页面的内容

原文 C#抓取AJAX页面的内容 现在的网页有相当一部分是采用了AJAX技术,所谓的AJAX技术简单一点讲就是事件驱动吧(当然这种说法可能很不全面),在你提交了URL后,服务器发给你的并不是所有是页面内容,而有一大部分是JS脚本,即用<JAVASCRIPT标签表示的,这其中有些是链接了外部的JS文件,有些是内置的JS脚本,这些脚本是在客户端加载了服务器发回来的源码后才执行的,所以不管是采用C#中的WebClient还是HttpRequest都得不到正确的结果,因为这些脚本是在服务器发送完毕后才执

timeline.js生成时间轴问题

问题描述 timeline.js生成时间轴问题 <!DOCTYPE html><html><head> <meta charset=""utf-8""/> <title>Timeline</title> <!-- The default timeline stylesheet --> <link rel=""stylesheet"" hr

JAVA/JSP学习系列之十一(简单的“抓网页”代码)

js|网页 一.前言 从一个网站上,看到一个"抓网页"的代码,觉得有点意思,但是没有提供源代码,于是,自己想写一个,其实代码比较简单的. 二.代码 <%@ page contentType="text/html;charset=gb2312"%> <% String sCurrentLine; String sTotalString; sCurrentLine=""; sTotalString=""; jav