htmlunit配合jsoup获取动态页面-WCP免费开源知识管理系统

2104

查询码: 00000211

htmlunit配合jsoup获取动态页面

来源:https://blog.csdn.net/lilianggui/article/details/102539226

作者: 系统管理员于 2020年03月08日 发布在分类 / 技术研发 / 爬虫技术 ,于 2020年03月08日编辑

htmlunit webclient 页面阅读阅读数读数使用来自网页博客

本文链接：https://blog.csdn.net/lilianggui/article/details/102539226

jsoup只能解析静态的html页面，如果页面由js动态生成的，jsoup就无从下手了，使用htmlunit可以获取js运行后的页面，还可以模拟浏览器点击页面上的元素等，非常强大，本文介绍htmlunit的简单使用。步骤如下：

1、引入依赖

<dependency>
  <groupId>net.sourceforge.htmlunit</groupId>
  <artifactId>htmlunit</artifactId>
  <version>2.36.0</version>
</dependency>

<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.12.1</version>
</dependency>

2、我们爬取自己画的页面，先画一个简单的页面，页面中id为content的div原来的内容为hello，页面加载之后，内容变成<div>HtmlUnit好强大</div>，访问一下该页面可以看到结果

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <title>Title</title>
</head>
<body>

  <h1>HtmlUnit简单使用</h1>

  <div id="content">
    hello
  </div>

</body>

<script>
  document.getElementById("content").innerHTML = "<div>HtmlUnit好强大</div>";
</script>

</html>

3、编写测试类，先使用jsoup直接爬取，看content中的内容是啥，我们打印一下，可以看到是hello

@Test
public void testJsoup() throws IOException {
  Document document = Jsoup.connect("http://localhost:8080/index.html").get();
  System.out.println(document.getElementById("content").html());
}

4、使用htmlunit之后看结果

@Test
public void test() {
  final WebClient webClient = new WebClient(BrowserVersion.CHROME);

  webClient.getOptions().setThrowExceptionOnScriptError(false);
  webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
  webClient.getOptions().setActiveXNative(false);
  webClient.getOptions().setCssEnabled(false);
  webClient.getOptions().setJavaScriptEnabled(true);
  webClient.setAjaxController(new NicelyResynchronizingAjaxController());

  HtmlPage page = null;
  try {
    page = webClient.getPage("http://localhost:8080/index.html");
  } catch (Exception e) {
    e.printStackTrace();
  }finally {
    webClient.close();
  }

  webClient.waitForBackgroundJavaScript(30000);

  String pageXml = page.asXml();
  Document document = Jsoup.parse(pageXml);//获取html文档
  System.out.println(document.getElementById("content").html());

}

可以看到是js运行之后的内容，和浏览器看到的结果一致

综合
评分

0.0分

0人参与

备注	修改日期	修改人
创建版本	2020-03-08 16:47:58[当前版本]	系统管理员

附件类型	PNG
7b268c1e1fab4e179eda11f582cf6326.png(39561.0b) 9f0f0071625b408e8a8e7bee4971c646.png(49225.0b) a521280a98814e0294e01ba5fd81b53a.png(312008.0b)

[Title]