>>分享Java编程技术,对《Java面向对象编程》等书籍提供技术支持 书籍支持  卫琴直播  品书摘要  在线测试  资源下载  联系我们
发表一个新主题 开启一个新投票 回复文章 您是本文章第 27268 个阅读者 刷新本主题
 * 贴子主题:  Java入门实用代码:网页抓取 回复文章 点赞(0)  收藏  
作者:flybird    发表时间:2020-01-21 19:25:31     消息  查看  搜索  好友  邮件  复制  引用

  

Java 实例 - 网页抓取

以下实例演示了如何使用 net.URL 类的 URL() 构造函数来抓取网页:              

Main.java 文件

import   java . io . BufferedReader ;
import   java . io . BufferedWriter ;
import   java . io . FileWriter ;
import   java . io . InputStreamReader ;
import   java . net . URL ;

public   class   Main   {
    public   static   void   main ( String [ ]   args )  
    throws   Exception   {
       URL   url  =  new   URL ( " http://www.javathinker.net " ) ;
       BufferedReader   reader  =  new   BufferedReader
       ( new   InputStreamReader ( url . openStream ( ) ) ) ;
       BufferedWriter   writer  =  new   BufferedWriter
       ( new   FileWriter ( " data.html " ) ) ;
       String   line ;
       while   ( ( line  =  reader . readLine ( ) )  !=  null )   {
          System . out . println ( line ) ;
          writer . write ( line ) ;
          writer . newLine ( ) ;
       }
       reader . close ( ) ;
       writer . close ( ) ;
    }
}

以上代码运行输出结果为(网页的源代码,存储在当前目录下的 data.html 文件中)





程序猿的技术大观园:www.javathinker.net



[这个贴子最后由 flybird 在 2020-01-26 17:22:11 重新编辑]
  Java面向对象编程-->接口
  JavaWeb开发-->Web运作原理(Ⅲ)
  JSP与Hibernate开发-->JPA API的高级用法
  Java网络编程-->对象的序列化与反序列化
  精通Spring-->计算属性和数据监听
  Vue3开发-->创建综合购物网站应用
  解决javac编译错误: 编码UTF8/GBK的不可映射字符
  Java虚拟机进行类连接的原理
  Java并发编程的总结与思考
  Java Optional 解决空指针异常总结
  面试官问:如何排除Java虚拟机的GC引起的CPU飙高?
  18 张图弄懂面试官必问的一致性哈希
  靠一个HashMap的讲解打动了头条面试官
  分布式锁的原理和实现
  java中的Static、final、Static final各种用法
  邀请您一起来祝福和祈祷,祈愿疫情早日消除,平安吉祥
  java常见的几种调用机制:同步调用,异步调用,回调
  Eclipse使用指南:工作空间(Workspace)
  Java入门实用代码:死锁及解决方法
  Java 入门实用代码:从 List列表中 截取子列表
  Java入门实用代码: 集合中添加元素
  更多...
 IPIP: 已设置保密
楼主      
1页 0条记录 当前第1
发表一个新主题 开启一个新投票 回复文章


中文版权所有: JavaThinker技术网站 Copyright 2016-2026 沪ICP备16029593号-2
荟萃Java程序员智慧的结晶,分享交流Java前沿技术。  联系我们
如有技术文章涉及侵权,请与本站管理员联系。