java爬取网页内容并写入文件

最新推荐文章于 2021-09-29 10:01:29 发布

csdn099

最新推荐文章于 2021-09-29 10:01:29 发布

阅读量681

点赞数

文章标签： java

本文链接：https://blog.csdn.net/csdn099/article/details/110950791

版权

本文介绍了一个使用Java实现的基本网页爬取程序。该程序通过Socket连接指定网站，并发送HTTP GET请求来获取网页内容。获取的内容被输出到控制台并保存到本地文件中。文中涉及的技术包括Socket编程、文件操作和HTTP协议的基础应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬取HTML

import java.io.*;
import java.net.*;
import java.nio.charset.StandardCharsets;
import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;

public class GetHtmlContent {
    public static void main(String[] args) throws IOException {

        File file =new File("D:\\hello","hao3.txt");
        file.createNewFile();
        wirteToFile(file);
    }

    private static void wirteToFile(File file) throws IOException {

		//输入到文件 必须写在控制台输出前面，否则只能在控制台看到内容
        FileOutputStream bos = new FileOutputStream(file);
        System.setOut(new PrintStream(bos));

        InetAddress inetAddress = InetAddress.getByName("www.hao123.com");
        System.out.println("网站地址："+inetAddress);
        Socket s = new Socket();
        SocketAddress sa = new InetSocketAddress(inetAddress,80);
        s.connect(sa,10000);

        PrintWriter pw = new PrintWriter(new OutputStreamWriter(s.getOutputStream(),StandardCharsets.UTF_8));

        StringBuffer sb = new StringBuffer();
        sb.append("GET /index.html HTTP/1.1\r\n");
        sb.append("Host:www.hao123.com\r\n");
        sb.append("Connection:Keep-Alive\r\n");
        sb.append("\r\n");
        pw.write(sb.toString());
        pw.flush();

        BufferedReader br = new BufferedReader(new InputStreamReader(s.getInputStream(),StandardCharsets.UTF_8));
        br.lines().forEach(System.out::println);
    }


}