java爬取网页内容 并写入文件

本文介绍了一个使用Java实现的基本网页爬取程序。该程序通过Socket连接指定网站,并发送HTTP GET请求来获取网页内容。获取的内容被输出到控制台并保存到本地文件中。文中涉及的技术包括Socket编程、文件操作和HTTP协议的基础应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取HTML

import java.io.*;
import java.net.*;
import java.nio.charset.StandardCharsets;
import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;

public class GetHtmlContent {
    public static void main(String[] args) throws IOException {

        File file =new File("D:\\hello","hao3.txt");
        file.createNewFile();
        wirteToFile(file);
    }

    private static void wirteToFile(File file) throws IOException {

		//输入到文件 必须写在控制台输出前面,否则只能在控制台看到内容
        FileOutputStream bos = new FileOutputStream(file);
        System.setOut(new PrintStream(bos));

        InetAddress inetAddress = InetAddress.getByName("www.hao123.com");
        System.out.println("网站地址:"+inetAddress);
        Socket s = new Socket();
        SocketAddress sa = new InetSocketAddress(inetAddress,80);
        s.connect(sa,10000);

        PrintWriter pw = new PrintWriter(new OutputStreamWriter(s.getOutputStream(),StandardCharsets.UTF_8));

        StringBuffer sb = new StringBuffer();
        sb.append("GET /index.html HTTP/1.1\r\n");
        sb.append("Host:www.hao123.com\r\n");
        sb.append("Connection:Keep-Alive\r\n");
        sb.append("\r\n");
        pw.write(sb.toString());
        pw.flush();

        BufferedReader br = new BufferedReader(new InputStreamReader(s.getInputStream(),StandardCharsets.UTF_8));
        br.lines().forEach(System.out::println);
    }


}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值