当前位置: 首页 > news >正文

1242. 多线程网页爬虫

1242. 多线程网页爬虫

题目描述

给你一个初始地址 startUrl 和一个 HTML 解析器接口 HtmlParser,请你实现一个 多线程的网页爬虫,用于获取与 startUrl 有 相同主机名 的所有链接。 

以 任意 顺序返回爬虫获取的路径。

爬虫应该遵循:

  • 从 startUrl 开始
  • 调用 HtmlParser.getUrls(url) 从指定网页路径获得的所有路径。
  • 不要抓取相同的链接两次。
  • 仅浏览与 startUrl 相同主机名 的链接。

如上图所示,主机名是 example.org 。简单起见,你可以假设所有链接都采用 http 协议,并且没有指定 端口号。举个例子,链接 http://leetcode.com/problems 和链接 http://leetcode.com/contest 属于同一个 主机名, 而 http://example.org/test 与 http://example.com/abc 并不属于同一个 主机名

HtmlParser 的接口定义如下:

interface HtmlParser {// Return a list of all urls from a webpage of given url.// This is a blocking call, that means it will do HTTP request and return when this request is finished.public List<String> getUrls(String url);
}

注意一点,getUrls(String url) 模拟执行一个HTTP的请求。 你可以将它当做一个阻塞式的方法,直到请求结束。 getUrls(String url) 保证会在 15ms 内返回所有的路径。 单线程的方案会超过时间限制,你能用多线程方案做的更好吗?

对于问题所需的功能,下面提供了两个例子。为了方便自定义测试,你可以声明三个变量 urlsedges 和 startUrl。但要注意你只能在代码中访问 startUrl,并不能直接访问 urls 和 edges

 

拓展问题:

  1. 假设我们要要抓取 10000 个节点和 10 亿个路径。并且在每个节点部署相同的的软件。软件可以发现所有的节点。我们必须尽可能减少机器之间的通讯,并确保每个节点负载均衡。你将如何设计这个网页爬虫?
  2. 如果有一个节点发生故障不工作该怎么办?
  3. 如何确认爬虫任务已经完成?

 

示例 1:

输入:
urls = [
  "http://news.yahoo.com",
  "http://news.yahoo.com/news",
  "http://news.yahoo.com/news/topics/",
  "http://news.google.com",
  "http://news.yahoo.com/us"
]
edges = [[2,0],[2,1],[3,2],[3,1],[0,4]]
startUrl = "http://news.yahoo.com/news/topics/"
输出:[
  "http://news.yahoo.com",
  "http://news.yahoo.com/news",
  "http://news.yahoo.com/news/topics/",
  "http://news.yahoo.com/us"
]

示例 2:

输入:
urls = [
  "http://news.yahoo.com",
  "http://news.yahoo.com/news",
  "http://news.yahoo.com/news/topics/",
  "http://news.google.com"
]
edges = [[0,2],[2,1],[3,2],[3,1],[3,0]]
startUrl = "http://news.google.com"
输出:["http://news.google.com"]
解释:startUrl 链接与其他页面不共享一个主机名。

 

提示:

  • 1 <= urls.length <= 1000
  • 1 <= urls[i].length <= 300
  • startUrl 是 urls 中的一个。
  • 主机名的长度必须为 1 到 63 个字符(包括点 . 在内),只能包含从 “a” 到 “z” 的 ASCII 字母和 “0” 到 “9” 的数字,以及中划线 “-”。
  • 主机名开头和结尾不能是中划线 “-”。
  • 参考资料:https://en.wikipedia.org/wiki/Hostname#Restrictions_on_valid_hostnames
  • 你可以假设路径都是不重复的。

解法

java

// This is the HtmlParser’s API interface.
// You should not implement it, or speculate about its implementation.
interface HtmlParser {// Return a list of all URLs from a webpage of given url.// This is a blocking call (e.g., simulates an HTTP request).List<String> getUrls(String url);
}public class Solution {public List<String> crawl(String startUrl, HtmlParser htmlParser) {// 提取起始 URL 的主机名 (hostname) 部分String hostName = getHostName(startUrl);// 用线程安全的 Set 来记录已访问的 URLSet<String> visited = ConcurrentHashMap.newKeySet();// 启动线程池。可以视题目规模选择线程数,这里假定固定线程池大小。ExecutorService executor = Executors.newFixedThreadPool(64);// 添加起始 URLvisited.add(startUrl);// 启动递归式或任务提交式爬取crawlHelper(startUrl, htmlParser, hostName, visited, executor);// 等待线程池任务完成executor.shutdown();try {// 等待一定时间或直到全部任务完成executor.awaitTermination(10, TimeUnit.MINUTES);} catch (InterruptedException e) {Thread.currentThread().interrupt();}// 返回结果return new ArrayList<>(visited);}private void crawlHelper(String url, HtmlParser htmlParser,String hostName, Set<String> visited,ExecutorService executor) {// 提交一个任务去获取 url 的所有子链接executor.submit(() -> {// 获取当前 url 的所有链接List<String> nextUrls = htmlParser.getUrls(url);for (String next : nextUrls) {// 只爬取 **同一个主机名** 的 URL,且未访问过if (getHostName(next).equals(hostName) && visited.add(next)) {// 如果加入 visited 成功,说明是第一次遇到// 继续递归爬取crawlHelper(next, htmlParser, hostName, visited, executor);}}});}private String getHostName(String url) {// 假定 url 以 "http://" 开头,无端口号// 例如 "http://news.yahoo.com/news" → 主机名 "news.yahoo.com"int idx = url.indexOf('/', 7);  // “http://” 长度为7return (idx == -1) ? url.substring(7) : url.substring(7, idx);}
}

Java

import java.util.*;
import java.util.concurrent.*;
import java.util.stream.Collectors;// 题目提供的接口
interface HtmlParser {public List<String> getUrls(String url);
}public class Solution {public List<String> crawl(String startUrl, HtmlParser htmlParser) {// 提取起始 URL 的 hostnameString hostName = getHostName(startUrl);// 线程安全的已访问 URL 集合Set<String> visited = ConcurrentHashMap.newKeySet();visited.add(startUrl);// 自定义线程池(比默认 ForkJoinPool 更可控)ExecutorService executor = Executors.newFixedThreadPool(64);// 启动异步任务CompletableFuture<Void> future = crawlAsync(startUrl, htmlParser, hostName, visited, executor);// 等待所有任务完成future.join();executor.shutdown();// 返回结果return new ArrayList<>(visited);}private CompletableFuture<Void> crawlAsync(String url,HtmlParser htmlParser,String hostName,Set<String> visited,ExecutorService executor) {// 用 supplyAsync 异步获取链接return CompletableFuture.supplyAsync(() -> htmlParser.getUrls(url), executor).thenCompose(urls -> {// 对子 URL 启动异步任务List<CompletableFuture<Void>> futures = new ArrayList<>();for (String next : urls) {// 只处理同一域名的且未访问过的 URLif (getHostName(next).equals(hostName) && visited.add(next)) {futures.add(crawlAsync(next, htmlParser, hostName, visited, executor));}}// allOf 等待所有子任务完成return CompletableFuture.allOf(futures.toArray(new CompletableFuture[0]));});}private String getHostName(String url) {// 假设 URL 以 "http://" 开头int idx = url.indexOf('/', 7);return idx == -1 ? url.substring(7) : url.substring(7, idx);}
}

...


http://www.hskmm.com/?act=detail&tid=35966

相关文章:

  • 使用SpringBoot + Thymeleaf + MyBatisPlus实现一个简单的书籍管理系统-demo2
  • 2025年深圳离婚律所电话推荐:家理福田诺德中心婚姻家事专线
  • 2025年超声波清洗机厂家电话推荐:广东洁泰超声设备有限公司
  • CentOS7源码安装erlang26没有默认安装JIT模块
  • 2025年超声波清洗机厂家电话推荐:广东洁泰设备技术沉淀深
  • 2025年AI优化公司电话推荐:十家可验证团队直连方式汇总
  • 2025年润滑油厂家权威推荐榜:工业润滑油,汽车润滑油,发动机润滑油,甲醇发动机润滑油,全合成润滑油,长效发动机润滑油品牌深度解析
  • 软件工程结对项目-小学四则运算题目生成与判题程序
  • 2025年上海装修公司电话推荐:极家与俞润本土双选参考
  • 2025上海装修公司电话推荐:极家与俞润实测对比。
  • 教科书上令人触动的话
  • 生日
  • 2025 年防淹门源头厂家最新推荐排行榜权威发布,含地铁 / 防洪 / 地下通道专用款,15 项专利 + 央视报道品牌领衔
  • 2025年防静电/劳保/国网/餐厅/工厂/电工/防酸碱/电力/车间/航空/员工广告衫,文化衫/t恤/polo衫/冲锋衣厂家推荐排行榜
  • 一文带你掌握Visual Studio中集成的git功能
  • 【往届已检索!稳定检索】2025年第二届人工智能、数字媒体技术与交互设计国际学术会议(ICADI 2025)
  • 苹果最折腾的功能!iPhone快捷指令分享
  • 单提交智能评审上线!用云效精准定位复杂 MR 代码问题
  • GitLab小坑:remote: GitLab: You are not allowed to create protected branches on this project.
  • ubuntu安装nvidia驱动 - Leonardo
  • 2025 年少儿英语品牌口碑排行榜最新发布:欧美外教 + 原版教材甄选,含最新推荐及靠谱选择指南
  • 2025年滑石粉厂家推荐排行榜,纳米级滑石粉,工业级滑石粉,黑色滑石粉,高白滑石粉,化妆品级滑石粉,食品级滑石粉,表面改性滑石粉,大片径比滑石粉,低收缩率滑石粉,高填充母粒滑石粉
  • 自动化智能体与测试用例生成
  • 设置某些网站不走代理
  • 2025 年试验箱厂家最新推荐排行榜:涵盖高低温 / 恒温恒湿 / 冷热冲击等设备,精选实力厂商助力企业选购
  • 2025年除尘设备厂家权威推荐榜:除尘器,脉冲除尘器,中央脉冲除尘器,工业除尘器源头企业综合测评与选购指南
  • 2025 年国内充电桩厂家最新推荐排行榜:技术、安全与服务全方位对比的优质供应商优选榜单
  • 2025年最新游戏机和游艺机的屏幕驱动方案(含音乐播放和功放芯片)
  • 2025 年最新推荐!国内加工厂家排行榜:含车铣复合 / 精密零件 / CNC 车床等领域优质企业
  • spring是怎么解决循环依赖的?