news 2026/1/10 23:54:14

Java爬虫——爬虫入门,零基础小白到精通,收藏这篇就够了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Java爬虫——爬虫入门,零基础小白到精通,收藏这篇就够了
  • 爬虫框架介绍
    • Heritrix
      • 优势
      • 劣势
      • 简单demo地址
    • crawler4j
      • 优势
      • 劣势
      • 简单demo地址
    • WebMagic
      • 优势
      • 劣势
      • 简单demo地址
  • 快速入门
    • seimicrawler
    • 项目地址
    • 简单爬虫实现
      • 导入项目
      • 编写爬虫
      • 启动爬虫
  • 同系列文章

爬虫框架介绍

java爬虫框架非常多,比如较早的有Heritrix,轻量级的crawler4j,还有现在最火的WebMagic。
他们各有各的优势和劣势,我这里顺便简单介绍一下吧。

Heritrix

优势

java的第一批爬虫框架,拥有独立的后台页面,可以实现界面操作去爬去网页。

劣势

相对其他框架,代码相对臃肿,上手难度较高,解析网页不如其他框架灵活。

简单demo地址

https://github.com/a252937166/Heritrix

crawler4j

优势

代码相当轻量级,可实现多线程爬取,上手难度低。

劣势

封装程度太低,很多功能需要开发者自己封装实现,多线程下,很容易重复爬取相同资源。

简单demo地址

https://github.com/a252937166/crawler4j

WebMagic

优势

这框架我们公司在用,各方面都比较完美吧,上手难度低,社区活跃度也较高,有问题可以得到及时反馈。

劣势

没有持久层框架的封装,需要自己实现。

简单demo地址

这个框架我没有自己的demo,大家可以去开发者的GitHub看看
https://github.com/code4craft/webmagic

快速入门

seimicrawler

我这里推荐使用seimicrawler,个人感觉这个框架配合JsoupXpath,解析网页真心非常方便,而且框架整合了spring,用起来也很顺手。

项目地址

中文官网地址:http://seimicrawler.org/
官方Github地址:https://github.com/zhegexiaohuozi/SeimiCrawler
自己修改项目地址:https://github.com/a252937166/seimicrawler/

简单爬虫实现

导入项目

下载源码,解压后把demo目录的文件单独拿出来,project目录不用管,里面是这个框架的一些源码,demo直接maven依赖它就可以了。
以maven的形式,导入demo,等待jar拉取玩,项目不报错就说明导入成功了。

编写爬虫

打开crawlers文件夹,里面每个文件都是一个爬虫,我们可以学习一下Basic,这是开发者写的最简单的爬虫demo,其他的都可以以此内推。

package com.ouyang.crawlers; import cn.wanghaomiao.seimi.annotation.Crawler; import cn.wanghaomiao.seimi.def.BaseSeimiCrawler; import cn.wanghaomiao.seimi.struct.Request; import cn.wanghaomiao.seimi.struct.Response; import cn.wanghaomiao.xpath.model.JXDocument; import java.util.HashMap; import java.util.List; import java.util.Map; /** * @author 汪浩淼 [et.tw@163.com] * @since 2015/10/21. */ @Crawler(name = "basic") public class Basic extends BaseSeimiCrawler { @Override public String[] startUrls() { //两个是测试去重的 return new String[]{"http://www.cnblogs.com/","http://www.cnblogs.com/"}; } @Override public void start(Response response) { JXDocument doc = response.document(); try { List<Object> urls = doc.sel("//a[@class='titlelnk']/@href"); logger.info("{}", urls.size()); Map map = new HashMap(); map.put("ddd","aaa"); for (Object s:urls){ push(new Request(s.toString(),"getTitle").setParams(map)); } } catch (Exception e) { e.printStackTrace(); } } public void getTitle(Response response){ JXDocument doc = response.document(); try { logger.info("url:{} {}", response.getUrl(), doc.sel("//h1[@class='postTitle']/a/text()|//a[@id='cb_post_title_url']/text()")); //do something } catch (Exception e) { e.printStackTrace(); } } }

我来解释一下,response.document()表示把网页返回信息解析为一个JXDocument类,JXDocument支持JsoupXpath语法,比如//a[@class='titlelnk']/@href,表示从网页根目录下,查找<a class='titlelnk'></>,并获取其href的值。具体语法可以见http://www.w3school.com.cn/xpath/xpath_syntax.asp。

爬虫需要实现的具体业务,在start()方法里实现就行了,想要继续爬取新的网页,用push()实现,push()会新开启一个线程,push(new Request(s.toString(),"getTitle").setParams(map),表示爬取s.toString(),这个网页,并且回调getTitle()方法。

@Crawler(name = "basic")表示爬虫名字。

启动爬虫

可以写一个main函数,new一个Semi()对象,调用其goRun()方法机型了。

public class Boot { public static void main(String[] args){ Seimi s = new Seimi(); s.goRun("basic"); } }

以上代码就表示启动basic爬虫,运行main函数就开始爬取网页了。

图(1)

同系列文章

java爬虫系列(二)——爬取动态网页
java爬虫系列(三)——漫画网站爬取实战
java爬虫系列(四)——动态网页爬虫升级版
java爬虫系列(五)——今日头条文章爬虫实战

根据最近的行业调研和招聘数据,AI的发展确实对Java工程师提出了新挑战,但也带来了明确的转型机遇。其现状可概括为:市场分化明显,初级岗位收缩,但“Java+AI”的复合型人才需求正在崛起。

🛠️ 给Java工程师的转型行动建议

转变核心角色定位

  • 目标应从“业务代码实现者”转向 “智能系统构建者” 或 “AI与业务的中枢架构师” 。这意味着你的核心价值在于设计能容纳AI能力的系统、确保其稳定高效运行,并深刻理解业务以找到AI的最佳落地场景

构建“Java + AI”双技能栈:

  • 巩固Java深度:深入JVM性能调优、分布式系统设计,这是你区别于纯AI算法工程师的基石。

  • 学习AI应用层技术:不必从零开始研究算法。优先学习如何使用AI工具和框架,例如:

    Prompt Engineering(提示词工程):高效驱动大模型的关键技能。

    AI应用框架:学习 LangChain4J、Spring AI 等,掌握在Java中集成和调度AI模型的方法。

    向量数据库:了解Milvus等,这是构建AI语义搜索、推荐系统的基础。

从“用AI辅助编程”开始实践

  • 立即在日常工作中使用GitHub Copilot等工具,亲身体验其如何改变工作流。同时,警惕过度依赖,将节约出的时间用于更高层的设计和优化工作。

选择垂直领域深耕

  • 将你的Java经验与某个行业(如金融、医疗、工业物联网)结合,成为既懂行业业务又懂AI落地解决方案的专家,这会形成强大的竞争壁垒。

因此捕获AI,掌握技术是关键,让AI成为我们最便利的工具.

一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。

即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!

如何学习AGI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享**

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始,按照什么顺序学习,以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的核心原理,关键技术,以及大模型应用场景;通过理论原理结合多个项目实战,从提示工程基础到提示工程进阶,掌握Prompt提示工程。

L2级别:AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3级别:大模型Agent应用架构进阶实践

L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体;同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别:大模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调;并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握;而L3 L4更多的是通过项目实战来掌握大模型的应用开发,针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

三、大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

四、大模型项目实战

学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。


因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/3 20:59:23

NumPy 2.0升级危机:如何快速解决PyEMD兼容性问题

NumPy 2.0升级危机&#xff1a;如何快速解决PyEMD兼容性问题 【免费下载链接】PyEMD Python implementation of Empirical Mode Decompoisition (EMD) method 项目地址: https://gitcode.com/gh_mirrors/py/PyEMD 当您满怀期待地升级到NumPy 2.0&#xff0c;准备体验最新…

作者头像 李华
网站建设 2025/12/18 14:58:19

MediaPipe模型评估终极指南:从理论到实践的完整解析

MediaPipe模型评估终极指南&#xff1a;从理论到实践的完整解析 【免费下载链接】mediapipe Cross-platform, customizable ML solutions for live and streaming media. 项目地址: https://gitcode.com/gh_mirrors/me/mediapipe 在机器学习模型性能优化的过程中&#x…

作者头像 李华
网站建设 2026/1/9 17:07:18

MCP DP-420图Agent性能极限挑战(从卡顿到毫秒级响应的逆袭之路)

第一章&#xff1a;MCP DP-420图Agent性能挑战的背景与意义在现代分布式系统架构中&#xff0c;图Agent作为处理复杂关系数据的核心组件&#xff0c;其性能直接影响整体系统的响应能力与可扩展性。MCP DP-420作为一种高并发场景下的典型图计算平台&#xff0c;面临着海量节点与…

作者头像 李华
网站建设 2026/1/10 18:21:16

ET框架深度解析:重塑Unity游戏服务器开发新范式

ET框架深度解析&#xff1a;重塑Unity游戏服务器开发新范式 【免费下载链接】ET Unity3D 客户端和 C# 服务器框架。 项目地址: https://gitcode.com/GitHub_Trending/et/ET 在当今游戏开发领域&#xff0c;ET框架以其独特的双端架构设计理念&#xff0c;为Unity开发者提…

作者头像 李华