网页爬虫 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签网页爬虫

#网页爬虫

Go Colly框架高阶技巧：如何在中间件中无缝切换代理IP

jackcode 7小时前2026-04-01 14:35:07

老板突然丢来一个紧急需求，要求两小时内抓取某竞品网站的几万条突发活动数据。这种时候，没时间搞什么微服务、分布式架构，你需要的是拔剑就战、即插即用的代码片段。

500

爬虫踩坑实录：OkHttp 接入爬虫代理报 Too many tunnel connections attempted 深度解析

jackcode 2天前2026-03-30 16:22:30

在编写复杂的网络爬虫时，使用高质量的动态隧道代理来应对目标网站的风控是不可或缺的环节。然而，很多开发者在使用 Java 的网络请求霸主 OkHttp 配合 HT...

5810

基于渐进式网页应用的钓鱼攻击机理与防御研究——针对18亿Gmail用户新型诈骗案的分析

芦笛

中国互联网络信息中心｜工程师 (已认证)

11天前2026-03-21 15:22:50

随着移动互联网技术的演进，网络钓鱼攻击正从传统的静态网页伪造向动态化、应用化的方向转变。2026年3月曝光的针对全球18亿Gmail用户的新型钓鱼活动，标志着攻...

31110

航空业社会工程学攻击特征分析与多维防御体系构建

芦笛

中国互联网络信息中心｜工程师 (已认证)

16天前2026-03-16 08:46:42

随着全球航空业的全面复苏与数字化服务的深度渗透，针对航空公司及旅客的网络欺诈活动呈现出爆发式增长态势。2026年近期，阿联酋航空（Emirates）发布紧急安全...

16710

拒绝龟速！PHP保姆级高性能爬虫教程：Swoole协程与爬虫代理的奇妙化学反应

jackcode 27天前2026-03-05 11:56:54

很多同学一听到写爬虫，脑海里的第一反应往往是：“得用 Python 吧？”的确，Python 在爬虫界生态极好。但如果我们本身就是 PHP 开发者，难道为了抓取...

9910

C#开发者必看：CefSharp内核配合动态代理抓取海量行情数据

jackcode 28天前2026-03-04 17:36:41

大家好！在数据为王的时代，无论是量化投资分析，还是追踪瞬息万变的科技与AI板块股票行情，获取准确、及时的海量市场数据都是第一步。

13110

从提取式API到隧道代理：提升爬虫稳定性的5个核心秘籍

jackcode 29天前2026-03-03 15:05:57

很多新手还在使用传统的API提取式代理（每隔几分钟调一次API获取几个IP，存入本地池）。这种方式维护成本极高，且IP可用性在提取的那一刻就开始衰减。正确姿...

12910

慢一点，并不会让你更安全

jackcode 2026-01-272026-01-27 15:14:08

大多数教程都会给你一个类似的示例：请求之间加个 sleep，告诉你“别爬太快，网站就不会封你”。

14710

页面没变，但解析全错了：问题到底出在哪？

jackcode 2026-01-122026-01-12 16:44:24

我们所在的团队，需要长期跟踪招聘市场的变化趋势，用于支持内部的人力规划、岗位热度分析以及区域用工结构判断。为此，我们搭建了一套持续运行的爬虫系统，定期采集主流招...

10810

网页快照不是备份，而是一种数据策略

jackcode 2026-01-062026-01-06 14:22:20

我以前也是这么想的。直到后来踩了几次坑，才意识到：网页快照不是“可选项”，而是数据系统是否成熟的分水岭。

14910

爬虫真的能“自愈”吗？说点不那么好听的实话

jackcode 2026-01-052026-01-05 10:32:48

让模型生成 XPath、CSS selector，看 demo 没问题。一到生产环境你就会发现：

13910

62万新元蒸发！新加坡“假买家”钓鱼骗局席卷二手平台，技术拆解揭示新型社工+网页组合攻击

芦笛

中国互联网络信息中心｜工程师 (已认证)

2026-01-052026-01-05 09:45:45

在Carousell上挂出一台二手MacBook，不到一小时就收到“诚意买家”的私信：“我马上付款，请点这个链接确认收款。”你满怀期待地点开——却不知自己正亲手...

21710

不写规则也能抽数据？

jackcode 2025-12-252025-12-25 14:31:05

“15-25K”“20K·14薪”“年薪 30-50 万”这些描述，如何统一量化？

22010

网络开始替你做决定，这事真的有点不对劲

jackcode 2025-12-172025-12-17 11:59:51

10410

给大模型装“眼睛”，让DeepSeek可以读网页，数眼智能上线网页解析API！

数眼智能AI 2025-12-152025-12-15 14:51:49

如今的AI仿佛无所不能：它能创作、能编程、能解答深奥问题。但当你需要它做一件看似更简单的事——理解并分析你刚打开的那个网页内容时，得到的回复却是：

88011

当数据开始“感知页面”

jackcode 2025-12-102025-12-10 10:51:40

Playwright 亿牛云代理IP 固定 User-Agent等定时任务，每 10 分钟跑一轮

17810

【专利技术】筑牢数字安全防线：高维数据的反爬虫与溯源创新（第4期）

hddata 2025-12-052025-12-05 10:30:53

网络爬虫，是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。

21910

从零到上手：用LLM打造会思考、能自愈的数据抓取

jackcode 2025-11-272025-11-27 11:10:29

很多人第一次听到“抓取”两个字，脑海里往往跳出一只在网页上爬来爬去的虫子。其实它并没有那么玄乎，它更像是一个非常勤奋的小助理：

30510

网页快照这件事，比“更新”复杂得多

jackcode 2025-11-242025-11-24 11:26:14

01｜事情是这样开始的：凌晨，我被电话吵醒了有些项目真的是越做越清醒，尤其是那种能把人从睡梦里叫醒的。几个月前，我们负责的某个政府采购网站上线了新版页面结构。按...

18810

#网页爬虫

Go Colly框架高阶技巧：如何在中间件中无缝切换代理IP

爬虫踩坑实录：OkHttp 接入爬虫代理报 Too many tunnel connections attempted 深度解析

基于渐进式网页应用的钓鱼攻击机理与防御研究——针对18亿Gmail用户新型诈骗案的分析

航空业社会工程学攻击特征分析与多维防御体系构建

拒绝龟速！PHP保姆级高性能爬虫教程：Swoole协程与爬虫代理的奇妙化学反应

C#开发者必看：CefSharp内核配合动态代理抓取海量行情数据

从提取式API到隧道代理：提升爬虫稳定性的5个核心秘籍

慢一点，并不会让你更安全

页面没变，但解析全错了：问题到底出在哪？

网页快照不是备份，而是一种数据策略

爬虫真的能“自愈”吗？说点不那么好听的实话

62万新元蒸发！新加坡“假买家”钓鱼骗局席卷二手平台，技术拆解揭示新型社工+网页组合攻击

不写规则也能抽数据？

网络开始替你做决定，这事真的有点不对劲

给大模型装“眼睛”，让DeepSeek可以读网页，数眼智能上线网页解析API！

当数据开始“感知页面”

【专利技术】筑牢数字安全防线：高维数据的反爬虫与溯源创新（第4期）

从零到上手：用LLM打造会思考、能自愈的数据抓取

网页快照这件事，比“更新”复杂得多

热门专栏

张高兴的博客

cwl_Java

kali blog

python进阶学习

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐