自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据知道的博客

有任何问题欢迎私聊博主。

  • 博客(1718)
  • 资源 (5)
  • 收藏
  • 关注

原创 《Python Web项目集锦》-专栏介绍和目录

本专栏专注于Python Web项目,涉及内容包含FastAPI、Django、Flask等,所有项目代码完整且可直接运行。不管是零基础还是有经验的开发,相信都能从本专栏获益。有任何问题欢迎私聊博主,专栏持续更新中...

2025-11-25 12:27:41 2776 1

原创 《100天Go语言从入门到精通系列》-专栏介绍和目录

本专栏专注于Go语言基础到进阶,从项目实战到源码分析的系统讲解,逐步深入实际应用场景到Go语言的高级特性,轻松学会用Go语言解决各种实际问题。不管是零基础还是有经验的开发,相信都能从本专栏获益。持续更新中...

2025-11-04 07:20:53 4479 3

原创 《备考系统分析师》 - 专栏介绍和目录

本专栏提供软考高级系统分析师全套备考资料,包含四大核心内容:1.详细考点梳理(覆盖基础知识、关键技术、案例实践三大模块16个章节);2.历年真题及解析(2009-2022年所有真题含综合知识、案例分析和论文);3.100+篇高质量论文范文;4.预测模拟题。早鸟价仅需9.9元,可节约80%资料搜集时间,帮助考生高效备考、顺利通过考试。专栏持续更新,有问题可随时联系作者。

2025-09-08 19:24:28 6859 2

原创 《机器翻译60天修炼》 - 专栏介绍和目录

本文系统介绍了从零基础到精通机器翻译的学习路径,共分为六章的课程。第一章讲解机器翻译基础概念、语言学知识和评价标准;第二章介绍统计机器翻译(SMT)模型与技术;第三章深入神经网络与词向量技术;第四章讲解神经机器翻译(NMT)的基础架构;第五章探讨NMT进阶模型与训练技巧;第六章介绍预训练模型应用及主流翻译工具。课程涵盖从传统SMT到现代NMT的完整知识体系,包括注意力机制、Transformer等关键技术,并提供Python代码实现,帮助读者全面掌握机器翻译理论与实战技能。

2025-08-19 20:05:57 7254 4

原创 《Python3案例和总结》-专栏介绍和目录

本专栏专注于Python基础和进阶的系统讲解,逐步深入实际应用场景到python高级特性,让你轻松学会用Python解决各种实际问题。不管是零基础还是有经验的开发,相信都能从本专栏获益。

2025-03-17 19:28:36 13728 1

原创 《爬虫和逆向教程》 - 专栏介绍和目录

本专栏为爬虫初学者和进阶开发者量身定制的爬虫和逆向学习园地。为你提供全面而深入的爬虫和逆向技术指导,从入门到精通,从基础理论到高级实战,助你在数据的海洋中畅游,挖掘出有价值的信息。通过本专栏的学习,你将具备独立开发和优化爬虫程序的能力,及逆向分析能力和项目开发能力,成为爬虫领域的佼佼者。

2025-02-28 20:26:59 17099 6

原创 《备考信息系统项目管理师》 - 专栏介绍和目录

本专栏会持续详细梳理软考高级信息系统项目管理师(高项)的考点、所有历年真题(包括综合知识、案例分析、论文)等,有论文专项,预测模拟题等内容。需要的可以先订阅下哦。

2024-12-12 22:10:22 17739 2

原创 《备考系统架构设计师》 - 专栏介绍和目录

本专栏包括所有历年真题及详解、章节知识核心总结、精选高分论文、补充知识、专题总结等。欢迎订阅专栏。

2024-06-05 15:00:09 34341 39

原创 MongoDB Shell 工具全面对比:mongosh 和 mongo

mongosh是MongoDB官方推出的新一代命令行工具,自5.0版本起取代旧版mongo shell。相比传统mongo,mongosh基于Node.js/V8引擎,支持ES2021+语法、异步操作、智能补全和语法高亮,显著提升开发体验。安装方式上,mongosh支持跨平台独立安装,与MongoDB版本解耦。虽然基础操作命令完全兼容,但mongosh新增了await异步、性能监控等高级功能,并改进了配置文件和错误处理机制。官方建议所有新项目使用mongosh,旧项目尽快迁移以获得更好的功能支持和维

2026-01-05 18:20:16 776

原创 一文掌握 MongoDB 详细安装与配置(Windows / Linux / macOS 全平台)

本文详细介绍了MongoDB社区版7.0+在Windows、Linux和macOS三大操作系统上的完整安装、配置与安全加固流程。主要内容包括:各平台推荐安装方式(Windows使用MSI安装包、Linux通过官方仓库、macOS通过Homebrew)、基本配置参数说明、服务启动方法以及关键安全措施(如创建管理员用户和启用身份验证)。文章还提供了系统最低要求、下载地址、数据目录设置建议以及生产环境使用注意事项,适合开发、测试及生产环境部署参考。

2026-01-05 17:32:30 406 1

原创 Flask项目:从零到一搭建一个仿百度的搜索系统

本文介绍了一个基于Flask框架开发的仿百度搜索项目。该项目通过Flask路由处理GET和POST请求,使用request.form获取用户输入的关键词,并渲染美观的百度风格界面。后端预置了包含网站、标题和简介的数据列表,支持对"FastAPI"、"Python"等关键词的模拟搜索。项目结构清晰,包含后端main.py和前端index.html两部分代码,可作为Python Web开发的入门实践案例。

2026-01-04 18:24:28 98 2

原创 FastAPI项目:从零到一搭建一个仿百度的搜索系统

本文介绍了一个基于FastAPI构建的仿百度搜索项目,具有以下特点:1)高度还原百度经典界面设计,采用Flexbox实现响应式布局;2)使用Jinja2模板引擎实现单页切换首页与搜索结果页;3)内置模拟数据库支持关键词搜索,包含空结果处理;4)提供完整前后端代码结构(FastAPI后端+HTML/CSS前端)。项目可作为Python Web开发学习案例,后续可扩展接入真实数据库或第三方搜索API。

2026-01-04 15:45:54 74

原创 反爬虫: WebAssembly反爬详解,并设计一个对应的反爬的网站(.wasm文件处理)

本文介绍了WebAssembly(Wasm)在反爬虫中的应用原理及实现方法。Wasm通过将关键逻辑(如签名生成、加密参数)编译为低可读性的字节码,提高逆向难度,有效防御自动化爬虫。文章以FastAPI构建的新闻网站为例,演示了Wasm模块的C语言实现、编译流程及前后端交互设计。服务端通过验证时间戳和签名确保请求合法性,而前端调用Wasm生成的token实现反爬。最终强调算法复现是破解关键,并建议结合HMAC-SHA256等增强安全性。 (字数:149)

2026-01-02 10:07:52 676 1

原创 反爬虫:机器人点选验证反爬详解,并设计一个带机器人点选验证的网站

本文介绍了一种基于FastAPI实现的机器人点选验证反爬机制。该验证系统通过要求用户按特定顺序点击数字(1→2→3→4)来区分人机操作,同时记录点击时间间隔等行为特征防止自动化破解。后端实现包含会话管理、行为分析、动态令牌生成等安全机制,并配合前端Canvas绘制验证界面。案例提供了完整的爬虫模拟方案,展示了如何绕过这种验证机制。该教程适合学习现代反爬技术和爬虫对抗策略的开发人员。

2026-01-02 08:48:13 554

原创 反爬虫:Cookie验证反爬详解,并设计一个带Cookie验证的网站

Cookie验证反爬实现方案 本文介绍了基于Cookie验证的反爬机制及其在FastAPI新闻网站中的实现。Cookie验证通过服务器生成唯一会话标识(Session ID)或验证Token,要求客户端在后续请求中携带有效Cookie才能访问资源。这种机制可有效区分真实用户和简单爬虫。 实现要点 后端生成加密Token:使用时间戳+随机字符串生成SHA256哈希作为访问令牌 严格验证机制:服务器只接受已记录的合法Token 前端集成:通过AJAX请求验证Cookie有效性 安全措施:设置HttpOnly、S

2026-01-01 21:42:40 510 1

原创 反爬虫:滑块验证码反爬详解,并设计一个带滑块验证码的网站

本文介绍了滑块验证码的反爬机制及实现方案。滑块验证码通过视觉识别、行为轨迹分析和加密参数等多层防御对抗爬虫,核心是将人机验证从静态内容转向动态行为分析。文章详细阐述了滑块验证码的工作原理、设计目的(如高用户体验、强抗自动化)及反爬建议。随后展示了一个基于FastAPI的新闻网站实现,其中前端通过Canvas动态生成滑块图片,后端验证轨迹合理性并发放访问Token。该方案无需外部图片文件,通过行为特征(如加速度、耗时)判断是否为人工操作,有效提升了反爬能力。完整代码结构包含FastAPI后端和HTML前端模板

2026-01-01 08:00:00 583

原创 反爬虫:浏览器指纹验证反爬详解,并设计一个带指纹验证的网站

本文介绍了浏览器指纹验证反爬原理及实现方法。浏览器指纹通过采集User-Agent、屏幕分辨率、Canvas渲染等多项特征生成唯一标识,可有效识别爬虫请求。文章分析了常见指纹采集维度(如时区、语言、WebGL等)及验证逻辑,并给出指纹反爬建议。随后展示了基于FastAPI的新闻网站实现方案,包含后端指纹验证逻辑(校验字段完整性、生成哈希token)和前端页面设计。该方案通过多维特征组合和一致性校验,能有效区分真实用户与自动化工具请求。

2025-12-31 13:01:54 670 1

原创 反爬虫:OB混淆反爬机制详解,并设计一个带OB混淆的网站

本文介绍了OB混淆反爬技术及其实现方法。OB混淆通过对HTML内容进行编码、加密或打乱顺序来阻止爬虫直接获取数据。文章详细讲解了常见的混淆形式,如Unicode编码、Base64编码、CSS偏移和JS动态解密等,并分析了其设计目的和反爬建议。随后,作者通过一个FastAPI新闻网站案例,展示了如何实现带OB混淆的反爬系统,包括后端混淆处理(自定义Base64映射)和前端JS动态解密渲染的完整代码。该方案能有效阻挡90%的简单爬虫,但建议结合其他防护措施构建多层防御体系。

2025-12-31 12:58:23 678 1

原创 FastAPI 安全机制详解

FastAPI安全机制实践指南 本文详细介绍了FastAPI的安全机制设计与实现方案。主要内容包括: 安全机制概述:基于OAuth2、JWT和依赖注入,遵循标准协议优先、最小权限等原则 认证方式实现: 基础认证(HTTP Basic Auth) Token认证(HTTP Bearer) 推荐的JWT认证方案 安全实践: 使用bcrypt哈希密码 JWT令牌设置合理过期时间 严格CORS限制 强制HTTPS 完善的输入验证 代码示例: 提供了完整的基础认证和JWT认证实现代码 包含用户模型、密码哈希、令牌生成

2025-12-30 19:15:00 292 1

原创 反爬虫:行为分析反爬原理,并设计一个基于行为分析的网站

行为分析反爬是一种基于用户交互行为模式来识别和区分真实用户与自动化程序(爬虫)的技术。其核心思想是:人类用户的行为具有随机性、不规则性和上下文相关性,而自动化程序的行为通常具有规律性、可预测性和缺乏上下文理解。主要检测维度包括:

2025-12-30 18:45:00 759

原创 逆向工具:一文讲述 Ghidra 的详细使用

Ghidra是由NSA开源的一款功能强大的逆向工程框架,支持多平台、多架构和多种文件格式分析。本文详细介绍了Ghidra的核心优势、安装配置方法、主界面功能模块,并通过一个CrackMe示例演示了完整的逆向分析流程。文章还讲解了高级功能如交叉引用、控制流图分析、数据类型重建和脚本自动化等,最后提供了常见文件格式的分析技巧。作为IDA Pro的免费替代方案,Ghidra适合个人学习、教学和中小项目使用。(149字)

2025-12-29 18:18:53 519 1

原创 反爬虫:IP限流反爬机制原理,并设计一个带IP限流的网站

本文介绍了IP限流反爬机制的原理与实现,通过FastAPI构建了一个带IP限流的新闻网站示例。IP限流通过监控客户端IP的请求频率(如每分钟5次)来防御爬虫攻击,使用固定窗口算法记录请求次数,超限返回429状态码。技术实现包括获取真实IP、Redis/内存存储计数、滑动/固定窗口选择,并分析了其防护目标和局限性(如NAT误伤)。项目提供了完整的Python代码(含IP提取、限流逻辑)和HTML前端,演示了如何结合反爬策略保护API接口。攻防升级建议涉及分布式限流和代理池应对方案。

2025-12-29 08:00:00 802 1

原创 Go 语言自动化浏览器库:Rod 详解

Rod是一个基于Chrome DevTools Protocol (CDP)的Go语言浏览器自动化库,以简洁高效著称。它无需依赖Selenium,直接与Chrome通信,支持链式API、自动等待、并发安全等特性,适用于爬虫、测试和RPA场景。相比Playwright/Puppeteer,Rod在Go生态中性能更优,资源占用更低。核心功能包括元素操作、反检测(绕过人机验证)、请求拦截、文件上传和弹窗处理。通过示例代码展示了基本使用、高并发操作和实战案例,适合构建高效稳定的自动化程序。安装简单,仅需Go和Chr

2025-12-28 18:27:16 337 1

原创 PostgreSQL 的开源扩展:高效存储和检索向量数据的 PGVector 的详细使用

PGVector是PostgreSQL的开源扩展,支持高效存储和检索高维向量数据,适用于语义搜索、推荐系统等场景。它提供多种距离度量(L2、点积、余弦相似度)和索引类型(IVFFlat、HNSW),能与PostgreSQL无缝集成。安装可通过Docker或源码编译,Python操作推荐使用psycopg2或SQLAlchemy。数据量小时可直接搜索,大数据需创建IVFFlat或HNSW索引优化性能。PGVector特别适合需要同时处理结构化数据和非结构化向量数据的应用,如新闻检索系统。

2025-12-28 18:07:34 1161 1

原创 反爬虫:POST 请求参数中 Sign 的加密机制详解,并设计带 Sign 校验的网站

本文介绍了API请求中sign签名的生成原理及实现方法。sign是通过对请求参数加密生成的一串字符串,用于验证请求合法性,防止参数篡改、重放攻击和伪造请求。其生成步骤包括参数排序、拼接字符串、加盐和哈希加密。文章还演示了如何在FastAPI后端实现带sign验证的新闻网站,包括参数校验、时间戳验证和签名比对等安全措施,有效提升API安全性,增加爬虫逆向难度。

2025-12-28 09:24:01 756

原创 反爬虫:对抗最新反爬技术 Cloudflare详解

本文针对Cloudflare最新反爬机制提供完整解决方案,覆盖TLS指纹、行为轨迹、设备指纹等检测场景。文章首先分析Cloudflare的三重检测体系(TLS指纹、行为指纹、设备指纹)及其拦截表现,随后提出四种绕过方案:1)使用curl_cffi模拟浏览器TLS指纹;2)通过undetected-chromedriver移除自动化特征;3)Playwright结合stealth插件模拟人类行为;4)动态请求调度策略。重点推荐轻量级Python方案curl_cffi和浏览器自动化方案Playwright-st

2025-12-28 08:00:00 843

原创 反爬虫:请求头中 Token 的反爬机制详解,并设计带 Token 校验的网站

Token反爬机制通过动态生成的加密令牌提高爬虫攻击门槛,其核心原理包括:服务端密钥、动态参数(如时间戳)和加密算法(如MD5、SHA-256)的组合。常见Token生成方式包括前端JS动态计算、服务端签发(Session/JWT)和基于用户行为的验证。该设计通过接口不可预测性、时效性控制和环境检测(如浏览器特征)有效阻止直接API调用,需配合逆向分析JS代码才能破解。示例演示了FastAPI实现的Token验证新闻网站,后端生成时效性MD5 Token,前端通过AJAX携带Token获取数据,非法请求将被

2025-12-27 17:31:42 1127 1

原创 反爬虫:请求头中 Referer 的反爬机制详解,并设计带 Referer 校验的网站

本文详细解析了HTTP请求头中Referer字段的反爬机制及应对策略。Referer用于标识请求来源,网站通过校验Referer实现反爬,包括来源白名单、禁止空Referer、路径校验和防盗链等策略。文章提供了4种绕过方法:伪造Referer、模拟跳转链路、使用浏览器自动化和代理页面。同时指导如何设计更严格的Referer反爬系统,如结合其他字段校验、动态Referer等。最后通过FastAPI示例演示了带Referer校验的新闻网站实现,包含后端验证逻辑和前端页面代码,展示了完整的反爬与反反爬技

2025-12-27 16:23:29 1022

原创 爬虫管理:一文掌握Crawlab的详细使用

Crawlab是一个基于Go+Vue开发的分布式爬虫管理平台,支持Python、Node.js、Java等多种语言编写的爬虫脚本。它提供Web UI可视化界面、任务调度、日志监控、结果存储等企业级功能,解决传统爬虫管理混乱的问题。核心特性包括多语言支持、分布式架构、定时任务和API驱动等。安装方式推荐使用Docker Compose一键部署,也可源码安装。用户通过Web界面创建项目并上传爬虫脚本,系统会自动解析JSON格式的输出结果并存入MongoDB。典型使用场景包括统一管理分散的爬虫脚本、实现多人协作和

2025-12-24 20:16:20 801

原创 Go爬虫:一文掌握分布式爬虫框架Pholcus

Pholcus是一款基于Go语言的高并发分布式网络爬虫框架,专为大规模数据采集设计。核心优势包括纯GUI/WEB控制、原生热加载支持、单机/分布式一键切换,以及完善的Web管理界面。架构清晰,分为Spider、Scheduler、Downloader和Pipeline四大模块,支持动态规则配置和多种输出格式。与Scrapy、Colly等框架相比,Pholcus在产品形态、WebUI集成和分布式支持方面表现突出。安装简单,提供从源码编译和预编译版本两种方式,并通过结构体标签或JSON定义爬取规则,实现配置化开

2025-12-24 19:40:43 1083 1

原创 一文掌握向量数据库Chroma的详细使用

Chroma是一个轻量级、开源的向量数据库,专为AI应用设计,具有开发者友好、快速集成等特点。它支持RAG、语义搜索、推荐系统等场景,可与LlamaIndex、LangChain等框架配合使用。主要优势包括极简部署、本地数据存储、多模态支持、元数据过滤和开源免费。核心概念包括Client、Collection、Document等数据结构。Chroma适合个人项目或中小规模应用,但不支持分布式集群。安装简单,通过Python API即可快速实现向量存储与检索。进阶功能支持自定义嵌入模型、高级查询过滤和数据处理

2025-12-23 20:07:08 1154 1

原创 机器翻译:详细讲述如何从零到一构建一个中英互译的翻译引擎

本文介绍了从零开始构建中英机器翻译引擎的关键步骤,重点探讨了语料获取和模型训练两大核心环节。文章首先分析了自建翻译引擎的优势,包括学习研究、数据隐私、领域专业化和完全控制权。在语料获取部分,推荐了OPUS、WMT等公开数据集,并提供了Python代码示例展示如何下载Tatoeba语料库。模型训练方面,对比了RNN/LSTM和Transformer架构,强烈推荐使用Hugging Face生态微调预训练的MarianMT模型,并详细说明了训练流程,包括数据预处理、模型配置和训练参数设置。通过这套方法,读者可以

2025-12-23 11:37:40 724 1

原创 为什么要用向量数据库?常用的向量数据库有哪些以及如何选择?

向量数据库:语义搜索的智能引擎 向量数据库专为解决传统数据库的“语义鸿沟”问题而生,通过存储高维向量(Embedding)并支持高效相似性搜索,实现语义理解。核心优势包括: 语义匹配:将文本、图像等非结构化数据转化为向量,计算相似度(如“苹果手机”≈“水果手机”)。 高效检索:采用近似最近邻(ANN)算法(如HNSW)快速查询,避免传统数据库的暴力计算瓶颈。 主流向量数据库对比: Pinecone:云托管服务,适合快速开发RAG应用。 Milvus:开源高性能,支持海量数据,企业级首选。 Weaviate:

2025-12-22 19:32:38 1427 1

原创 Python生态中最快的PostgreSQL异步驱动:asyncpg的详细使用

摘要 本文介绍了高性能异步PostgreSQL驱动asyncpg的核心特性和使用方法。文章首先对比了同步模型(psycopg2)和异步模型(asyncpg)在处理高并发请求时的差异,指出asyncpg通过事件循环机制能更高效地利用CPU资源。asyncpg具有直接与PostgreSQL二进制协议通信、API友好、功能完备等优势。文章详细讲解了asyncpg的安装、连接建立(包括连接池使用)、查询执行方法(fetchrow/fetch/fetchval/execute)以及事务处理方式。此外,还提供了批量操作

2025-12-22 19:07:01 621 1

原创 异步文件存储:全面掌握 aiofiles 库的详细使用

本文介绍了异步文件操作库aiofiles的核心功能与应用场景。aiofiles通过线程池封装解决了Python异步编程中文件I/O阻塞事件循环的问题,使爬虫程序在文件读写时仍能保持高性能。文章详细讲解了aiofiles的安装方法、基础API(包括异步读写、文件迭代等操作),并提供了一个结合httpx实现的异步文件下载器实战案例。该方案采用流式传输和并发控制,有效避免了内存爆炸问题,适用于图片、视频等大文件的并发下载场景。文中还给出了参数配置、错误处理等实用建议。

2025-12-20 14:39:17 518 1

原创 爬虫面试:异步爬虫的面试问题及参考答案汇总大全(22个经典的面试问题)

本文介绍了Python异步编程的核心概念及其在爬虫中的应用。主要内容包括:1)异步与同步编程的区别,强调异步通过非阻塞I/O提升效率;2)Python异步实现机制,包括事件循环、async/await关键字及协程原理;3)异步爬虫技术要点,如专用HTTP库(httpx/aiohttp)的选择、Session管理、并发控制(gather/create_task)等;4)针对CPU密集型任务的解决方案(run_in_executor);5)常见异步模式的优势分析,特别指出协程相比线程在I/O密集型场景

2025-12-20 13:50:17 1477 1

原创 Python设计模式:抽象工厂模式详解

本文介绍了抽象工厂模式的设计思想与应用场景。抽象工厂模式提供一个接口用于创建一系列相关或相互依赖的对象(产品族),而不需指定具体类。其核心思想是处理产品族的创建,如不同风格的UI组件或跨平台数据库连接。文章通过UML图展示了抽象工厂、具体工厂、抽象产品和具体产品四个核心角色,并分析了该模式的优缺点:优点包括确保产品兼容性、解耦客户端与具体产品;缺点则是扩展性差和类数量爆炸。典型应用场景包括跨平台UI工具包和数据库访问层。最后通过Python代码示例展示了如何实现跨平台数据库连接,并比较了抽象工厂模式与工厂方

2025-12-19 17:45:31 569 1

原创 从零到一构建一个AI回答监控爬虫系统

本文介绍了一个完整的AI回答监控爬虫系统设计方案。系统由任务调度器、爬虫执行器、数据解析器和数据存储器四大核心组件构成,采用APScheduler/Celery、Playwright/Requests、Pydantic/BeautifulSoup和PostgreSQL等技术栈实现。文章详细阐述了系统架构、技术选型、实现步骤和后续维护要点,包括反爬虫对抗策略、健壮性保障措施以及系统扩展方案。该系统可用于持续监控多个AI引擎的问答数据,为GEO逆向分析和优化策略制定提供数据支持。

2025-12-19 17:26:28 1732

原创 用Docker从零到一部署Python爬虫案例

Docker部署爬虫实践 本文介绍了一个基于Docker的豆瓣图书Top250爬虫项目。主要内容包括: 项目结构:创建了包含爬虫代码、依赖文件和Docker配置的标准项目目录。 爬虫实现:使用requests和BeautifulSoup抓取图书信息并保存为CSV文件。 Docker化:通过Dockerfile定义镜像构建过程,包含Python环境配置、依赖安装和代码部署。 数据持久化:使用数据卷将爬取结果保存到宿主机,避免容器删除后数据丢失。 运行方式:提供两种运行方案 - 直接使用docker run命令

2025-12-19 17:13:02 1113

原创 GEO的工作原理,以及GEO会催生出更多的爬虫岗位吗?

摘要: GEO(生成式引擎优化)是提升内容在AI搜索(如ChatGPT、Perplexity等)中引用率的新策略,核心在于优化内容的可抓取性、语义清晰度、权威性。与传统SEO不同,GEO聚焦AI的引用逻辑,需通过爬虫监控AI回答、逆向分析引用源特征(如结构化数据、权威背书),并构建自动化工具优化内容。爬虫工程师需转型为“AI可见性基础设施构建者”,重点关注高权威站点、知识库及官方信息源,同时确保技术可抓取性(如放行AI爬虫UA)。GEO的核心是从“排名”转向“被AI引用”,强调实体识别与动态对话适配。

2025-12-19 16:23:31 1461

MySQL的100个经典面试题(包括答案详解)

MySQL的100个经典面试题(包括答案详解) 总结很全面!!!

2023-06-10

用python3实现个人博客系统,脚本可以直接运行 (所用技术:Flask、TinyDB)

用python3实现个人博客系统,脚本可以直接运行。 所用技术:Flask、TinyDB。 系统架构主要分为4大模块功能:系统设置(常用功能放在系统设置文件中)、后台管理(前台和后台分离),登录认证管理(只有合法的用户才能登录系统),博客展示(在前台页面上显示博客信息)。

2023-06-13

用python3实现在线商城系统,脚本可以直接运行

用python3实现在线商城系统,脚本可以直接运行。 Django+Mezzanine+Cartridge实现。

2023-06-10

用python3实现AI人脸识别签到打卡系统(压缩包中源码可直接运行)

所用技术:PyQt5 + OpenCV + Python3 + SQLite3 + 百度智能云。 项目中使用Qt Deisigner实现主窗口界面,可以导出签到打卡信息。运行主文件 main.py 即可调试运行。

2023-06-13

用Panda3D开发3D枪战类游戏源码,脚本可以直接运行

用Panda3D开发3D枪战类游戏源码,脚本可以直接运行。 功能包括:开始动画、穿戴商店、关卡设计、场景切换、运动控制、对战特效。包括音效、地图实现,包括实现HUD模块。

2023-06-13

用python3实现民宿信息可视化系统

所用技术:Django + Echarts + scrapy爬虫(破解字体加密) + MySQL。 压缩包包括数据文件,采集脚本,可视化脚本,代码可以直接运行。

2023-06-13

用python3实现在线生鲜商城系统,脚本可以直接运行

所用技术:Django + Vue + 支付宝接口 内容包括:数据库设计、使用Resful API、登录认证、支付宝支付。包括前端脚本和后端脚本,代码可以直接运行。

2023-06-13

C++ Primer Plus 第五版 中文版课后习题答案详解

C++ Primer Plus 第五版 中文版课后习题答案详解。 高质量答案,结果可供参考。

2023-06-10

程序员-数据采集简历模板,可以在简历中进行修改

程序员-数据采集简历模板,可以在简历中根据自己的技能进行修改,便是一份好的简历。 程序员-优秀的数据采集简历模板

2023-06-10

用python3实现招聘信息实时数据分析系统,包括数据文件、爬虫文件、部署文件等

用python3实现招聘信息实时数据分析系统,包括数据文件、爬虫文件、部署文件等 技术用到:网络爬虫 + Flask + Highcharts + MySQL 脚本可以直接运行。

2023-06-10

用python3实现房产价格数据可视化分析系统(包括采集房产的脚本、数据可视化脚本)

用python3实现房产价格数据可视化分析系统(包括采集房产的脚本、数据可视化脚本) 数据存储到MySQL,压缩包里包括数据文件 网络爬虫 + MySQL + pylab 实现

2023-06-10

用python3实现基于深度学习的AI人脸识别系统,脚本可以直接运行(包括源码文件、数据文件)

用python3实现基于深度学习的AI人脸识别系统,脚本可以直接运行(包括源码文件、数据文件) 用到技术:Flask + OpenCV-Python + Keras + Sklearn 压缩包中包括:照片样本采集源码、深度学习和训练源码、人脸识别相关源码、Flask实现人脸识别接口等。 通过浏览器上传图片,或者打开摄像头即可识别。

2023-06-10

用python3实现人机对战五子棋游戏源码(代码可直接运行)

用python3实现人机对战五子棋游戏源码,AI+pygame版本 代码有六百多行, 代码可直接运行。

2023-06-10

用python3实现动态验证码,脚本可以直接运行

用python3实现动态验证码,脚本可以直接运行。 脚本中可以直接指定验证码的长度。 用到了tkinter模块和random模块。

2023-06-08

用python3实现图形验证码,代码可以直接运行

用python3实现图形验证码,代码可以直接运行。 脚本中用到tkinter模块。

2023-06-08

用python3实现轻松背单词程序,代码可直接运行

用python3实现轻松背单词程序,代码可直接运行。 脚本中用到: tkinter模块,可以自定义预置和切换单词,单词复制到里面的txt文本里即可。

2023-06-08

炫酷时钟动态案例,web浏览器打开index.html即可看到动态效果

炫酷时钟案例,web浏览器打开index.html即可看到动态效果。效果可以参考博客:https://cuiyonghua.blog.csdn.net/article/details/131019027 。 年月日时分秒分不同的颜色,不断旋转。

2023-06-03

python3实现带界面的计算器源码

python3实现带界面的计算器源码,代码可直接运行

2021-08-04

python3实现学生管理系统源码

python3实现学生管理系统源码,用到tkinker,数据存到MySQL,代码可以直接运行

2021-08-04

python3实现动态时钟界面的源码

python3实现动态时钟界面的源码,可直接运行

2021-08-04

python3实现俄罗斯方块的源码

python3实现俄罗斯方块的源码,可直接运行

2021-08-04

python3实现的贪吃蛇游戏源码

python3实现的贪吃蛇游戏源码,可直接运行

2021-08-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除