自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1003)
  • 收藏
  • 关注

原创 使用亮数据采集复杂网页数据,附详细代码

亮数据平台提供了强大的数据采集工具,比如Web Scraper IDE、亮数据浏览器、SERP API等,能够自动化地从网站上抓取所需数据,无需分析目标平台的接口,直接使用亮数据提供的方案即可安全稳定地获取数据。网络爬虫是一种常见的数据采集技术,与屏幕抓取不同,屏幕抓取只复制屏幕上显示的像素,网络爬虫提取的是底层的HTML代码,以及存储在数据库中的数据。你可以使用Python编写爬虫代码实现数据采集,也可以使用自动化爬虫工具,这些工具对爬虫代码进行了封装,你只需要配置下参数,就可以自动进行爬虫。

2025-12-15 21:12:52 136

原创 我常用的7个数据采集工具,适合新手爬虫

它提供了自动网站解锁功能,能够应对动态加载、验证码、IP限制等各种反爬虫机制,而且支持如Puppeteer、Playwright和Selenium等多种爬虫工具,在亮数据内置的无界面浏览器上进行数据的采集,成功率非常高。不管是文本、图片、视频亦或表格,八爪鱼都能抓,而且它还提供了非常丰富的采集模板,比如电商、新闻、短视频等主流平台全包含,它已经帮你配置好了流程,一键可以实现爬虫。它的优势是基于Python生态,灵活性高,支持分布式爬虫和异步请求,而且有多种扩展,能满足复杂采集需求,适合做企业级爬虫部署。

2025-12-15 21:11:03 579

原创 使用Streamlit搭建Excel批处理应用,100个表格秒级拼接

Excel是工作中最常用的数据处理工具,没有之一,从技术大厂资深程序员到生产车间业务员,每天都在处理大量的Excel表格,可是很少有人真的精通Excel,连vlookup、多表拼接、格式转化这样的批处理任务都很难搞定,只能手工一个个的点击。多个Excel文件批量转为CSV格式,导入多个Excel文件,批量转化后,就会得到内容相同的CSV文件,不同的sheet会单独导出一个CSV文件。该应用会进行结构一致检查,没问题就会执行拼接,并给到结果预览,然后支持下载拼接结果,得到一张拼接好的Excel表。

2025-12-15 21:08:14 594

原创 Numpy基础20问

对0、1、2轴进行索引,如果取o轴第2个元素、1轴第0个元素、2轴第3个元素,那么索引形式就为[2,0,3]。是将二维数组转换成三维数组,参数个数代表要转换的维度,参数数字从左到右分别表示0轴、1轴、2轴的元素数量。例如,三维数组形状为(x,y,z),分别代表:0轴有x个元素、1轴有y个元素,2轴有z个元素。如果取o轴前2个元素、1轴前1个元素、2轴后2个元素,那么切片形式就为[:2,:1,-2:]。如果相同维度的数组进行运算,其shape相同,那么广播就是两个数组相同位数的元素进行运算。

2025-12-14 19:28:42 413

原创 高效的5个pandas函数,你都用过吗?

之前为大家介绍过10个高效的pandas函数,颇受欢迎,里面的每一个函数都能帮我们在数据分析过程中节省时间。比如说dataframe中某一行其中一个元素包含多个同类型的数据,若想要展开成多行进行分析,这时候explode就派上用场,而且只需一行代码,非常节省时间。index:指定是否返回df中索引字节大小,默认为True,返回的第一行即是索引的内存使用情况;object类型比较宽泛,如果可以确定为具体数据类型,则不建议用object。顾名思义,replace是用来替换df中的值,赋以新的值。

2025-12-14 19:28:04 520

原创 Python安装库太慢?配置好这个速度飞起

先来了解下pip,pip是一个非常流行的python包管理工具,在命令行中只需要输入pip install package_name,就可以自动安装第三方库。然而pip是从pypi中下载库文件的,pypi是python官方第三方库的仓库,它用的是国外的服务器,下载速度自然很慢。国内的这些镜像网站拥有非常多的开源工具,不光是pypi,你还可以在里面下载mysql、anaconda、ubuntu、nodejs等主流软件,速度杠杠的。其实这样不太方便,若想省力气,那就要永久配置镜像源,配置好后只要输入。

2025-12-14 19:27:29 295

原创 Superset,基于web的开源BI工具,github三万star

官方对Superset的介绍是: - 通过 NVD3/D3 预定义了多种可视化图表,满足大部分的数据展示功能。- 一个可扩展的、高粒度的安全模型,允许复杂的规则对谁可以访问哪些产品特征和数据集。BI工具是数据分析的得力武器,目前市场上有很多BI软件,众所周知的有Tableau、PowerBI、Qlikview、帆软等,其中大部分是收费软件或者部分功能收费。这些工具一通百通,用好一个就够了,重要的是分析思维。相比较集成好的软件,Superset是有些使用门槛的,对新手没那么友好,不过它免费呀,免费真香。

2025-12-14 19:26:56 187

原创 numba,让你的Python飞起来!

以上代码是一个python函数,用以计算numpy数组各个数值的双曲正切值,我们使用了numba装饰器,它将这个python函数编译为等效的机器代码,可以大大减少运行时间。python由于它动态解释性语言的特性,跑起代码来相比java、c++要慢很多,尤其在做科学计算的时候,十亿百亿级别的运算,让python的这种劣势更加凸显。使用numba非常简单,只需要将numba装饰器应用到python函数中,无需改动原本的python代码,numba会自动完成剩余的工作。传入numba装饰器jit,编写函数。

2025-12-12 16:39:56 298

原创 一文搞懂Python匿名函数

语法结构简单,不用使用def 函数名(参数名):这种方式定义,直接使用lambda 参数:返回值 定义即可。可以直接在使用的地方定义,如果需要修改,直接找到修改即可,方便以后代码的维护工作。也就是说,lambda用来表示匿名函数,可以传入多个参数,但只能有一个表达式。以上对匿名函数作了解释,也举了一些例子用以说明。那么,匿名函数的优点是什么呢?不用取名称,因为给函数取名是比较头疼的一件事,特别是函数比较多的时候。你也可以给匿名函数传入一个参数:​​​​​​​。暂且把def定义的函数叫作“有名函数”,

2025-12-12 16:38:16 168

原创 一文搞懂Python迭代器和生成器

从形式上来看,生成器表达式和列表推导式很像,仅仅是将列表推导式中的[]替换为(),但是两者差别挺大,生成器表达式可以说组合了迭代功能和列表解析功能。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。在Python中,这种一边循环一边计算的机制,称为生成器(Generator)。所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?但是,受到内存限制,列表容量肯定是有限的。

2025-12-11 17:48:23 653

原创 那些不为人知的优秀python可视化库

说到python可视化库,大家可能第一时间想到。matplotlib算是python比较底层的可视化库,可定制性强、图表资源丰富、简单易用、并且达到出版质量级别。除了matplotlib还有其它几十种优秀的可视化库哦!

2025-12-11 17:46:56 1022

原创 工作流引擎哪家好?

Coze是字节开发的一个商业Agent工作流系统,它不同n8n、dify,只支持在Coze线上搭建Agent工作流,企业似乎可以私有化部署,而且由于模块化设计,所以Coze足够简单。其实从热度来说,Dify基本是和n8n同样流行的AI流程工具,而且它是国内团队开发的,公司在苏州,创始人之前在腾讯做过,后来一直创业,做过不少好产品。、编程语言、数据库、云存储等,你可以搭建一套属于自己的Agent,帮你干活,而且它会思考、纠错,真正的像一个AI员工。,前两者出生就是开源的,coze是今年刚开源,从。

2025-12-09 16:23:45 708

原创 pdf如何提取表格?

是专门用来处理PDF的第三方库,完全开源和免费,它最核心的功能是提取PDF的文本和表格,支持保留段落、换行、空格的原始格式,不会像某些库那样把不同区域的文本混在一起,是我体验下来最好用的PDF处理库。虽然在Python上使用pdfplumber提取PDF文本表格并不难,但这仅限于懂Python的同学,如果你不会Python,那也是没办法用pdfplumber操作PDF,只能求助于付费软件。我突发奇想用pdfplumber搭建了个PDF文本表格提取应用,可以实现拖拉拽实现操作,不需要任何的代码。

2025-12-09 16:23:10 643

原创 现在毕业大学生数学水平能否秒高斯、黎曼、笛卡尔、庞加勒?

水平到创新中间隔着天堑,每一个在各自领域有着伟大创新的人,其水平都代表着这个领域的最高峰。同样,你会用正态分布解数学题,却不知道正态分布还有个名字叫作“高斯分布”。有人问:现在毕业大学生数学水平能否秒高斯、黎曼、笛卡尔、庞加勒?不是说你会解几个万有引力物理题,就能比牛顿厉害。人类群星闪耀时,闪耀的是天才般的创意和成就。让我想起一句话,萤虫之光岂敢与日月争辉。解题不叫物理水平,那叫习得,叫熟能生巧。第一个发现万有引力定律那才叫物理水平。还有一种积分叫作“黎曼积分”。还有一种坐标系叫作“还有一种不等式叫作“

2025-12-08 15:03:56 150

原创 MacBook为什么说最适合程序员进行编程使用呢?

以上是我用Mac下来的几点感受,但这仅代表Mac在编程开发上的优势,也包括设计、自媒体等,如果是普通场景使用电脑,比如日常办公、娱乐消遣、打游戏等,其实Windows更好用。4、Mac系统更加流畅,这和iPhone一样,哪怕是8G/256G的丐版,打开五六个IDE也不会卡,对于编程来说,卡顿或者无缘无故死机真的没法忍受。程序员很多系统都是基于Linux开发的,除了游戏开发、客户端开发之外,Mac开发的东西能无缝部署到Linux,不需要处理兼容的问题。等IDE的速度更快,其他软件也一样。

2025-12-08 15:03:22 194

原创 爬虫为什么难?一文解析数据采集奥秘

最近用到一个非常简单的高级爬虫工具,亮数据的Scraper APIs,你可以理解成一种爬虫接口,它帮你绕开了IP限制、验证码、加密等问题,无需编写任何的反爬机制处理、动态网页处理代码,后续也无需任何维护,就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。1、在云上向Tiktok发出http数据请求 2、模拟登陆、配置IP代理、动态访问、识别验证码、破解加密数据等 3、解析获取的HTML,提取重要的字段,输出为json格式。

2025-12-08 15:02:08 1740

原创 这三个爬虫工具,适合编程小白

网络爬虫是一种常见的数据采集技术,你可以从网页、 APP上抓取任何想要的公开数据,当然需要在合法前提下。爬虫使用场景也很多,比如:搜索引擎机器人爬行网站,分析其内容,然后对其进行排名,比如百度、谷歌价格比较网站,部署机器人自动获取联盟卖家网站上的价格和产品描述,比如什么值得买市场研究公司,使用爬虫从论坛和社交媒体(例如,进行情感分析)提取数据。与屏幕抓取不同,屏幕抓取只复制屏幕上显示的像素,网络爬虫提取的是底层的HTML代码,以及存储在数据库中的数据。

2025-12-08 15:01:04 1809

原创 计算机学院的学生该怎样提高自己的编程能力?

对于编程新手尤其计算机在读学生来说,提升编程能力面临三座大山,首先现在很多计算机专业学生几年下来代码量非常之少,有的都不知道是何物。要知道编程是最能体验prctice make perfect的技能之一,在前期积累的阶段,往往要大量的去刷题,才能在面试实战时显得游刃有余。其次现在中文网站好的技术文档资源非常稀缺,导致学生遇到编程难题不容易找到答案。最后对于搞编程的学生来说,光是学校里的课程设计作业还有论文是远远不够的,普遍缺乏开发项目的锤炼,不知道什么是优秀的代码和设计,这样就很难提升编程能力。

2025-12-04 23:47:23 1108

原创 Python 语言有什么奇技淫巧吗?

下面列举20个短小精炼的用法,其中既包含常规语法,又有第三方库的妙用,体现了python简单即美的编程哲学。6. 字符串拆解为键值对 比如'x=11,y=20'拆解成{'x': 42.0, 'y': 1.0}Python还有非常多的骚操作,可以高效简洁地解决问题,十行代码做的事情有时候三行代码就能搞定。另外,就是多练习,比如看到这个回答后,去搜集一些日常的脚本,把好的代码记录下来。我觉得可以考虑跟着老师学,完整走完一个课程,会比自己瞎琢磨有效率的多。15. 找出两个列表中不一样的元素。

2025-12-04 23:46:37 347

原创 为什么周围人都推荐用vscode,真的好用吗?

vscode最受欢迎的功能是它的插件库,和Python有点像,Python因为第三方库生态极为丰富好用,成为最流行的编程语言,vscode也是囊括了成千上万种插件,比如python、jupyter、C++、docker、maven等常用插件。这需要从vscode本身的特性说起,其实它设计之初是一款基于Web的代码编辑器,主打跨平台、轻量化、插件丰富,后来逐步发展成了桌面端软件,成为了集编辑器、编译器、代码调试、插件库于一体的轻量化IDE。等,安装非常简单,直接能在代码框中使用,不需要额外安装软件。

2025-12-03 17:41:53 432

原创 学习Python数据可视化,如何快速入门?

比如说Altair绘制散点图,只需要在一个函数里告诉它x、y字段用什么数据,图表标题、大小是什么就可以,而Matplotlib则需要手工去创建画布、标题、尺寸,每个元素都需要去设计,更加麻烦。,你只要提做什么就可以,Altair会自动渲染细节,不需要像matplotlib那样,要指定每个元素的步骤细节。1、交互性能好,Altair是原生支持图表交互,可以随意与图表进行交互,实现酷炫的展示。2、原生样式美观,Altair有基础的样式布局,哪怕最简单的代码也能出不错的图表。方法能实现图表交互。

2025-12-03 17:40:54 293

原创 通过 MCP 实现 AI Agent 目前有哪些最佳实践?

首先要介绍下什么是MCP,它的学名是“模型上下文协议”,你可以理解成它是连接AI大模型和外部工具的一个媒介,类似于电脑和互联网的关系,大模型原先只是封闭的大脑,有了MCP后它就连接了无数的信息、工具、数据,可以做更多的事情,比如Bright Data MCP能实现复杂网站的数据采集。总的来说,AI爬虫已经成为不可逆的趋势,完全不需要写代码处理网页,几乎零门槛,而且能很好的和一些智能体结合,做出不错的产品,比如手机的价格监测应用,运营的好也能带来不错的效果。

2025-12-03 17:39:40 1010

原创 我常用的数据采集工具,支持采集复杂网页数据

数据采集任务开始后,代码会返回一个snapshot_id,代表采集的数据会保存在亮数据的数据库里,通过特定的snapshot_id可以调用,这一般需要等待几秒钟。通过以上几个案例,你会发现API把爬虫的复杂过程打包成一个黑盒子,你只需要提交url或者关键词,它就会给你返回数据,不需要担心任何IP限制、人机验证等反爬机制。我之前用过brightdata网页抓取API,类似封装好的数据采集流水线,能自动处理各种反爬技术,或许能支持油管的大数据采集,而且不需要花时间去维。2、进行数据管理,调用数据快照。

2025-12-01 20:42:19 1906

原创 我把pdfplumber整成了可以拖拉拽的web软件

pdfplumber是专门用来处理PDF的第三方库,完全开源和免费,它最核心的功能是提取PDF的文本和表格,支持保留段落、换行、空格的原始格式,不会像某些库那样把不同区域的文本混在一起,是我体验下来最好用的PDF处理库。前几天我发了一篇文章《从PDF中提取Excel,这个工具真的好用》,受到很多的关注和评论,方法是用Python的开源库pdfplumber来实现对PDF上表格和文本的提取,非常方便和快捷。点击表格功能,这个PDF所有的表格都会单独呈现出来,并可以下载Excel文件。

2025-11-30 21:08:17 983

原创 推荐6个酷炫的可视化工具,简单实用!

数据可视化是数据结果的直观展示,好的可视化图表非常具有说服力,制作可视化图表的工具多种多样,主要分为BI、Python、JS这三大类,BI代表工具有Tableau、PowerBI,Python可视化库有Seaborn、Matplotlib等,JS可视化工具有Echarts、D3等。Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。

2025-11-30 10:00:45 359

原创 说真的,你可能误会Pandas了

pandas是基于numpy数组来计算的,其实本身有优势,处理小批量数据集(百万行以下,1GB以内)效率是完全可以接受的,相比其他的数据处理库其实差异不大,因为1GB以内的容量对电脑内存的占用并不大,且单核处理起来也不吃力,这时候Pandas的速度和便捷性综合优势能发挥到最大。所以可以用pandas自带的分块加载(chunksize)的方式,将大文件分为n个小文件,分批去读取并处理,这样可以把几GB的大文件拆解成N个几十M的小文件,pandas处理起来就毫无压力。如何优化Pandas的速度呢?

2025-11-30 09:59:56 379

原创 没错,最强的Python编辑器还是它

我觉得如果想做 你python 数据科学、算法开发、大模型应用等,并且喜欢各种新奇的开源工具、三方插件,Vscode 也是不二选择,因为Vscode 本身是个百宝箱,靠各种插件的合作开发有趣的项目,比如你能在 vscode 中很好的使用 notebook 来写代码、玩数据。如果你想开发大型的python项目,比如web网站搭建、GUI开发等,建议用pycharm专业版,因为它的功能足够完备,从编码、调试、部署、协作都有很专业的支持,而且系统效率高,代码索引和补全延迟更低。

2025-11-30 09:59:06 280

原创 万物皆可markdown,这个Python库绝了~

我一直用都用markdown写自媒体技术文章,它不像word或者富媒体编辑器,格式以来固定的编辑工具,markdown是一次编写,格式永久保存,在任何markdown编辑器都可以渲染成统一格式。markitdown是Python的一个第三方库,它的优势在于非常轻量化,而且api简单,在将其他文档内容转换为markdown格式的同时,还能保留文档格式,比如表格、标题、链接之类。先来讲讲markdown,这可以是当今非常火的工具,它是一种轻量标记语言,专门用于编写文档,它使用标记符号代表文档格式,比如。

2025-11-30 09:58:26 447

原创 有可能你误会Python了~

python就像是万能钥匙,擅长的不擅长的都能做,因为它兼容各种技术栈和编程语言,比如它擅长数据科学,就涌现了大批NB的数据处理包,它不擅长编写大型软件,但有pyqt这样的移植框架,它不擅长GPU运算,但CUDA直接提供cuPython,因为python足够兼容。这需要从两个方面去分析,首先AI项目的核心工作是数据处理、算法验证、调参优化,其实对对速度和稳定性的要求并没有那么严苛,其次Python并不是你想象的那样怂,记住任何一种被市场认可的产品和技术,一定有它的不可替代性价值,

2025-11-30 09:57:55 310

原创 我常用的低代码爬虫利器-八爪鱼,不比Python差~

八爪鱼则是完全图形化操作的工具,非常的简单,它有大量的爬虫模板,支持数据类型比较丰富,应用场景更多,从网页登陆到批量获取到数据清洗都有一整套的自动化流程,会更加适合大多数人的数据抓取需求,比如IT工程师、自媒体从业者、商铺管理者、商业分析师等等。不管是文本、图片、视频亦或表格,八爪鱼都能抓,而且它还提供了非常丰富的采集模板,比如电商、新闻、短视频等主流平台全包含,它已经帮你配置好了流程,一键可以实现爬虫。对于其他抖音抓取任务,比如抖音主页爬虫,可以看看相关教程,还是蛮详细的。大家可以找个简单的案例去试试。

2025-11-30 09:57:22 426

原创 python自动化办公太难?学这些就够用了

相信爬虫是大家最感兴趣的,python 爬虫有很多的实现库,比如:urllib、requests、scrapy 等,以及 xpath、beautifulsoup 等解析库。python 处理邮件也是极其便利的,smtplib、imaplib、email 三个库配合使用,实现邮件编写、发送、接收、读取等一系列自动化操作,省时省力。自动化办公无非是 excel、ppt、word、邮件、文件处理、数据分析处理、爬虫这些,这次我就来理一理 python 自动化办公的那些知识点。如果一个个手工操作,那真的心累。

2025-11-27 17:55:45 447

原创 “刚大四,三年鸿蒙开发经验”

这个周末,已经工作近十年的我参加了”鸿蒙生态学堂校园行“活动,地点在华为上海练秋湖研发中心,一个既像科技小镇又像江南水乡的“现代社区”,唯独不像是上班的地方。本以为这个活动只是给学生们科普下鸿蒙系统的发展历史,没想到学生里卧虎藏龙,还没毕业就有了三年鸿蒙开发经验,在会场大秀自己的开发的APP,让我好生羡慕,我在大学时只会用C语言写个走马灯。

2025-11-27 17:54:55 432

原创 聊天就能生成RPA自动化流程,这款工作流软件比n8n更好用?

就在前不久,我参观了一家专门做直播获客卖车的企业,它们有一个流程设计吸引到我,通过直播留资来的意向用户会被自动拉进企微群,群里有专门的客服机器人发送车型信息、咨询,回复购车政策等问题,并定时总结客户信息回传到数据库,7*24小时不停业,这中间完全不需要人来参与,极大的提升了运营效率。现在普遍降本增效的大环境下,RPA绝对是企业和个人自媒体提升运营效率的一大利器,而且随着八爪鱼RPA AI生成功能的出现,任何技术小白都可以运用好RPA,让我想起一句话:不用担心你的工作会被AI取代,但被会用AI的人取代。

2025-11-26 11:26:33 327

原创 为什么我不愿意用Anaconda了?

我记得从我开始读本科接触Python开始,就一直被各种博客灌输Anaconda省事、方便的思想,所以每次Anaconda更新我都会第一时间去更新,但近几年我发现网上对Anaconda的意见增多,不少小伙伴开始自己配置Python了,或者改用miniconda。我理解热度消退有3方面原因,首先Anaconda对数据科学很友好,但对于其他Python应用场景并不是最佳选择,更多人会使用原生python+pip+venv,去搭配自己的开发环境。这是Anaconda的优势,也是它的劣势。

2025-11-26 11:25:47 370

原创 Vscode宝藏插件Cline,AI编程实测~

Cline是一款VsCode上的AI编程插件,功能类似于Cursor、Claude Code,能支持连接DeepSeek、ChatGPT、Gemini等各类大模型,还可以部署MCP服务,算是功能齐全、最受欢迎的AI编程工具之一。前几天我测试在Cline中测试新出来的MiniMax M2模型,来制作图表和搭建可视化看板,既用了matplotlib,还用到HTML+CSS前端技术,效果有点超乎意料,做起来也很简单。总的来说,AI编程已经在慢慢渗透你的工作,不管拥抱还是拒绝,最终它都会扑面而来。

2025-11-26 11:24:37 467

原创 又一低代码爬虫利器,适合采集油管数据

数据采集任务开始后,代码会返回一个snapshot_id,代表采集的数据会保存在亮数据的数据库里,通过特定的snapshot_id可以调用,这一般需要等待几秒钟。通过以上几个案例,你会发现API把爬虫的复杂过程打包成一个黑盒子,你只需要提交url或者关键词,它就会给你返回数据,不需要担心任何IP限制、人机验证等反爬机制。我之前用过brightdata网页抓取API,类似封装好的数据采集流水线,能自动处理各种反爬技术,或许能支持Youtube的大数据采集,而且不需要花时间去维。

2025-11-26 10:02:29 1498

原创 采集网页数据必备的6个爬虫工具

亮数据平台提供了强大的数据采集工具,比如Web Scraper IDE、亮数据浏览器、SERP API等,能够自动化地从网站上抓取所需数据,无需分析目标平台的接口,直接使用亮数据提供的方案即可安全稳定地获取数据。Data Miner是一款简单易用的网页数据挖掘工具,专注于深度数据抓取,提供多任务管理和自动化处理功能,以满足用户全面的数据采集需求。Scrapy是一个基于Python的开源爬虫框架,以其强大的扩展性、灵活性和活跃的社区支持,成为开发者进行复杂网页数据采集的首选工具。

2025-11-24 23:44:51 2064

原创 推荐一个低代码爬虫工具,适合采集复杂网页

这里的snapshot id先不用管,你发送数据请求后爬下来的数据就会临时存储到亮数据平台上,然后会生成一个snapshot id(用于下载数据),接着你可以通过snapshot id再提取你想要的数据,snapshot id是唯一的,不用担心数据丢失。Scraper APIs是亮数据专门为批量采集数据而开发的接口,支持上百个网站,200多个专门API采集器,例如Linkedin的职位、公司、人员数据采集器,Tiktok的商品、短视频数据采集器,当然这些数据都是公开可抓取的,不会涉及任何隐私安全问题。

2025-11-24 23:39:58 1444

原创 为什么周围人都推荐用vscode,真的好用吗?

vscode最受欢迎的功能是它的插件库,和Python有点像,Python因为第三方库生态极为丰富好用,成为最流行的编程语言,vscode也是囊括了成千上万种插件,比如python、jupyter、C++、docker、maven等常用插件。这需要从vscode本身的特性说起,其实它设计之初是一款基于Web的代码编辑器,主打跨平台、轻量化、插件丰富,后来逐步发展成了桌面端软件,成为了集编辑器、编译器、代码调试、插件库于一体的轻量化IDE。等,安装非常简单,直接能在代码框中使用,不需要额外安装软件。

2025-11-23 20:51:41 277

原创 数据分析为什么常用Jupyter而不是直接使用Python脚本或Excel?

Jupyter主要是用来做数据科学,其包含数据分析、数据可视化、机器学习、深度学习、机器人等等,任何Python数据科学第三方库都能在Jupyter上得到很好的应用和支持。其实它是集编程、笔记、数据分析、机器学习、可视化、教学演示、交互协作等于一体的超级web应用,而且支持python、R、Julia、Scala等超40种语言。在产品上,Jupyter不仅有简洁的Notebook ,还有工作台式的Lab,甚至线上平台化部署的Hub,对个人、团队、企业都可以完美支持。6、课堂编程相关的内容展示、实验。

2025-11-23 20:50:15 453

100个Github Python项目

整理了100个在Github上热门的Python项目,包含数据科学、web应用、游戏、可视化、机器学习、自动化等等

2024-04-22

16个matplotlib绘图技巧

包含了Python Matplotlib库可视化绘图的各种技巧,如标题、文本、注释、坐标轴、图例、颜色等等

2024-04-22

60个Numpy函数和方法解析

Python第三方库Numpy的函数和方法解析

2024-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除