百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 文章教程 > 正文

AI编写的网页解析器

yund56 2025-05-12 16:42 3 浏览

五一假期时间,把节前在开发的软件肝完了,软件虽然还很青涩,但已经算是有了软件雏形,至少现在能够满足自己的数据采集的需求了。

本来做这个软件是为了做小程序的数据,小程序搁置了,先把这个软件捣鼓出来。

好了,接下来先介绍下软件的功能:

  • 自定义网页数据元素获取规则;
  • 自定义解析模板,以便于下次直接使用;
  • 对于暂时还不能在线解析的情况,可以尝试下载网页本地解析;
  • 支持多种数据导出(json/csv/excel/md);
  • 支持多种文件名的生成;

看上去好像功能不多,开发也不难,嗯,虽说不难,其实也不容易。要教会AI领会我的设计思路,的确挺费劲,特别是五一期间,我花了非常多的时间重构软件,在代码屎山里徜徉,你想,想想就刺激。

软件使用Trac作为开发工具,Python语言开发,在UI交互上花了不少心思,效果还过得去。

先来张截图截预览下


一、在线解析模块

这个模块本着傻瓜式的操作来设计的,2步操作,一选模板,二解析,完成操作。

左侧是模板列表,在模板管理中创建好的模板会在这里显示,点击一个模板后,再点击右边的绿色按钮“开始解析”,软件解析器便开始工作,直到结果呈现,如下图

二、模板管理

模板管理是软件的核心功能,用于对特定页面创建解析模板,在这里为要获取的网页数据元素定义规则,想要获取什么数据,就加入一条规则,定义好之后,进行【开始解析】按钮进行解析。

如果规则有错误或者获取不到数据,系统会提示,否则你同样可以看到在线解析模块中的同样的数据结果。

这个模块主要分为3个板块:

1、解析方式板块:分为在线解析、文件解析、代码解析。前边介绍的在线解析模块实际上就是这里的在线解析中输入的URL地址解析。文件解析主要应对在线解析不成功的情况下,我们将网页下载下来,放在本地电脑上进行解析。代码解析是HTML代码解析,一般人用不上,这里不做赘述。

2、规则设置板块

获取元素的选择器,我推荐使用XPath,至于如何获取XPath,也不难。比如我要获取如下页面红框的最新文章列表,接下来的步骤就是定位要采集数据元素,以便在网页采集器中定义规则。

1)获取网页元素

在浏览器中按F12,浏览器右侧栏会打开开发者工具,点击最左上角的图标,然后在网页中移动到需要的数据位置,此时鼠标在网页上移动时,浏览器会自动框选网页元素,在你想采集的数据上单击,就完成了定位。如下图:

选中元素后,在右侧的蓝色背景的区域单击鼠标右键,选择 复制 → 复制XPath,如图:

这样就获得了数据的XPath,我们再回到软件界面,将复制的数据填写在选择器表达器中,添加规则到规则表格,这样一条数据的规则就设计好了。

规则设置好后,点击【开始解析】,便可知设置的规则是否可用,如果获取不到数据系统会提示,如果所有规则都正确,下方结果区域会看到解析到的数据。并且可以点击右侧蓝色的导出数据按钮,选择导出文件格式。

解析成功说明你的解析规则都没问题了,记得将这个模板保存,下次就可以直接使用,不需要再操作设置规则的一系列繁琐动作了。

【保存模板】功能将配置好规则的模板保存起来,方便以后调用。

2)文件解析

当在线解析不能成功时,可以尝试将该网页保存下来,然后使用文件解析将下载下来的html文件选中,然后再【开始解析】,这样同样可以达到解析到数据的目的。

3)HTML代码解析

HTML代码解析,功能与文件解析显相似,只不过将选择文件换成了粘贴HTML代码。一般来说,使用的几率比较小。

三、设置中心

设置中心模块,用于软件的相关设置,目前只提供了极少的设置功能。功能虽少,但也很必要。

数据标题设置,决定导出数据的表头显示中文名称还是英文键名;

导出文件名设置,决定了数据导出的文件名的生成规则:

  • 同模板名,生成的数据文件名与模板名相同,再次生成会覆盖原文件。
  • 模板名+日期:是带有时间戳的文件名,不会导致文件覆盖。
  • 指定文件名:用户通过对话框输入文件名,具有更高的自主性。

四、关于AI编程

这个软件是我的一个AI编程作品,经历了太多与AI相爱相杀,总体来说,若要开发出业务逻辑较复杂的软件,AI编程的路还很长。即使如此,这也是必须要经历的一段路程。

相关推荐

七夕前学起来,程序员的浪漫:三十行代码实现用她的名字作幅画

hello,各位小伙伴们大家早上|中文|晚上|凌晨好,相信看这篇文章的有很多新朋友,估计也有少量的老朋友,首先做个简短的自我介绍,我是一灰灰,码农界的资深搬运工;今天呢,没有站在我身边的捧哏老师,那就...

127.手摇计算机的收藏(我的民间收藏笔记)

1970年代前后,我国生产的手摇计算机,主要有上海飞鱼牌和通用牌手摇计算机,天津文化牌手摇计算机。这几种手摇计算机的收藏价,目前很不统一。品相好又能使用的收藏价大概为1500—7000元。品相不好又...

计算机毕业设计Hadoop+Hive+PySpark小说推荐系统 小说可视化

基于Spark+hadoop大数据小说数据分析推荐系统(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)直拍源码包部署爬虫可用基于用户协同过滤算法开发技术介绍编辑器:Pychar...

win7系统exe病毒文件夹怎么删除

Win7系统中exe病毒文件夹如何删除?下面为大家提供解决办法,快来了解吧!1、按下Win+R快捷键,输入gpedit.msc,所示,即可打开组策略编辑器。2、依次展开计算机配置下的管理模板,进入...

Windows 10 网络搜索设计太反人类?教你如何彻底关闭它

来源:太平洋电脑网我们知道微软在Windows10中,特别加强了系统的搜索功能,但Windows10的搜索的确很难称得上好用。抛开效率低下、呈现结果少、造成系统卡顿等老生常谈的问题不论,在功能设计...

win7系统exe病毒文件夹怎么删除?

经常遇到病毒文件夹,它们通常是带有exe后缀的文件夹名称,双击后会复制病毒。今天就教大家如何删除这些病毒文件夹。1、打开开始菜单,点击运行按钮;或者按下Win+R键,即可开启运行对话框。2、运行窗...

通过代码编写电脑关机程序

大家好,我是Anyday这期给大家分享的电脑小知识是通过代码编写程序进行关机。首先在桌面右键新建一个文本文档双击打开新建文档,在里面输入shutdown–s–t0,这就是我们上一期的关机代码(聪...

可视化程序设计必备书:从零开始Qt可视化程序设计

“可视化程序设计”是理工科极为重要的一门专业课程,实践性很强。其教学目标是使学生掌握可视化程序设计的基本方法、编程技能并具备上机调试能力,熟悉界面设计,掌握各种常用类(有些开发工具称控件,实...

重要通知!25年公务员专业参考目录已出!

大家关心的2025年江苏省公务员考试消息有了!一年一度江苏省公开征求对《江苏省2025年度考试录用公务员专业参考目录》的意见和建议公告出了!各地的公务员专业参考目录其实都查不多,江苏针对今年的具体情况...

计算机二级考试中的一些注意事项

科教武汉【计算机二级考试中的一些注意事项】1、要合理安排做题时间可以先通过观察整个题目的题形,判断整个试卷的难点,通过观察题型然后确定自己的应对策。选择题建议用时15-20分钟为好。自己要有一个时间...

天津专升本计算机知识点 选定文件和文件夹

在Windows7系统中,进行选定,包括多种,考试重点内容有三种。①选定多个连续的文件或文件夹,可用Shift键配合鼠标进行选定②选定多个不连续的文件或文件夹,可用Ctrl键配合鼠标进行选定③撤销某...

最新发布!四川这些岗位急需紧缺人才

12月17日,《四川省人力资源服务业急需紧缺人才目录》发布。据介绍,《四川省人力资源服务业急需紧缺人才目录》采集600余家用人单位信息,调查整理了40余家用人单位需求,从收集的上千条岗位信息中分析出3...

最新!普通高等学校本科专业目录(2024年)!共816种本科专业

高考成绩已定,目前最重要的,就是填报高考志愿了!!!(点击查看:广西2024高考分数线、一分一档表公布!今天开始填志愿!附前3年高考分数线、一分一档表)除了要在1308所本科大学中选出自己(孩子)喜欢...

cad文件夹加密

我学计算机辅助设计,常用CAD绘制图纸并存入文件夹。有时担心关机后设计被窃,便在网上寻找解决办法,最终找到了一种加密CAD文件夹的实用方法,有效保护了我的设计成果。1、首先,我们需要安装一款保护文件...

文件夹加密大师使用方法:快速加密文件指南

不想让他人看到私密文件?以下几种隐藏文件的方法各有优缺点,快来看看哪种最适合你!1、隐藏的文件夹2、首先,右击文件夹选择属性,在常规选项卡勾选隐藏,然后点击确定。3、若文件夹为隐藏状态,打开我的...