AI编写的网页解析器
yund56 2025-05-12 16:42 7 浏览
五一假期时间,把节前在开发的软件肝完了,软件虽然还很青涩,但已经算是有了软件雏形,至少现在能够满足自己的数据采集的需求了。
本来做这个软件是为了做小程序的数据,小程序搁置了,先把这个软件捣鼓出来。
好了,接下来先介绍下软件的功能:
- 自定义网页数据元素获取规则;
- 自定义解析模板,以便于下次直接使用;
- 对于暂时还不能在线解析的情况,可以尝试下载网页本地解析;
- 支持多种数据导出(json/csv/excel/md);
- 支持多种文件名的生成;
看上去好像功能不多,开发也不难,嗯,虽说不难,其实也不容易。要教会AI领会我的设计思路,的确挺费劲,特别是五一期间,我花了非常多的时间重构软件,在代码屎山里徜徉,你想,想想就刺激。
软件使用Trac作为开发工具,Python语言开发,在UI交互上花了不少心思,效果还过得去。
先来张截图截预览下
一、在线解析模块
这个模块本着傻瓜式的操作来设计的,2步操作,一选模板,二解析,完成操作。
左侧是模板列表,在模板管理中创建好的模板会在这里显示,点击一个模板后,再点击右边的绿色按钮“开始解析”,软件解析器便开始工作,直到结果呈现,如下图
二、模板管理
模板管理是软件的核心功能,用于对特定页面创建解析模板,在这里为要获取的网页数据元素定义规则,想要获取什么数据,就加入一条规则,定义好之后,进行【开始解析】按钮进行解析。
如果规则有错误或者获取不到数据,系统会提示,否则你同样可以看到在线解析模块中的同样的数据结果。
这个模块主要分为3个板块:
1、解析方式板块:分为在线解析、文件解析、代码解析。前边介绍的在线解析模块实际上就是这里的在线解析中输入的URL地址解析。文件解析主要应对在线解析不成功的情况下,我们将网页下载下来,放在本地电脑上进行解析。代码解析是HTML代码解析,一般人用不上,这里不做赘述。
2、规则设置板块:
获取元素的选择器,我推荐使用XPath,至于如何获取XPath,也不难。比如我要获取如下页面红框的最新文章列表,接下来的步骤就是定位要采集数据元素,以便在网页采集器中定义规则。
1)获取网页元素
在浏览器中按F12,浏览器右侧栏会打开开发者工具,点击最左上角的图标,然后在网页中移动到需要的数据位置,此时鼠标在网页上移动时,浏览器会自动框选网页元素,在你想采集的数据上单击,就完成了定位。如下图:
选中元素后,在右侧的蓝色背景的区域单击鼠标右键,选择 复制 → 复制XPath,如图:
这样就获得了数据的XPath,我们再回到软件界面,将复制的数据填写在选择器表达器中,添加规则到规则表格,这样一条数据的规则就设计好了。
规则设置好后,点击【开始解析】,便可知设置的规则是否可用,如果获取不到数据系统会提示,如果所有规则都正确,下方结果区域会看到解析到的数据。并且可以点击右侧蓝色的导出数据按钮,选择导出文件格式。
解析成功说明你的解析规则都没问题了,记得将这个模板保存,下次就可以直接使用,不需要再操作设置规则的一系列繁琐动作了。
【保存模板】功能将配置好规则的模板保存起来,方便以后调用。
2)文件解析
当在线解析不能成功时,可以尝试将该网页保存下来,然后使用文件解析将下载下来的html文件选中,然后再【开始解析】,这样同样可以达到解析到数据的目的。
3)HTML代码解析
HTML代码解析,功能与文件解析显相似,只不过将选择文件换成了粘贴HTML代码。一般来说,使用的几率比较小。
三、设置中心
设置中心模块,用于软件的相关设置,目前只提供了极少的设置功能。功能虽少,但也很必要。
数据标题设置,决定导出数据的表头显示中文名称还是英文键名;
导出文件名设置,决定了数据导出的文件名的生成规则:
- 同模板名,生成的数据文件名与模板名相同,再次生成会覆盖原文件。
- 模板名+日期:是带有时间戳的文件名,不会导致文件覆盖。
- 指定文件名:用户通过对话框输入文件名,具有更高的自主性。
四、关于AI编程
这个软件是我的一个AI编程作品,经历了太多与AI相爱相杀,总体来说,若要开发出业务逻辑较复杂的软件,AI编程的路还很长。即使如此,这也是必须要经历的一段路程。
相关推荐
- 今日起,办理游戏版号这么做就行了!真的太方便了
-
在“大众创业,万众创新”的浪潮下,我国很多创业者也看到了游戏的前景,准备在游戏行业分一杯羹。 但根据国家新闻出版广电总局颁布的《关于移动游戏出版服务管理的通知》,游戏需要通过国家新闻出版广电总局...
- 给大家推荐些好的c语言代码的网站
-
C语言,那就来推荐几个吧,部分含有C++:1、TheLinuxKernelArchives(kernel.org)Linux内核源码,仅限于C,但内核庞大,不太适合新手;2、redis(redi...
- 手游平台没有源码的三大危害
-
搭建一款属于自己的手游平台可以直接和游戏研发商对接游戏,既减少中介的差价,还能根据自己需求去选择游戏。对于玩家而言,手游平台给予了玩家更多的选择机会,对于运营者而言,借助平台可以更好地服务玩家,通过对...
- 游戏源代码开发时需要什么,需要哪些团队成员?
-
游戏由于她轻松娱乐,对战刺激,寓教于乐等特点,吸引住了一大批不一样年龄阶段的用户,例如喜爱竞技游戏的年轻群体,需要益智游戏的儿童等。游戏源代码是游戏构建的基础,尽管将开发时分成开发软件和游戏开发2个概...
- 育碧经典游戏《孤岛惊魂1》源代码遭泄露,玩家表示可以运行
-
IT之家7月3日消息,一份名为“FarCry1.34Complete”的游戏源代码已经出现在了互联网档案网站“Archive.org”上,并且在Reddit论坛和各种社交媒体上得到...
- 神秘网站倒数结束 令人一头雾水
-
还记得那个疑似小岛秀夫作品的《黑色猎犬》倒计时网站吗?现在该网站已经停止倒计时,仅剩一段话“这里原来有一个倒计时,现在没了”……点击这句话会跳转到国外网站Funhaus的一个莫名其妙的视频,然而评论的...
- LOL源代码娜美免费领取地址 LOL源代码娜美领取活动网址分享
-
[海峡网]在英雄联盟中近日国服的服务器一直不稳定,繁出现卡顿和功能错误等问题,官方现在正在努力维护,为表歉意将免费赠送给玩家一款“源代码·娜美”的皮肤,那么这个皮肤要怎么领取呢,小编相信小伙伴们一定都...
- 个人网站集成js小游戏《圈小猫》教程及源码
-
今天在某网站浏览帖子的时候,发现帖子被删除了,然后弹出了404页面,页面上集成了一个小游戏,小游戏长什么样子呢?看下面这个图!第一步查看小游戏源码,发现这个小游戏完全是由JavaScript编写的,因...
- Scratch创意编程-数学问答游戏
-
项目名称:数学问答游戏目标年龄群体:8-12岁项目简介:在这个Scratch创意编程项目中,学生们将扮演数学家,通过解答数学题目来挑战自己的数学技能。游戏中包含了加法、减法、乘法和除法等基本算术题,以...
- 少时不努力长大程序猿 酷比魔方AI百变编程套件体验测评
-
本文产品为厂家送测,坚持独立的评价观点是笔者创作的基本底线,绝不会因商品来源不同而有所偏颇,请各位放心。写在开始讲讲今天男主的故事这篇体验到的目标群体是跟我一样,家中有个在上小学二年级的小学生。首先...
- 孩子的scratch作品只能演示?教你把它三步变为电脑软件
-
随着少儿编程的发展,越来越多的家长和孩子开始投身其中。对于初学者来说,最好的编程工具就是Scratch,它是麻省理工学院的“终身幼儿园团队”开发的图形化编程工具,主要面对青少年开放。这是对孩子最好的编...
- 打地鼠小游戏制作教程
-
打地鼠这个小游戏貌似比我的年龄都要大,这次我们使用scratch3.0图形化编程软件来制作一款我们自己的“打地鼠”。我们先准备4样角色,分别是:地鼠角色、锤子角色、地洞角色、草地角色。地鼠→使用猫...
- Scratch2.0接苹果小游戏讲义整理
-
Scratch2.0接苹果小游戏概貌见动图:这又是一款经典的Scratch小游戏,是孩子们学习Scratch编程软件的良好载体,不容错过。(一)玩法说明接到慢速的红苹果一个加1分;接到中速的红苹果一个...
- 少儿编程太难?原来可以闯关玩游戏啊
-
随着编程学习全球化的趋势,国内编程学习热潮日盛,越来越多的家长开始让孩子接触学习编程。然而我们都不了解这个少儿编程是到底是什么,近年来,许多家长开始给小孩报编程学习班。最小的从幼儿园开始就在学习...
- 如何在Scratch中创建一个两人赛艇游戏
-
本分步指南将教您如何使用Scratch程序创建划船游戏。完成对这个简单游戏的编程后,两条船将使用按键命令一起竞赛。步骤1.打开Scratch。2.删除名为“Sprite1”的猫。您可以通过右键单击它...
- 一周热门
- 最近发表
- 标签列表
-
- filter函数js (37)
- filter函数excel用不了 (73)
- 商城开发 (40)
- 影视网站免费源码最新版 (57)
- 影视资源api接口 (46)
- 网站留言板代码大全 (56)
- java版软件下载 (52)
- java教材电子课本下载 (48)
- 0基础编程从什么开始学 (50)
- java是用来干嘛的 (51)
- it入门应该学什么 (55)
- java线上课程 (55)
- 学java的软件叫什么软件 (38)
- 程序开发软件有哪些 (53)
- 软件培训 (59)
- 机器人编程代码大全 (50)
- 少儿编程教程免费 (45)
- 新代系统编程教学 (61)
- 共创世界编程网站 (38)
- 亲测源码 (36)
- 三角函数积分公式表 (35)
- 函数的表示方法 (34)
- 表格乘法的公式怎么设置 (34)
- sumif函数的例子 (34)
- 图片素材 (36)