百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 文章教程 > 正文

AI编写的网页解析器

yund56 2025-05-12 16:42 7 浏览

五一假期时间,把节前在开发的软件肝完了,软件虽然还很青涩,但已经算是有了软件雏形,至少现在能够满足自己的数据采集的需求了。

本来做这个软件是为了做小程序的数据,小程序搁置了,先把这个软件捣鼓出来。

好了,接下来先介绍下软件的功能:

  • 自定义网页数据元素获取规则;
  • 自定义解析模板,以便于下次直接使用;
  • 对于暂时还不能在线解析的情况,可以尝试下载网页本地解析;
  • 支持多种数据导出(json/csv/excel/md);
  • 支持多种文件名的生成;

看上去好像功能不多,开发也不难,嗯,虽说不难,其实也不容易。要教会AI领会我的设计思路,的确挺费劲,特别是五一期间,我花了非常多的时间重构软件,在代码屎山里徜徉,你想,想想就刺激。

软件使用Trac作为开发工具,Python语言开发,在UI交互上花了不少心思,效果还过得去。

先来张截图截预览下


一、在线解析模块

这个模块本着傻瓜式的操作来设计的,2步操作,一选模板,二解析,完成操作。

左侧是模板列表,在模板管理中创建好的模板会在这里显示,点击一个模板后,再点击右边的绿色按钮“开始解析”,软件解析器便开始工作,直到结果呈现,如下图

二、模板管理

模板管理是软件的核心功能,用于对特定页面创建解析模板,在这里为要获取的网页数据元素定义规则,想要获取什么数据,就加入一条规则,定义好之后,进行【开始解析】按钮进行解析。

如果规则有错误或者获取不到数据,系统会提示,否则你同样可以看到在线解析模块中的同样的数据结果。

这个模块主要分为3个板块:

1、解析方式板块:分为在线解析、文件解析、代码解析。前边介绍的在线解析模块实际上就是这里的在线解析中输入的URL地址解析。文件解析主要应对在线解析不成功的情况下,我们将网页下载下来,放在本地电脑上进行解析。代码解析是HTML代码解析,一般人用不上,这里不做赘述。

2、规则设置板块

获取元素的选择器,我推荐使用XPath,至于如何获取XPath,也不难。比如我要获取如下页面红框的最新文章列表,接下来的步骤就是定位要采集数据元素,以便在网页采集器中定义规则。

1)获取网页元素

在浏览器中按F12,浏览器右侧栏会打开开发者工具,点击最左上角的图标,然后在网页中移动到需要的数据位置,此时鼠标在网页上移动时,浏览器会自动框选网页元素,在你想采集的数据上单击,就完成了定位。如下图:

选中元素后,在右侧的蓝色背景的区域单击鼠标右键,选择 复制 → 复制XPath,如图:

这样就获得了数据的XPath,我们再回到软件界面,将复制的数据填写在选择器表达器中,添加规则到规则表格,这样一条数据的规则就设计好了。

规则设置好后,点击【开始解析】,便可知设置的规则是否可用,如果获取不到数据系统会提示,如果所有规则都正确,下方结果区域会看到解析到的数据。并且可以点击右侧蓝色的导出数据按钮,选择导出文件格式。

解析成功说明你的解析规则都没问题了,记得将这个模板保存,下次就可以直接使用,不需要再操作设置规则的一系列繁琐动作了。

【保存模板】功能将配置好规则的模板保存起来,方便以后调用。

2)文件解析

当在线解析不能成功时,可以尝试将该网页保存下来,然后使用文件解析将下载下来的html文件选中,然后再【开始解析】,这样同样可以达到解析到数据的目的。

3)HTML代码解析

HTML代码解析,功能与文件解析显相似,只不过将选择文件换成了粘贴HTML代码。一般来说,使用的几率比较小。

三、设置中心

设置中心模块,用于软件的相关设置,目前只提供了极少的设置功能。功能虽少,但也很必要。

数据标题设置,决定导出数据的表头显示中文名称还是英文键名;

导出文件名设置,决定了数据导出的文件名的生成规则:

  • 同模板名,生成的数据文件名与模板名相同,再次生成会覆盖原文件。
  • 模板名+日期:是带有时间戳的文件名,不会导致文件覆盖。
  • 指定文件名:用户通过对话框输入文件名,具有更高的自主性。

四、关于AI编程

这个软件是我的一个AI编程作品,经历了太多与AI相爱相杀,总体来说,若要开发出业务逻辑较复杂的软件,AI编程的路还很长。即使如此,这也是必须要经历的一段路程。

相关推荐

今日起,办理游戏版号这么做就行了!真的太方便了

  在“大众创业,万众创新”的浪潮下,我国很多创业者也看到了游戏的前景,准备在游戏行业分一杯羹。  但根据国家新闻出版广电总局颁布的《关于移动游戏出版服务管理的通知》,游戏需要通过国家新闻出版广电总局...

给大家推荐些好的c语言代码的网站

C语言,那就来推荐几个吧,部分含有C++:1、TheLinuxKernelArchives(kernel.org)Linux内核源码,仅限于C,但内核庞大,不太适合新手;2、redis(redi...

手游平台没有源码的三大危害

搭建一款属于自己的手游平台可以直接和游戏研发商对接游戏,既减少中介的差价,还能根据自己需求去选择游戏。对于玩家而言,手游平台给予了玩家更多的选择机会,对于运营者而言,借助平台可以更好地服务玩家,通过对...

游戏源代码开发时需要什么,需要哪些团队成员?

游戏由于她轻松娱乐,对战刺激,寓教于乐等特点,吸引住了一大批不一样年龄阶段的用户,例如喜爱竞技游戏的年轻群体,需要益智游戏的儿童等。游戏源代码是游戏构建的基础,尽管将开发时分成开发软件和游戏开发2个概...

育碧经典游戏《孤岛惊魂1》源代码遭泄露,玩家表示可以运行

IT之家7月3日消息,一份名为“FarCry1.34Complete”的游戏源代码已经出现在了互联网档案网站“Archive.org”上,并且在Reddit论坛和各种社交媒体上得到...

神秘网站倒数结束 令人一头雾水

还记得那个疑似小岛秀夫作品的《黑色猎犬》倒计时网站吗?现在该网站已经停止倒计时,仅剩一段话“这里原来有一个倒计时,现在没了”……点击这句话会跳转到国外网站Funhaus的一个莫名其妙的视频,然而评论的...

LOL源代码娜美免费领取地址 LOL源代码娜美领取活动网址分享

[海峡网]在英雄联盟中近日国服的服务器一直不稳定,繁出现卡顿和功能错误等问题,官方现在正在努力维护,为表歉意将免费赠送给玩家一款“源代码·娜美”的皮肤,那么这个皮肤要怎么领取呢,小编相信小伙伴们一定都...

个人网站集成js小游戏《圈小猫》教程及源码

今天在某网站浏览帖子的时候,发现帖子被删除了,然后弹出了404页面,页面上集成了一个小游戏,小游戏长什么样子呢?看下面这个图!第一步查看小游戏源码,发现这个小游戏完全是由JavaScript编写的,因...

Scratch创意编程-数学问答游戏

项目名称:数学问答游戏目标年龄群体:8-12岁项目简介:在这个Scratch创意编程项目中,学生们将扮演数学家,通过解答数学题目来挑战自己的数学技能。游戏中包含了加法、减法、乘法和除法等基本算术题,以...

少时不努力长大程序猿 酷比魔方AI百变编程套件体验测评

本文产品为厂家送测,坚持独立的评价观点是笔者创作的基本底线,绝不会因商品来源不同而有所偏颇,请各位放心。写在开始讲讲今天男主的故事这篇体验到的目标群体是跟我一样,家中有个在上小学二年级的小学生。首先...

孩子的scratch作品只能演示?教你把它三步变为电脑软件

随着少儿编程的发展,越来越多的家长和孩子开始投身其中。对于初学者来说,最好的编程工具就是Scratch,它是麻省理工学院的“终身幼儿园团队”开发的图形化编程工具,主要面对青少年开放。这是对孩子最好的编...

打地鼠小游戏制作教程

打地鼠这个小游戏貌似比我的年龄都要大,这次我们使用scratch3.0图形化编程软件来制作一款我们自己的“打地鼠”。我们先准备4样角色,分别是:地鼠角色、锤子角色、地洞角色、草地角色。地鼠→使用猫...

Scratch2.0接苹果小游戏讲义整理

Scratch2.0接苹果小游戏概貌见动图:这又是一款经典的Scratch小游戏,是孩子们学习Scratch编程软件的良好载体,不容错过。(一)玩法说明接到慢速的红苹果一个加1分;接到中速的红苹果一个...

少儿编程太难?原来可以闯关玩游戏啊

随着编程学习全球化的趋势,国内编程学习热潮日盛,越来越多的家长开始让孩子接触学习编程。然而我们都不了解这个少儿编程是到底是什么,近年来,许多家长开始给小孩报编程学习班。最小的从幼儿园开始就在学习...

如何在Scratch中创建一个两人赛艇游戏

本分步指南将教您如何使用Scratch程序创建划船游戏。完成对这个简单游戏的编程后,两条船将使用按键命令一起竞赛。步骤1.打开Scratch。2.删除名为“Sprite1”的猫。您可以通过右键单击它...