百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 文章教程 > 正文

Scrapy爬虫:爬取国内医院信息名录

yund56 2025-03-09 19:28 15 浏览


今天勺子接到了领导交给我的一个任务:网上收集江苏省内医院的名录,信息越详细越好,于是,不纠结、不抱怨,抄起scrapy一路开爬!

一、网站选择

网上医院信息网站还是很多的,经过对比筛选,勺子最终选择了99医院库(https://yyk.99.com.cn/)。这个网站的医院信息内容非常全面,一些不知名的医院都能查得到,完全满足领导要求。

二、网站分析

进入网址:
https://yyk.99.com.cn/jiangsu/,就可以看到江苏全省的医院名录了(居然有将近4000家),点击每个医院名称,即可进入医院的详情页,在详情页的医院介绍模块里,可以查到医院的性质、地址、等级等信息,因此,整体思路就比较清晰了,先获取近4000家医院的全部链接,再逐一访问获取每家医院的详细信息。



三、创建工程

开始动手,两行代码创建工程:

scrapy startproject jiangsuhospital
scrapy genspider hospital '99.com.cn'

工程创建完成后,再setting.py里进行必要配置,将ROBOTSTXT_OBEY置为False,设置请求头,打开pipelines等。

四、核心代码

hospital.py的代码如下:

import scrapy
from jiangsuhospital.items import JiangsuhospitalItem

class HospitalSpider(scrapy.Spider):
    name = 'hospital'
    allowed_domains = ['99.com.cn']
    start_urls = ['https://yyk.99.com.cn/jiangsu/']

    def parse(self, response):
        divs = response.xpath("//html/body//div[@class='m-table-2']//tr")

        #拼接各家医院的url      
        for div in divs:
            trs = div.xpath('.//td')
            for tr in trs:
                href = tr.xpath('.//a/@href').extract_first()
                next_url = 'https://yyk.99.com.cn'+href+'jianjie.html'

                #请求所有医院的url
                yield scrapy.Request(next_url,callback=self.parse_detail)

五、数据保存

通过pipelines.py将数据保存至csv文件中,csv数据保存基本可以写成以下固定格式:

import os
import csv

class JiangsuhospitalPipeline(object):
    def open_spider(self,spider):
        store_file = os.path.dirname(__file__) + '\\result\\result.csv'
        self.file = open(store_file,'w',newline='')
        self.writer = csv.writer(self.file)


    def process_item(self, item, spider):
        if item['mingcheng'] :
            self.writer.writerow((item['mingcheng'],item['bieming'],item['shuxing'],item['dianhua'],item['dizhi'],item['chengshi'],item['yuanzhang'],item['jianyuan'],item['leixing'],item['dengji'],item['keshi'],item['renshu'],item['bingchuang'],item['nianmenzhen'],item['yibao']))
        return item 

    def close_spider(self,spider):
        self.file.close()

六、结果展示

scrapy crawl hospital,表格就出来了,调整就是这样

很简单的一个小工程,很好的解决了领导的需求,在此源码奉上,供大家参考,下载地址:
https://github.com/cxxc2001/jiangsuhospital。

对代码有问题,或需要数据,或其他商业合作,可以私信勺子!

【一把勺子,挖掘数据律动!!】

相关推荐

SM小分队Girls on Top,女神战队少了f(x)?

这次由SM娱乐公司在冬季即将开演的smtown里,将公司的所有女团成员集结成了一个小分队project。第一位这是全面ACE的大姐成员权宝儿(BoA),出道二十年,在日本单人销量过千万,韩国国内200...

韩国女团 aespa 首场 VR 演唱会或暗示 Quest 3 将于 10 月推出

AmazeVR宣布将在十月份举办一场现场VR音乐会,观众将佩戴MetaQuest3进行体验。韩国女团aespa于2020年11月出道,此后在日本推出了三张金唱片,在韩国推出了...

韩网热议!女团aespa成员Giselle在长腿爱豆中真的是legend

身高163的Giselle,长腿傲人,身材比例绝了...

假唱而被骂爆的女团:IVE、NewJeans、aespa上榜

在韩国,其实K-pop偶像并不被认为是真正的歌手,因为偶像们必须兼备舞蹈能力、也经常透过对嘴来完成舞台。由于科技的日渐发达,也有许多网友会利用消音软体来验证K-pop偶像到底有没有开麦唱歌,导致假唱这...

新女团Aespa登时尚大片 四个少女四种style

来源:环球网

韩国女团aespa新歌MV曝光 画面梦幻造型超美

12月20日,韩国女团aespa翻唱曲《DreamsComeTrue》MV公开,视频中,她们的造型超美!WINTER背后长出一双梦幻般的翅膀。柳智敏笑容甜美。宁艺卓皮肤白皙。GISELLE五官精致...

女网友向拳头维权,自称是萨勒芬妮的原型?某韩国女团抄袭KDA

女英雄萨勒芬妮(Seraphine)是拳头在2020年推出的第五位新英雄,在还没有正式上线时就备受lsp玩家的关注,因为她实在是太可爱了。和其他新英雄不同的是,萨勒芬妮在没上线时就被拳头当成虚拟偶像来...

人气TOP女团是?INS粉丝数见分晓;TWICE成员为何在演唱会落泪?

现在的人气TOP女团是?INS粉丝数见分晓!现在爱豆和粉丝之间的交流方法变得多种多样,但是Instagram依然是主要的交流手段。很多粉丝根据粉丝数评价偶像的人气,拥有数百、数千万粉丝的组合作为全球偶...

韩国女团MVaespa Drama MV_韩国女团穿超短裙子跳舞

WelcometoDrama.Pleasefollow4ruleswhilewatchingtheDrama.·1)Lookbackimmediatelywhenyoufe...

aespa师妹团今年将出道! SM职员亲口曝「新女团风格、人数」

记者刘宛欣/综合报导南韩造星工厂SM娱乐曾打造出东方神起、SUPERJUNIOR、少女时代、SHINee、EXO等传奇团体,近年推出的aespa、RIIZE更是双双成为新生代一线团体,深受大众与粉丝...

南韩最活跃的女团aespa,新专辑《Girls》即将发布,盘点昔日经典

女团aespa歌曲盘点,新专辑《Girls》即将发布,期待大火。明天也就是2022年的7月8号,aespa新专辑《Girls》即将发行。这是继首张专辑《Savage》之后,时隔19个月的第二张专辑,这...

章泽天女团aespa出席戛纳晚宴 宋康昊携新片亮相

搜狐娱乐讯(山今/文玄反影/图科明/视频)法国时间5月23日晚,女团aespa、宋康昊、章泽天等明星亮相戛纳晚宴。章泽天身姿优越。章泽天肩颈线优越。章泽天双臂纤细。章泽天仪态端正。女团aespa亮...

Aespa舞台暴露身高比例,宁艺卓脸大,柳智敏有“TOP”相

作为SM公司最新女团aespa,初舞台《BlackMamba》公开,在初舞台里,看得出来SM公司是下了大功夫的,虽然之前SM公司新出的女团都有很长的先导片,但是aespa显然是有“特殊待遇”。运用了...

AESPA女团成员柳智敏karina大美女

真队内速度最快最火达成队内首个且唯一两百万点赞五代男女团中输断层第一(图转自微博)...

对来学校演出的女团成员语言性骚扰?韩国这所男高的学生恶心透了

哕了……本月4日,景福男子高中相关人士称已经找到了在SNS中上传对aespa成员进行性骚扰文章的学生,并开始着手调查。2日,SM娱乐创始人李秀满的母校——景福高中迎来了建校101周年庆典活动。当天,S...