博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
医学教育网批量资源下载程序之——获取下载列表
阅读量:7033 次
发布时间:2019-06-28

本文共 864 字,大约阅读时间需要 2 分钟。

hot3.png

在上一篇博文里,博主登陆分析了“医学教育网”里面的网页,知道了怎么获取下载的资源。

博文:

今天,博主在上一次分析的基础上开始写程序。


从网站上下载资源可分为两步:

(1)通过遍历网站的方试,生成资源列表。

(2)根据列表一一下载资源。

资源列表是一个树状结构:

前面已完成了login()函数,现在我们可以调用这个函数成功登陆并获得课程列表页面。

可以从这个页面获取课程名称与课程ID。

155850_1VSL_243525.png

捕获课程名称与课程ID可以用正则式进行。

为了方便调试正则式,我们直接用我们在login.py中下载下来的login.html进行分析。写如下脚本来调试正则式:

#!/usr/bin/env python#encoding=utf-8import re as regwith open('login.html', 'r') as f:    couse_reg = reg.compile(r'
(.*?)')    login_page = f.read()    couse_list = couse_reg.findall(login_page)    for couse_item in couse_list:        print(couse_item[0] + ", " + couse_item[1].decode('gbk'))

这个程序经博主调试过,可以得到如下的结果:

700914, 药学综合知识与技能-基础[精品]

700536, 药物化学-基础[精品]
700925, 药剂学-基础(讲座一)[精品]
700021, 药剂学-基础(讲座二)[精品]
....<此处略>...
700797, (中药师)应试技巧
700837, 药学基础知识

哈哈~课程ID与课程名称就得到了。

有了课程ID,那么就可以到每个课程的下载页面去获取。

(等会儿,博主下楼吃个饭……)

转载于:https://my.oschina.net/hevakelcj/blog/366203

你可能感兴趣的文章
MySQL Replication, 主从和双主配置
查看>>
特性(C#)
查看>>
Socket Connect问题
查看>>
C#语言和SQL Server数据库技术_程序数据集散地:数据库
查看>>
HTML5播放视频音频
查看>>
LCIS最长公共上升子序列!HDU-1423
查看>>
【Leetcode】142. Linked List Cycle II
查看>>
hdu4976 A simple greedy problem.
查看>>
hdu 5340 Three Palindromes
查看>>
(转) C++中基类和派生类之间的同名函数的重载问题
查看>>
hdu 5676 ztr loves lucky numbers
查看>>
angularjs中下拉框select option默认值
查看>>
SPEC2006移入docker后的运行问题
查看>>
poi 操作excel
查看>>
去哪网第一题
查看>>
wufabuquan
查看>>
CentOS 6.5 安装Nginx 1.7.4
查看>>
commander.js 制作简易的 MINA CLI 脚手架
查看>>
召回率与精确率
查看>>
HDU 1573~3579 X问题&Hello Kiki[同余方程]
查看>>