两种加速数据资源下载的方法

谁知道365bet网址 📅 2025-07-09 20:38:57 👤 admin 👁️ 9663 ❤️ 270
两种加速数据资源下载的方法

文章目录

1、简介2、国内网络条件i、主要工具ii、注册使用

3、国外网络条件i、主要工具ii、注册使用

小结

1、简介

在工作以及科学研究过程中,很多优秀的数据集都来自国外,但有时在有外网权限的条件下,使用终端下载,网络的下行速度往往不尽如人意,甚至只有几十KB,同时过久的下载易导致连接中断甚至下载失败。所以这里提供两个可以加速数据资源下载的方法,分别是有外网条件和没有外网条件的方法,这两种方法只是区别于网络条件,基本思路是一样的,另外所使用的平台也有一些区别。

2、国内网络条件

i、主要工具

平台地址:SageMaker Studio Lab这是亚马逊提供的一种完全免费、基于浏览器的集成开发环境(IDE),专门设计用于机器学习(ML)和深度学习(DL)项目的开发与实验。它是 Amazon SageMaker 的一个轻量级版本,旨在为数据科学家、机器学习工程师和研究人员提供一个易于使用、零成本的开发环境,以便进行数据分析、模型开发和训练。进行机器学习或者深度学习的开发是该平台主要的作用,下载数据只是我们取巧的方法。

ii、注册使用

登录平台主页后,点击Request account注册平台账户,虽然是亚马逊的产品,但是这里并不需要信用卡信息也不需要亚马逊账户,只需要一个邮箱就可以搞定,但是推荐使用教育邮箱申请,通过率会更高。

通过申请后,登录账号可以选择使用CPU或GPU支持,平时使用选择CPU时间会长一些,GPU资源有限所以使用时间相对较短。

点击Start runtime创建一个运行示例,并点击Open project开始,可以选择Terminal打开命令行终端。

Studio Lab提供15GB的持久化存储,意味着项目和数据集都可以永久保存在云中。不会因为每次创建和关闭实例而被销毁,在终端中,可以使用wget指令,下载任何可以通过该指令下载的内容,包括国外的数据集,实测网络速度在20MB/s左右。

下载之后保存在云端的持久化存储中,需要再下载到本地存储。

3、国外网络条件

i、主要工具

平台地址:Google colab这是由 Google 提供的基于云的 Jupyter Notebook 环境,专门为机器学习和数据科学任务设计。它允许用户编写和执行 Python 代码,进行数据分析、机器学习模型的开发与训练,并且完全免费提供 GPU 和 TPU 加速计算资源,特别适合需要大量计算资源的任务。(不过科学上网需要付费)进行机器学习或者深度学习的开发是该平台主要的作用,下载数据只是我们取巧的方法。谷歌的colab需要结合谷歌的云盘一起使用来实现持久化存储,所以在使用之前需要保证在colab中正确挂载个人的云盘。

ii、注册使用

可以新建一个notebook,也可以加载本地的notebook,然后连接到托管的运行时,也就是申请一个虚拟机实例。

连接后,可以选择文件操作的第三个选项装载谷歌云盘,也可以使用指令装载。

使用指令挂载,根据弹出的提示登录云盘账号进行挂载

from google.colab import drive

drive.mount('/content/drive') # 根据云盘路径修改挂载路径

成功后会提示挂载路径,进入到指定目录,使用指令下载数据,需要注意在正常的wget前加!号。

cd /content/drive/MyDrive

!wget xxxxxxx.zip # 下载到/content/drive/MyDrive目录下

之后通过谷歌云盘再下载到本地,这个时候就取决于本地的网络以及科学上网工具的速度了。

小结

以上是两种可以加速数据下载的方法,但亚马逊和谷歌的平台可以实现更多的价值,大家可以自行了解!!

相关推荐

在 Office 中检查拼写和语法
365平台被黑

在 Office 中检查拼写和语法

📅 07-05 👁️ 2293
[世界杯]乌拉圭防守坚韧 葡萄牙进攻占优
365平台被黑

[世界杯]乌拉圭防守坚韧 葡萄牙进攻占优

📅 07-03 👁️ 9857
彼岸花的花语和寓意是什么?
mobile365bet365com

彼岸花的花语和寓意是什么?

📅 07-08 👁️ 7520