知乎:国内云存储行业为什么忽然进入了一个靠增量粗暴圈地的竞争局面?
针对百度 和 360分别推出的 1TB 免费云盘,腾讯也拿出自家的 10TB 云储存产品…Box 之前也提供 50G 的免费空间,本周微软也将 SkyDrive 高级版的空间从 7G 升级到 25G。腾讯上线 10TB 免费云存储。
360云盘提供无限容量,37T起步。
百度云提供1T,另外1T需要付费1元。
腾讯微云提供10T,上不封顶。
金山快盘100G。
因为实际上国内网盘容量只是一个迷惑用户的数字而已,给用户1TB存储容量所花费的成本远远低于100GB的10.24倍。
首先要清楚一个概念,就是重复的资源在服务器只会存储一份。这也是资源秒传的基本原理。用户存储在自己网盘中的资源其实大部分都是与别人重复的,特别是容量较大的资源(比如电影、游戏),这样服务器所需要的存储空间远远低于用户数x提供给用户的网盘容量。
国内服务提供商的主要成本还是带宽成本以及维护分享系统的成本,这与提供给用户的“存储空间”相关甚小。
国外为什么不同?我认为这与它们的版权保护相关,盗版的电影、游戏、软件等比较难以分享,所以用户的网盘主要用于同步自己的资料等,这些资源大部分是非重复性的,所以服务器存储空间成本不能作为可以忽略的因素。当然可能还有一个原因就是,用户没法分享非法的大资源也就不需要那么多的容量。
评论中有提问到如何判定重复资源。在同一个网盘服务提供商内的资源,很容易判定,因为服务器上已经存储了该项资源,每个资源都有一个fileID。资源的URL可以根据它自己订的规则生成,例如百度网盘就是shareID + userKey。一个文件想“转存”多少份都可以,无非就是多生成一个URL。只需要维护这个fileID->URL文件映射数据库就可以了。
而不在这个文件映射数据库中的资源如何判定重复?这个校验算法属于商业秘密,我只能讲下我的想法。资源可以分为在线资源和本地资源。
在线资源,即URL资源。例如,网盘的离线下载会让你输入http/ftp链接,或者torrent文件。以迅雷公司为例:对于这种在线资源,首先会先维护一个key/value数据库,即某个URL映射的资源。他们还会做一些类似爬虫之类的东西,对这些URL资源的有效性进行判断。URL对应的资源变更了怎么办?可以先对文件大小做简单的校验。如果大小不一,再进行复杂的校验。对应资源能否续传,校验的方法也会不一样。
本地资源,即要从用户计算机上传至服务器的文件。大家一定都发现,要想极速秒传,就得安装浏览器插件或者客户端。这个插件或客户端就是用来执行校验算法的,并且都是闭源的,这是为了保护商业秘密。对于小文件,可以直接对整个文件计算Hash值,常用的有MD5、SHA1、CRC32等。对于大文件,可以对文件进行分段计算Hash值,然后再用某一算法得到文件的唯一标识。
不同的文件有没有可能得到相同的值,理论上是有可能的,但是概率低到完全可以忽略。就像暴力法破解加salt的md5密码一样,很困难。初期服务提供商由于算法不严谨,的确有碰到过将两个不同的文件弄混的情况,不过现在好像没怎么听说过这事了。
回答者:@agunchan
给“百度云盘”产品的几点安全建议
【与安全有关】
1. 建议允许用户选择使用SSL上传与下载通道,你可以默认走非加密通道,但至少支持一下,这有道理特定用户在特定环境与情境下使用。
2. 关于公开与私密分享页面,点了分享,基本上就没有机会在当前页面取消了,这可能导致的结果是:菜鸟们不小心点一下“分享”按钮,然后关闭页面,他并不知道他公开的分享了一个自己的资源—意外的隐私泄漏。
3. 小声问一下,是不是所有的网盘设计上,Session都是不过期的?在这方面的业界的一些共识我还真不清楚, 至少我周五在公司电脑登录百度网盘后,周一来上班,网盘工作正常,无需重新登录。
4. 关于分享功能的私密分享,没有创新,一个链接加一个提取码,这样在开发实现上比较统一,毕竟在私密分享与公开分享上只需要一个标识位来区别一下就行,但用起来不方便,分享一个东东还让人输入提取码,麻烦。若是直接一个链接完成私密分享UE将大幅提升。
5. 关于公开与私密分享页面, 应提供分享链接的有效期设置,以增强由于用户忘记取消而带来的信息泄漏隐患,同时提高UE,比如:我私密分享一个视频给甲,只是想让甲看一下就结了,但是我不想自己取消分享,太麻烦,也容易忘记,那请允许我在分享时设定有效期,到期后分享将自动失效,如果百度倾向于长期分享,OK, 可以默认无限期,但允许用户修改。
【与功能有关】
1. 应该增加”去重复“功能,有时候同一资料、视频、照片,可能由于多次备份,导致部分内容重复,以至于导入到网盘后也是重复的,一来浪费资源,二来影响用户体验,去重复时,告知用户哪个文件与哪人上下的文件是重复的。
2. 对于媒体类的文件,应该获得照片与视频的真实的拍摄日期,从而可以实现以拍摄日期为准的排序工作
3. 对于媒体类的文件, 使用与拍摄日期相关的数据,可以实现智能分类,智能分组,以大幅提升UE
【担心】
1. 不知道什么时候会drop down云盘服务,由于雅虎相册的drop down,害得我丢失大量的照片的数据
2. 不知道随着用户量增加,性能会有怎么样的变化,当然对于公开的分享内容的访问,性能应该不会差,只会更好,而私密内容的访问可能会受影响
3. 不知道灾难恢复做的怎么样,是否跨区域相互备份的呢?