如何查找隐藏在云存储中的数据

2019-05-24 10:28:41  浏览:645  作者:IDC圈

最近的一项调查显示,随着云端对象库成为事实上的数据湖,企业在查找和统计堆积的所有数据时,处于艰难的境地。

对于拥有大量空旷空间的人们来说,其存放的物品总是凌乱散布,而这可能是人类的本性。而目前也有这样一个趋势,即对于越来越多的企业来说,云对象存储正在成为事实上的数据湖。好消息是,云对象存储成本相对更低,并且具有高度可扩展性,而且越来越易于访问。例如,大多数云Hadoop服务交换Hadoop分布式文件系统(HDFS)的对象存储,并且越来越多的云计算提供商正在提供服务,提供临时查询或将云对象存储视为数据仓库的扩展表。

依赖云存储作为默认目标或数据湖的另一个方面是需要协调通用目标中数据的积累,需要对数据隐私或数据保护更负责,尤其对于GDPR等规则生效的情况。

Chaos Sumo公司计划在今年夏天推出SaaS提供商的搜索层以添加云存储(现在称为Amazon S3),该公司刚刚发布了一项调查,显示云计算采用者感受到的一些痛点。

无可否认,这个调查规模并不大,只有120名受访者,主要针对的是数据操作专业人员,该示例很可能偏向已经接受云计算的组织。例如,72%的人表示他们目前使用某种形式的云对象存储。对于那些使用亚马逊S3的人来说,40%的受访者表示他们预计明年他们使用S3存储的比例至少会增长50%。

对于企业来说,主要用于备份、存储和归档。但是28%的人已经在使用数据湖的对象存储,而另外18%的人计划在未来的12-18个月内实施。毫不奇怪,对于这个以AWS为主的样本,如今在使用Amazon Athena报告的类似比例(23%)。大约一半的受访者表示,已使用Amazon Redshift数据仓库,Spectrum现在可以将S3视为扩展表。

Athena等工具的创新开放了对系统中数据的交互式访问,而不是对存储进行优化,而不需要ETL(尽管数据必须采用某种形式的半结构化存储,如CSV、JSON、Parquet或其他格式)。

但正如图表所显示的那样,随着数据在对象存储中的涌现,越来越多的少数人担心问责制问题。这正是Hadoop等平台的商业销售优势,以及用于分析和数据准备的打包工具,这些平台具有某种形式的数据沿袭,安全性和访问控制作为其存在的理由。云对象存储在涉及治理或周边安全时是赤裸裸的——传统上是数据平台、云主机或消耗数据的分析工具的工作。

因此,四分之一的受访者担心他们将不得不移动数据来分析数据,而数量较少但具有统计学意义的少数群体则对查找数据、合规性和安全性表示担忧。他们花费大量时间清理和准备数据,超过一半的受访者表示花费每周至少6小时,其中近40%的受访者表示每周花费超过11小时来完成任务。

值得注意的是,只有7%的受访者表示目前很容易分析当今在对象存储中的数据。这就是调查赞助商Chaos Sumo公司的商业用途。该公司计划引入它所谓的“数据结构”,将于今年夏天将S3数据打开到Elastic search,供现有SaaS提供商使用OEM。预计S3将成为更多分析平台和工具的良好去处。对于Chaos Sumo来说,将搜索作为SaaS提供商的实用工具来增加这些数据的可见性可以更好地应用云存储。

评论区

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

其他推荐

返回顶部