AI+ 时代如何突破数据处理边界?
SafeGraph成立于 2016 年,旨在打造一个庞大的,供机器学习(machine learning)使用的数据库,以加速机器学习及人工智能的发展。就像人类通过阅读过往的文献典籍,整理知识,总结规律,以此为参考,作出下一个决策,这个数据库,就像专为人工智能而建的图书馆,机器可以通过查询、阅读、分析、综合已有的数据,预测未来。资本市场可以把人工智能这个概念吹成一朵花,但不能忽视的是,目前的技术还是很粗糙。要从根本上提高机器学习的能力,海量数据是关键。
谷歌是目前世界最顶尖人工智能企业,但其搜索引擎的负责人Peter Norvig也承认,他们的算法并不是世界顶尖的,他们有的,只是比别人更多的数据。举个例子,谷歌搜索引擎看了 1 千万个YouTube视频才学会辨认什么是“猫”。
而微软的研究员Michele Banko和Eric Brill发现,即便是最糟糕的算法,如果收到了以指数级增长的海量数据,也会摇身一变,成为顶尖智能算法。谷歌看了 1 千万个视频才会辨认“猫”。可是,现在难有公司能与谷歌、Facebook这样的巨头竞争数据量。
初创企业融资再多,也要和成百上千家公司谈合作拿数据,这一过程可能就要花费巨大精力,和长达几年的时间。即便手握足够数据,他们也要面对数据管理的挑战。首先,数据的存储、数据模型、数据分析格式、数据库的基础架构都要重头建起,必须能用,而且不能出错。之后,还要进行数据清洗。
不是所有数据都是直接可用的,它们大多杂乱无章、难以理解、无法获取、甚至有所缺失。人工智能领域最聪明的一群人都想造出能真正促进人类社会发展的产品和应用,比如无人驾驶,比如预测世界经济走势的系统,比如超级医疗诊断系统。
但格式良好、适合分析的数据不会从天而降。目前,他们把80%的时间花在了整理历史数据上。微软的研究员发现,算法的准确性随着数据量的增大而提升。等这一切都被成功解决,马上,他们又要和数据监管部门打交道,并在数据隐私保护问题上受到政府与公众的道德拷问。
这是一种对资源和时间的巨大浪费,再这么下去,不知何年何月我们才能看到人工智能真正的创新。SafeGraph在这个时候出现。
他们想打通所有数据(democratizing access to data),降低数据门槛。SafeGraph的将自己定位成数据搜集与管理公司,其它公司可以租用他们数据,把时间空出来,集中精力进行真正有价值的研究。它的首款产品是一个地理空间数据平台,为城市规划者、零售商、学术研究人员、营销人员及投资者服务,便于其了解人类社会活动轨迹。
知云网报道
剑指亚马逊,阿里拟引入更多国际卖家
拆分自霍尼韦尔,「Resideo」发力中国智能家居市场