在过去的几年里,企业已经纷纷认识到大数据中蕴藏着海量有价值的信息这一事实。供应商都开始狂热地致力于开发大数据分析新技术,如Hadoop Map/Reduce、Dryad、Spark和HBase,以便有效地将这些数据转换成有价值的信息资本。而这一趋势无疑将受益于另一种新技术的出现:软件定义的网络(SDN)。
所谓的大数据,其实大部分是非结构化的数据。虽然结构化的数据更符合传统的数据库架构,而非结构化的数据则较难处理。举个例子来说,对于视频存储数据而言。虽然视频文件的格式、文件大小、和源IP地址都是结构化数据,但视频内容本身并不适合固定长度的字段,都是非结构化的。而从大数据分析中获得的大部分有价值的数据信息均来自于非结构化数据的搜索和查询功能。例如,从视频剪辑中的成千上万张面孔中使用面部识别算法挑选出一个人。
该技术针对的是需要通过高速以太网连接的服务器上的成千上万大型集群数据进行快速有效的并行计算解析的问题。因此,大数据的智能挖掘处理过程主要包括如下三步:1)数据分割成多个服务器节点;2)并行分析每个数据块;3)合并结果。
通过连续重复这些操作,直到对整个数据集完整进行了分析。
由于这些并行计算拆分合并的性质,可以将大数据分析放置在一个具有重大的负载的底层网络。即使是采用世界上处理速度最快的服务器,数据处理速度也依然是大数据处理速度方面最大瓶颈。大数据只能是尽可能快地保持与网络传输相同的速度在拆分合并阶段在服务器之间传输数据。例如,Facebook的一项跟踪研究表明,这种数据连续传输占到总运行时间的33%,而对于许多工作而言,通信阶段就超过了运行时间的50%。
通过解决这一网络瓶颈,我们可以显着加快大数据分析的步伐。其具有双重的意义:1 )更好地利用集群管理为提供基础设施的云服务提供商降低TCO;2 )更快的完成处理工作,帮助基础设施租户实现实时分析。
我们需要的是一个智能化的网络,通过每个阶段的计算,自适应的调整,以适应数据传输分割与合并阶段的带宽要求,不仅提高速度,而且还提高了带宽利用率。
SDN的作用
软件定义的网络在建立用于大数据分析的智能自适应网络方面具有巨大潜力。由于控制和数据面板的分离,SDN提供了一个良好的定义编程接口,使得智能软件编程网络是高度可定制的、具备可扩展性和灵活性,以满足大数据的需求。
来源:51cto.com