计算技术与自动化

基于云计算的大数据网络信息检索技术及扩展

 

在信息和网络技术迅速发展的推动下,人们的感知、计算、仿真、模拟、传播等活动产生了大量的数据,海量数据的产生刺激了云计算技术的蓬勃发展。云计算对大数据信息的正确处理,获得有利的需求信息会对当今社会产生巨大的影响。为此云计算对海量数据的收集与检索成为人们致力研究的问题。本文阐述了海量数据的存储,web页面的搜集与检索以及对信息检索技术研究之上的个性化推荐系统。

云计算是分布计算、并行计算、和网格计算的发展,而云是一个包含大量可用虚拟资源的资源池。随着DT时代的到来,云计算技术作为新的技术趋势快速发展,从根本上改变了当前人们的工作方式。处在云计算快速发展的时代,必然会刺激数据的大量产生,使得解决信息收集、检索问题成为必然之需。

1.大数据常用存储方式

随着信息产业的蓬勃发展,云计算已成为一种新的技术趋势不断发展,云计算提供的服务从根本上改变了人们的生活。云计算的产生促进了大数据的发展。大数据通常分为两种即结构化数据:主要以表的形式存储;非结构化数据:主要以文件的方式存储。云计算对海量数据高效的访问存储需求、对数据库高可用性和高可扩展性的需求都让传统的关系型数据库显得力不从心,使非关系型数据库得到发展。

超过一半以上的大数据采用非关系型数据库,其主要采用共享文件系统。

共享文件系统的架构:服务器面对的是一个集群文件系统,而非底层的存储设备。

集群文件系统统一管理底层的物理存储空间,集成一个单一命名的文件系统。

后端存储采用DAS结构,把存储服务器与各自的操作系统直连。所谓DAS是服务器与存储设备通过直连的方式相互连接。

还有一种共享存储架构-SAN共享集群NAS架构,其核心与共享文件系统类似,不同之处在存储子系统上,其架构的存储子系统由SAN和直连DAS组成,以SAN集群文件系统或文件系统的方式为NAS集群提供访问接口,NAS集群通过光纤连接SAN并访问其存储设备。所谓SAN是服务器与存储设备通过IP或FC网络相互连接,存储设备是由大量的磁盘聚集成的一个磁盘集,服务器通过访问此磁盘集,从而获得底层的数据资源。

2.Web信息收集和检索

大数据是大型复杂的数据集,如此海量的数据本身很难直接使用,只有通过处理的数据才能成为用户需求数据。而云计算是一种具有非常强大的计算能力的技术,可以通过计算使海量数据成为用户需求数据。基于云计算实现大数据信息检索过程主要分为网页收录和检索。

2.1 网页收录

在信息检索过程中,存储服务器会对其内的数据进行分析和排序,根据相关性对其排序,相关度高的排在前面。同时对上述存储服务器展开分布式的检索,最后将检索结果存储在Index Repository,网页则收录于搜索引擎中的索引之中。当用户发出搜索命令时,实际上是对Index Repository进行信息搜索,Web页面内容根据Page Rank算法加以运算得出倒序索引表,存储于索引存储器中。(刘月,探究云计算下大数据的信息检索技术应用:数字技术与应用,2015)其中将页面标题和链接数据当作索引来进行存储,便于广度优先的遍历。网页内容则保存于另外的索引内,便于深度优先的遍历。(吴谋硕,基于云计算的Web信息收集与检索过程分析:信息与电脑(理论版),2016)

2.2 基于客户-服务器模式的检索

搜索引擎的用户界面很简单只需给用户提供一个输入信息文本框,在服务器端存放的一个数据库,里面存放有大量的web页面。搜索引擎的核心是,将用户输入的信息作为关键字字符串在后台的数据库中查找相匹配的web页面,再将查询的结果组成一个列表,形成新的HTML页面呈现给用户。信息检索过程中一般都放在逻辑事务处理层进行。

3.基于云计算个性推荐系统

在信息爆炸的时代,如何获得所需求有价值的信息,是当今人们致力研究的问题。个性化推荐系统可以帮助人们在冗余的信息中找到自己所需信息的重要手段,该系统可以快捷、多元的满足用户的需求,提高信息的利用率。信息检索技术能够提供给用户信息,搜索引擎是信息检索的常用方法,但此技术无法智能、多样化的提供用户兴趣信息,所以就产生了基于云计算的个性化推荐系统。

个性化推荐系统是通过搜集海量数据并利用数据清洗、挖掘技术,通过云计算平台构建的一种高级智能化平台,其结合用户的购买反馈情况及兴趣爱好来推荐相应的信息或商品,来满足客户。

上一篇:漫谈“云”上运维
下一篇:征 稿 简 则