为了更高效的解决海量数据下存储问题,分布式存储应运而生。主流的分布式存储技术是P2P 系统[1]。根据P2P 技术的点对点和分布式特点,将其加入到云存储系统中,有效地解决集中式云存储系统的中心服务器瓶颈问题。将数据分布式的存放在各个节点服务器上,减轻了节点服务器的负载,实现了云存储系统的负载均衡,从而提高了系统硬件的使用率,大大提高了系统的存储性能。在主流的P2P 存储网络中,存储数据在DHT 中的哈希值Key 由相应的哈希函数获得,然而哈希函数为了保持网络的负载均衡会破坏资源的语义相关性[2]信息,如MD5,因此大部分P2P 系统只支持单关键字的精确查询[3], 不能支持语义相关性查询[4]。面对海量数据时,查全率低,节点切换开销变大,导致网络拥堵,造成系统的存储效率和查询效率会大大降低。为了解决分布式存储系统中存储数据语义相关性低和查询效率低等问题,本文提出了基于数据映射算法的近邻存储方法[5]。
2. 相似性度量方式 无论在原始欧式空间还是在汉明空间都需要去衡量两个数据之间的相似性[6]。数据间的相似性需要通过一定的方法进行度量,相似度是衡量两个对象之间相似性的指标[7],取值在[0,1]之间,目前常用的相似性度量方法主要有余弦相似度、海明距离、Jaccard 相似度、Minkowski 距离、马氏距离、负指数法及正切值法: 假定有一些点组成的集合称为空间(space),该空间下的距离测度(similarity measure)是一个函数(), d x y ,以空间两个点, x y 作为参数,输出是一个实数值。该函数必须满足如下准则: (1) (), 0d x y ≥ (距离非负); (2) (), 0d x y =当且仅当xy= (只有点到自身的距离为0,其他距离都大于0); (3) ()(), , d x yd y x= (距离具有对称性); (4) ()()(), , , d x yd x zd z y≤+ (三角不等式)。
基于数据映射算法的近邻存储方法研究
于 2024-06-23 15:36:25 首次发布