大数据融合技术:问题与挑战

本文探讨大数据融合技术的问题,包括实体链接的局限性、冲突解决的挑战和关系推演的不足。实体链接的问题涉及识别错误传播、共指识别与冲突解决的交互影响;冲突解决面临数据质量和实时性的难题;关系推演尚未充分考虑复杂关系模式和演化。针对这些问题,研究正聚焦于交叉迭代、动态数据处理和复杂实体关联方法的改进。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据融合技术:问题与挑战

本文为《大数据融合研究:问题与挑战》的总结。

概述

数据的特点:

  • 多元性——数据类型多样;数据内容“维度”多样;数据所涉及的知识范畴的“粒度”多样
  • 演化性——指数据随时间或解释的变化而变化的特性
  • 真实性——由实体的同名异义、异名同义表示以及关系的变化引起
  • 普适性——指在认知范围内达成共识的特性,例如“老师”和“蜡烛”具有该特性

数据湖:数据集成的对象,即数据与知识的复合体。传统的关系型数据是先有模式(表)再有数据,而数据湖是先有数据再有模式。

大数据融合:建立数据间、信息间、知识片段间多维度、多粒度的关联关系,实现更多层面的知识交互,从而聚敛出数据湖中的“波纹”(即语义关联的紧密程度)。

大数据融合存在的问题:

  • 割裂的多源异构数据
  • 数据规模与数据价值的矛盾
  • 跨媒体、跨语言的关联
  • 实体与关系的动态演化
  • 知识的隐含性

现有技术

普遍采用3V(海量、高速、类型多样)特性下的集成技术。关键技术:

  1. 模式/本体对齐:利用属性名称、类型、值的相似性以及属性之间的邻接关系
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值