
大数据与人工智能
文章平均质量分 54
大数据与人工智能
白乔
这个作者很懒,什么都没留下…
展开
-
漫画大模型简史
2012年:杰弗里·辛顿的指导下,亚历克斯·克里泽夫斯基(Alex Krizhevsky)开发出AlexNet模型,在ImageNet图像识别竞赛中取得了显著的成绩,推动了深度卷积神经网络的发展。时间的从1943年说起,沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)提出了人工神经元模型,也就是阙值逻辑单元(TLU),这是神经网络研究的基础。2023年:OpenAI发布了GPT-4,具备多模态处理能力和更强的理解与生成性能,进一步推进了通用人工智能的发展。转载 2024-12-05 09:04:30 · 155 阅读 · 0 评论 -
多模态大模型(mllm)论文Survey和一些思考
1. 简介(Introduction)自以gpt3为代表的大语言模型问世以来,纯文本模态的大模型和多种模态混合的多模态大模型都获得了迅速的发展,无论是学术界还是工业界。文本模态的大语言模型几乎学习了目前人类能够从公开渠道获取到的所有的文本数据,结合模型规模的扩大以及模型“涌现”能力,使得大语言模型的“智能”、“记忆”、“推理”、“对话”、“创作”等多方面的能力得到了长足的发展。互联网发展到今天,除了海量的文本数据之外,还产生了更多的多模态数据,如图文多模态数据、音视频、甚至于某些终端还包含了位姿信号、深转载 2024-12-05 09:11:17 · 362 阅读 · 0 评论 -
RocksDB调优指南
https://blog.csdn.net/zerooffdate/article/details/89458362本指南的目的是提供你足够的信息用于根据自己的工作负载和系统配置调优RocksDB。RocksDB非常灵活,这有好也有坏。你可以真多很多工作场景和存储技术进行调优。在Facebook,我们使用相同的代码跑内存工作压力,闪盘设备和机械硬盘。然而,灵活性不总是对用户友好的。我们引入了大量的调优参数,让人疑惑不解。我们希望这个指南会帮助你压榨你的系统的最后一滴性能并且完全利用你的资源。我们转载 2020-12-16 17:35:03 · 2591 阅读 · 0 评论 -
如果有人问你数据库的原理,叫他看这篇文章
http://blog.jobbole.com/100349一提到关系型数据库,我禁不住想:有些东西被忽视了。关系型数据库无处不在,而且种类繁多,从小巧实用的 SQLite 到强大的 Teradata 。但很少有文章讲解数据库是如何工作的。你可以自己谷歌/百度一下『关系型数据库原理』,看看结果多么的稀少【译者注:百度为您找到相关结果约1,850,000个…】 ,而且找到的那些文章都很短。现在如果你转载 2016-05-06 08:55:54 · 6459 阅读 · 3 评论 -
Lambda架构已死,去ETL化的IOTA才是未来
http://www.sohu.com/a/228020781_115326经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化。▌Lambda架构在过去Lambda数据架构成为每一个公司大数据平台必备的架构,它解决了一个公司大数据批量离线处理和实时数据处理的需...转载 2018-11-28 17:30:01 · 1882 阅读 · 0 评论 -
深度|从数据仓库到数据湖——浅谈数据架构演进
转载自https://mp.weixin.qq.com/s/321mkZsuxqXOme5hw_83mQ网管产品需要从数据仓库的角度来看,才能获得完整的视图。数据集成真正从大数据的角度来看,才能明白其中的挑战。一个运行了20多年的数据架构,必然有其合理性。也正是因为年代久远,存量过多,才导致举步维艰。在Cloud和5G时代,超密度网络集成和大数据洞察需求给电信供应商带来新的挑战,从数据仓库到数...转载 2018-10-20 19:45:31 · 16636 阅读 · 3 评论 -
转变:从SQL技术栈到图技术栈
【摘要】传统的以SQL为中心的技术栈无法有效地应对大数据场景带来的多元异构数据管理、大规模关系网络管理和复杂网络分析等挑战,本文针对新型大数据技术栈展开研究。通过分析图数据模型的优势,结合图技术的发展和应用现状,提出以图为中心的新型大数据技术栈,该技术栈在生物数据网络、科技知识图谱等实际应用中得到较好的验证。尽管该技术栈的大面积推广还存在支撑工具不足、应用生态不够成熟等困难。但我们相信,以图为中心的新型大数据技术栈会在更多的大数据应用场景中发挥更大的价值。1 以SQL为中心的技术栈 1969年,C转载 2020-09-01 13:00:59 · 2423 阅读 · 0 评论 -
干货 | 知识图谱的技术与应用
https://mp.weixin.qq.com/s/j94s-jQjJ11zXSDD_uEcAA作者 | 李文哲,人工智能、知识图谱领域专家导读:从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。 本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤...转载 2018-06-16 15:11:33 · 1680 阅读 · 1 评论 -
主题模型初学者指南[Python]
https://www.jianshu.com/p/04e3bf995b26引言近年来涌现出越来越多的非结构化数据,我们很难直接利用传统的分析方法从这些数据中获得信息。但是新技术的出现使得我们可以从这些轻易地解析非结构化数据,并提取出重要信息。主题模型是处理非结构化数据的一种常用方法,从名字中就可以看出,该模型的主要功能就是从文本数据中提取潜在的主题信息。主题模型不同于其他的基于规则或字典的搜转载 2018-02-05 16:48:11 · 642 阅读 · 0 评论 -
科学数据中心软件栈FairStack
FairStack面向科学数据中心在科学数据全生命周期管理中的共性需求,提供科学数据汇聚、管理、分析、共享全流程服务以及安全防护等支撑保障,致力于推进科学数据中心的FAIR化(可发现Findable、可访问Accessible、可互操作Interoperable、可重用Reusable)。面向机构科研团队的数据公开发布需求,提供科学数据发布审核、资源发现、资源访问和用户支持等核心功能服务,通过构建科学数据中心标准化服务接口,实现多元数据的互操作,并实现数据资源唯一标识(DOI,CSTR)。转载 2022-11-25 14:26:15 · 702 阅读 · 0 评论 -
腾讯海量数据处理平台TDW
TDW是腾讯海量数据处理平台中最核心的模块,它有以下几个作用:提供海量的离线计算和存储服务。TDW是腾讯内部规模最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖掘等的存储和计算都是在TDW中进行。这是TDW提供的最基础的服务。数据集中于共享功能。腾讯产品线较长,数据丰富,为了挖掘数据价值,经常需要访问多个产品的数据。TDW是腾讯公司级的数据仓库,这里转载 2014-06-14 21:19:11 · 2160 阅读 · 0 评论 -
[ 大数据分析 ] 大数据分析与处理方法介绍
从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?转载 2014-05-14 13:21:21 · 9925 阅读 · 1 评论 -
面向海量服务的设计原则和策略总结
http://www.blogjava.net/caizh2009/archive/2010/05/28/322167.html转载 2014-07-05 21:56:33 · 1189 阅读 · 0 评论 -
大型电子商务网站架构之--分布式可扩展数据库架构
http://liriguang.iteye.com/blog/714728近几年分布式成为热门的话题,也成为大型系统必备良药,而在数据库方面应用更加广泛。通过采用普通廉价的设备构建出高可用性和高扩展的集群目的。从而摆脱了大型设备的依赖,一个好的分布式数据库架构可以比较方便达到高可用性有可以达到向外扩展的能力。传统的数据库系统一般是通过高端设备,例如小型机或者高端存储来保证数据库完整性,或转载 2014-07-23 13:38:54 · 1379 阅读 · 0 评论 -
浅谈数据库的分割技术
随着社会的日益进步, 各行业的运营支撑系统都面临着越来越大的压力, 承受着业务数 据量、访问并发数的飞速增长的双重巨大压力,在我们电信行业,同样面临着这样的难题, 是否有一套适合可行的方案来应对呢?本文重点描述数据库的分割技术, 如果能适当的应用在生产中, 必然能极大减缓来自与 日俱增的业务量带来的巨大压力。如何分割?我们可以从如下六个方面来考虑:一、读写分离分布技术由于数据库存在转载 2014-05-07 23:08:20 · 1080 阅读 · 0 评论 -
数据库sharding(scale up to scale out)
sharding是将一个大数据库按照一定规则拆分成多个小数据库的一门技术.当我们的应用数据量越来越多,访问量越来越大的时候,我们会作何选择?继续提升数据库服务器的性能还是采用一项技术让数据库平滑扩展?虽然伴随着服务器的更新换代,性能越来越好,更换更加豪华的服务器能暂时解决这个问题,但是无论是从花费和可控都无法让人满意。这时数据库sharding是一个更加可行的方案。常用的shard转载 2014-03-05 20:52:42 · 1671 阅读 · 0 评论 -
几种RAID技术比较
RAID(廉价磁盘冗余阵列)技术主要是为了改善磁盘的访问延迟,增强磁盘的可用性和容错能力。目前服务器级别的计算机都支持插入多块磁盘(8块或者更多),通过使用RAID技术,实现数据在多块磁盘上的并发读写和数据备份。常用RAID技术有以下几种,如图4.22所示。假设服务器有N块磁盘。RAID0数据在从内存缓冲区写入磁盘时,根据磁盘数量将数据分成N份,这些数据同时并发写入N块磁盘,使转载 2014-10-26 09:16:36 · 5733 阅读 · 0 评论 -
在数据库历史上最重要的人物简介
http://www.eygle.com/digest/2010/03/database_person.html 埃德加·考特(EdgarF.Codd) 计算机界公认的关系数据库之父。1970年他提出了关系模型的理论,1970年以后,E.F.Codd继续完善和发展关系理论;之后创办了一个研究所The RelationalInstitute和一个公司Codd & Associ转载 2014-09-26 17:45:25 · 3800 阅读 · 0 评论 -
MySQL主从复制配置
http://www.blogjava.net/dongbule/archive/2010/08/22/329602.htmlMysql的主从复制至少是需要两个Mysql的服务,当然Mysql的服务是可以分布在不同的服务器上,也可以在一台服务器上启动多个服务。(1)首先确保主从服务器上的Mysql版本相同(2)在主服务器上,设置一个从数据库的账户,使用REPLICATION转载 2014-07-04 15:23:12 · 919 阅读 · 0 评论 -
sparkSQL1.1入门
http://blog.csdn.net/book_mmicky/article/details/39288715转载 2014-11-18 15:47:15 · 21545 阅读 · 1 评论 -
Spark与Hadoop计算模型的比较分析
http://tech.it168.com/a2012/0401/1333/000001333287.shtml 最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。 那么Spark和Hadoop有什么不同呢? 1.Spa转载 2014-11-20 13:32:37 · 1853 阅读 · 0 评论 -
搭建高可用的MongoDB集群
http://www.csdn.net/article/2014-04-09/2819221-build-high-avialable-mongodb-cluster-part-1/1转载 2014-11-20 15:49:05 · 4307 阅读 · 0 评论 -
Hadoop基于Protocol Buffer的RPC实现代码分析-Server端
http://yanbohappy.sinaapp.com/?p=110最新版本的Hadoop代码中已经默认了Protocol buffer(以下简称PB,http://code.google.com/p/protobuf/)作为RPC的默认实现,原来的WritableRpcEngine已经被淘汰了。来自cloudera的Aaron T. Myers在邮件中这样说的“since P转载 2014-11-21 09:17:06 · 2193 阅读 · 0 评论 -
Mongodb集群节点故障恢复场景分析
http://blog.csdn.net/zhangzhaokun/article/details/6299527一个适当配置的Mongodb分片集群是没有单点故障。本文描述了分片集群中存在的几种不同的潜在的节点故障场景,以及Mongodb对这些节点故障是怎么处理的。1、Mongos节点宕机一个Mongos进程应该运行在每一个应用程序服务器上,这个服务器应该独占这个Mongos进程转载 2014-11-21 22:21:04 · 1430 阅读 · 0 评论 -
Spark:用Scala和Java实现WordCount
http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。用Scala和Java实现WordCount,其中Java实现的JavaWordCount是spar转载 2014-11-27 22:37:25 · 96797 阅读 · 3 评论 -
收藏2个mongodb connector网址
https://github.com/plaa/mongo-sparkhttps://github.com/mongodb/mongo-hadoophttp://codeforhire.com/2014/02/18/using-spark-with-mongodb/原创 2014-11-27 22:51:15 · 1306 阅读 · 0 评论 -
HDFS之SequenceFile和MapFile
http://blog.csdn.net/javaman_chen/article/details/7241087Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器,将这些小文件组织起来统一转载 2014-11-27 22:58:34 · 1114 阅读 · 0 评论 -
最新版spark1.1.0集群安装配置
和分布式文件系统和NoSQL数据库相比而言,spark集群的安装配置还算是比较简单的原创 2014-11-22 23:01:16 · 4593 阅读 · 1 评论 -
理解Spark的RDD
RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录之前的依赖关系,依赖关系中记录算原创 2014-11-23 20:57:54 · 37496 阅读 · 1 评论 -
hadoop-2.5安装与配置
安装之前准备4台机器:bluejoe0,原创 2014-11-24 15:54:07 · 5551 阅读 · 1 评论 -
hadoop的mapreduce过程
http://www.cnblogs.com/sharpxiajun/p/3151395.html转载 2014-11-23 15:14:08 · 1193 阅读 · 0 评论 -
spark1.1.0下使用SparkSQL
spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407安装了spark之后,key原创 2014-11-23 18:14:30 · 5252 阅读 · 0 评论 -
gluster 安装配置基本指南
gluster安装1、 rpm安装wget -l 1 -nd -nc -r -A.rpm http://download.gluster.org/pub/gluster/glusterfs/LATEST/RHEL/epel-6/x86_64/yum install glusterfs-libs-3.5.2-1.el6.x86_64.rpm glusterfs-api-3.5.2-1转载 2014-10-25 23:35:56 · 13406 阅读 · 0 评论 -
Pig与Hive的区别
http://myeyeofjava.iteye.com/blog/1601792Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDF转载 2014-11-25 08:53:34 · 5240 阅读 · 0 评论 -
Hadoop MapReduceV2(Yarn) 框架简介
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/转载 2014-11-24 22:58:41 · 1319 阅读 · 0 评论 -
hadoop mapreduce 优化
http://www.cnblogs.com/c840136/archive/2013/03/10/2952887.html转载 2014-11-25 09:49:29 · 986 阅读 · 0 评论 -
理解hadoop的Map-Reduce数据流(data flow)
http://blog.csdn.net/yclzh0522/article/details/6859778Map-Reduce的处理过程主要涉及以下四个部分:客户端Client:用于提交Map-reduce任务jobJobTracker:协调整个job的运行,其为一个Java进程,其main class为JobTrackerTaskTracker:运行此job的task,转载 2014-11-24 21:47:26 · 1848 阅读 · 0 评论 -
Spark1.2新特性概述
http://mp.weixin.qq.com/s?__biz=MjM5NTc2MTg3Mw==&mid=201641685&idx=1&sn=1b75be3d774bb3f26b6714674dbefc64&scene=2&from=timeline&isappinstalled=0#rd1.2居然真的在12月份发布了,我表示略感意外,我一直以为稍微跳个票要到明年一月初才能发的。这次更新有172转载 2014-12-20 21:56:48 · 1211 阅读 · 0 评论 -
淘宝海量数据产品技术架构
http://blog.csdn.net/paulluo0739/article/details/7656466 淘宝数据魔方技术架构解析淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品转载 2014-12-24 17:17:09 · 1742 阅读 · 0 评论 -
MySQL引擎
http://www.cnblogs.com/sopc-mc/archive/2011/11/01/2232212.html转载 2014-11-16 20:42:54 · 813 阅读 · 0 评论