你好,游客 登录 注册 发布搜索
背景:
阅读新闻

基于数据库的分布式存储和计算(PPT)

[日期:2017-01-11] 来源:  作者: [字体: ]

文 | 江和慧

基于数据库的分布式存储和计算是使用分库分表的思想实现数据存储,使用mapred的思想事项sql计算。

计算过程:将输入sql经过此法,语法,语义分析,集合表结构信息和数据分布信息,生成包含多个阶段(简称stage)的执行计划,这些阶段具有一定的依赖关系,形成多输入单输出的任务树。

每个阶段包括两种sql,称为mapsql和redsql,另外每个阶段包括三个操作,map,数据洗牌和red;map和red分别执行mqpsql和redsql。

先在不同的数据库节点中执行map操作,map操作执行mapsql,它的输入是每个数据库节点上的表里面的数据,输出根据某个字段按照一定的规则进行分割,放到不同的结果集中,结果集作为数据洗牌的输入;

然后执行数据洗牌的过程,将不同结果集拷贝到不同的将要执行red的数据库节点上;

在不同的数据库节点中执行red操作,red操作执行redsql;

最后返回结果。

36大数据(www.36dsj.com)成立于2013年5月,是中国访问量最大的大数据网站。36大数据(微信号:dashuju36)以独立第三方的角度,为大数据产业生态图谱上的需求商 、应用商、服务商、技术解决商等相关公司及从业人员提供全球资讯、商机、案例、技术教程、项目对接、创业投资及专访报道等服务。

收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
热门评论