Storm笔记:分布式实时计算

Storm是tweeter 开源的,具有实时分布式计算的能力,由closure实现,但是客户端提供了多种语言,当然包括java。

官方wiki:

https://github.com/nathanmarz/storm/wiki/Tutorial

 

 

与Hadoop的比较:

http://blog.csdn.net/larrylgq/article/details/7326058

hadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中,所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率

而storm不同,storm是一个流计算框架,处理的数据是实时消息队列中的,所以需要我们写好一个topology逻辑放在那,接收进来的数据来处理,所以是通过移动数据平均分配到机器资源来获得高效率。

http://www.searchtb.com/2012/09/introduction-to-storm.html

http://www.ibm.com/developerworks/cn/opensource/os-twitterstorm/

 

比较实用的DRPC

https://github.com/nathanmarz/storm/wiki/Distributed-RPC

分布式部署

https://github.com/nathanmarz/storm/wiki/Running-topologies-on-a-production-cluster

每个实例都要部署你的处理数据逻辑的代码。

DRPC的server其实只需一个,它将工作转发到storm分布架构中了。所以我觉得server可以直接本地方式运行。

http://blog.csdn.net/victory0508/article/details/8717704

http://www.infoq.com/cn/news/2011/09/twitter-storm-real-time-hadoop

http://xumingming.sinaapp.com/category/storm/


Total views.

© 2013 - 2024. All rights reserved.

Powered by Hydejack v6.6.1