Storm笔记:分布式实时计算
Storm是tweeter 开源的,具有实时分布式计算的能力,由closure实现,但是客户端提供了多种语言,当然包括java。
官方wiki:
https://github.com/nathanmarz/storm/wiki/Tutorial
与Hadoop的比较:
http://blog.csdn.net/larrylgq/article/details/7326058
hadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中,所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率
而storm不同,storm是一个流计算框架,处理的数据是实时消息队列中的,所以需要我们写好一个topology逻辑放在那,接收进来的数据来处理,所以是通过移动数据平均分配到机器资源来获得高效率。
http://www.searchtb.com/2012/09/introduction-to-storm.html
http://www.ibm.com/developerworks/cn/opensource/os-twitterstorm/
比较实用的DRPC
https://github.com/nathanmarz/storm/wiki/Distributed-RPC
分布式部署
https://github.com/nathanmarz/storm/wiki/Running-topologies-on-a-production-cluster
每个实例都要部署你的处理数据逻辑的代码。
DRPC的server其实只需一个,它将工作转发到storm分布架构中了。所以我觉得server可以直接本地方式运行。
http://blog.csdn.net/victory0508/article/details/8717704
http://www.infoq.com/cn/news/2011/09/twitter-storm-real-time-hadoop