Storm笔记:分布式实时计算

06 Aug 2013 in java / Web on hadoop, storm, 大数据 - Hits()

Storm是tweeter 开源的，具有实时分布式计算的能力，由closure实现，但是客户端提供了多种语言,当然包括java。

官方wiki:

https://github.com/nathanmarz/storm/wiki/Tutorial

与Hadoop的比较:

http://blog.csdn.net/larrylgq/article/details/7326058

hadoop是实现了mapreduce的思想，将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中，所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率

而storm不同，storm是一个流计算框架，处理的数据是实时消息队列中的，所以需要我们写好一个topology逻辑放在那，接收进来的数据来处理，所以是通过移动数据平均分配到机器资源来获得高效率。

http://www.searchtb.com/2012/09/introduction-to-storm.html

http://www.ibm.com/developerworks/cn/opensource/os-twitterstorm/

比较实用的DRPC

https://github.com/nathanmarz/storm/wiki/Distributed-RPC

分布式部署

https://github.com/nathanmarz/storm/wiki/Running-topologies-on-a-production-cluster

每个实例都要部署你的处理数据逻辑的代码。

DRPC的server其实只需一个，它将工作转发到storm分布架构中了。所以我觉得server可以直接本地方式运行。

http://blog.csdn.net/victory0508/article/details/8717704

http://www.infoq.com/cn/news/2011/09/twitter-storm-real-time-hadoop

http://xumingming.sinaapp.com/category/storm/