当前位置：首页>开发>正文

hadoop和spark的区别 lucene nutch solr及hadoop的区别和联系

2023-04-29 17:32:11 互联网未知开发

hadoop和spark的区别

Hadoop和Spark的联系和区别
计算数据存储位置
Hadoop：硬盘
Spark：内存
计算模型
Hadoop：单一
Spark：丰富
处理方式
Hadoop：非迭代
Spark：迭代
场景要求
Hadoop：离线批处理。（面对SQL交互式查询、实时处理及机器学习等需要和第三方框架结合。多种数据格式转换，导致消耗大量资源）
Spark：批处理、实时处理

lucene nutch solr及hadoop的区别和联系

apache lucene是apache下一个著名的开源搜索引擎内核，基于Java技术，处理索引，拼写检查，点击高亮和其他分析，分词等技术。
nutch和solr原来都是lucene下的子项目。但后来nutch独立成为独立项目。nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎，后归于apache旗下。nutch主要完成抓取，提取内容等工作。
solr则是基于lucene的搜索界面。提供XML/HTTP 和 JSON/Python/Ruby API，提供搜索入口，点击高亮，缓存，备份和管理界面。
hadoop原来是nutch下的分布式任务子项目，现在也成为apache下的顶级项目。nutch可以利用hadoop进行分布式多任务抓取和分析存储工作。
所以，lucene,nutch,solr,hadoop一起工作，是能完成一个中型的搜索引擎工作的。

hadoop和spark的区别 lucene nutch solr及hadoop的区别和联系

hadoop和spark的区别

lucene nutch solr及hadoop的区别和联系

最新文章

随便看看