基于流式引擎的大数据分布式架构
柴志菲 李翔
在人工智能流行的时代,数据量的增长速度也是无法估计的,网络上的留言也越来越多,也难免会有一些污秽的语言,所以净化网络环境是很重要的事情,我们可以利用自动化的网页抓取技术将网络上的留言保存下来,通过设计大数据架构对数据进行实时计算,然后分批装载进数据库,常见的流式处理技术像kafka[1]+spark streaming[2]+zookeeper[3]这样进行架构,然后再将处理后的数据存储进hive 或者HDFS这样的存储单元。