2024-05-07 15:30 admin
数量大,无规律,重复度高,繁殖速度快,私密性差, 01 数据采集与预处理 数据采集就是将这些包括移动互联网数据、社交网络的数据等各种来源的数据,写入数据仓库中,把零散的数据整合在一起,对这些数据进行综合分析。 Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,HDFS,Hbase等)。 NDC,Netease Data Canal,直译为网易数据运河系统,是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。 Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一、互联网数据的五个特征是什么?
二、互联网数据要学什么?