Category: 云计算

Parquet 文件简介

我在AWS亚麻迅云(S3存储)工作的时候第一次了解到Parquet文件,觉得很神奇。简单来说,就是CSV文件按列来存储。 什么是 Parquet 文件? Parquet是一个为大数据处理框架(如Apache Hadoop、Apache Spark等)优化的列式存储文件格式。它是Twitter和Cloudera之间的合作产物。作为一种列式格式,与传统的基于行的格式(如CSV或JSON)相比,它具有一些明显的优势: 压缩 由于列式存储的特性,每一列的数据更为同质,这使得它比基于行的存储具有更好的压缩比。例如,存储年龄值的列将只有整数,从而实现有效的压缩。 读取效率 对于只需要部分列的分析查询,Parquet只从磁盘读取必要的列。这比读取整行并丢弃不需要的数据更为高效。 模式进化 Parquet支持复杂的嵌套数据结构,且其模式可以随时间发展。这意味着您可以在不需要重写整个数据集的情况下添加、删除或修改列。 性能 有效的压缩和通过只读必要列来减少I/O的组合可以极大地加快大型数据集上的分析查询性能。 兼容性 Parquet得到了广泛的数据处理工具的支持,包括但不限于Hadoop、Spark、Presto、Hive、Impala等。 类型支持 Parquet支持丰富的数据结构,包括标准原始数据(整数、浮点数、字符串)和更复杂的类型(列表、映射、结构体)。 压缩算法 Parquet支持多种压缩算法,允许用户选择压缩比和解压速度之间的最佳权衡。 谓词下推 许多处理引擎可以利用Parquet的列式特性来下推某些谓词(过滤器)并只读取必要的数据块,从而进一步优化查询性能。 一个Parquet格式的最简单的例子 要更好地理解Parquet格式,与CSV这样的传统基于行的格式对比数据的存储方式是很有用的。 假设你有一个小型的数据集,记录了人们的名字和他们的年龄: CSV格式: Name, Age …

如何在Amazon Drive年底停止工作之前下载备份上面的文件数据?

亚马逊驱动器 Amazon Drive 年底会停止工作. Amazon Drive就是类似 Dropbox, 微软的 One Drive, Google Drive, Box等云存储空间. 大多数云提供商都提供 5GB 免费套餐. 许多提供商已经停止了云驱动服务, 因为这是一个竞争激烈的市场. 例如, Ubuntu 曾经有一个 Ubuntu One 5GB 云盘. Amazon Drive现已经被集成到Amazon Photos的一部分. 自 …

Amazon Photos 无限量照片备份

对我来说, 拥有 Amazon Prime 会员/订阅的最大的好处就是拥有无限/Unlimited的照片备份/云存储. 到目前为止, 我已经在 Amazon Photos 上存储备份了超过 20 万张照片, 如果我选择将它们存储在云中的其他位置, 我会花费更多. 无限量也就意味着我不用时刻去删除照片, 可以一股脑的把照片都上传到云端. 以前因为硬盘丢失或损坏有很多照片和视频都再也看不到了(2010年去捷克出差拉酒店但是后来回英国打电话去酒店说, 他们说没找到, 还有就是疫情期间不小心碰到电源然后接触不良硬盘损坏), 从那之后我就养成了数据备份的习惯, 本地两个硬盘RAID-1镜像冗余备份, 再加上多个云端备份, 而Amazon Photos就是一个我现在主要备份照片用的云存储. 使用 Amazon Photos 备份无限量/Unlimited照片 如果你和我一样, …

Vultr 主机商提供免费VPS云主机!

我是 Vultr 云主机运营商好几年的老用户了. 著名的 Vultr 云主机提供商推出了免费VPS云主机 Free Tier. 但是得申请, 按照内部评定的分数来决定你是否能获得这个免费云主机. 当前Vultr用户更容易通过申请. 申请通过后可以在 (Cloud Compute – Regular – Free Instance) 里创建一个免费的实例. 每个月只能同时有一个免费的实例. 你可以销毁免费的这个云主机实例然后之后在另的好区选择不同的操作系统再创建新的实例. 不过, 一个月最多能干两次这种事情. 免费送的VPS云主机配置不高: 512MB RAM, 1 CPU …

通过CloudFlare Worker搭建负载均衡服务器

Cloudflare Worker 是和 Amazon Lambda, Google Function 类似的无服务器 Serverless 技术. 我们可以写一些代码(JS)部署到 CloudFlare 的网络节点中. 这项技术的好处是我们并不需要去维护服务器(减少运维成本), 而且通过Serverless技术很容易就可以把程序跑在成千上万的节点上 (较强的可扩展性). 负载均衡服务器(Load Balancer)用于把用户的请求重新分配(Route)到提供真正服务的源服务器(Worker). 我们可以通过负载均衡来实现水平扩展(Horizontal Scaling). 当然如果负载均衡只有一台服务器, 也是会有单点故障的 (Single Point of Failure). 如果通过CloudFlare Worker来搭建负载均衡, 这样我们的负载均衡服务器会被自动部署到成千上万的CloudFlare节点中 …