Tag: 数据
一个月拿下 4 张微软证书:云、AI、数据、安全 上一两个月里,我在一个月之内考过了四个微软的初级证书,分别对应计算机的四大方向:云、AI(人工智能)、数据和安全。 毕竟干码农也十几二十年了,除了做了几套练习题外,基本没有系统复习,所以整体来说考得还算轻松。 我是去年十一月左右,偶然在公司内部的一个学习频道里看到考证的信息。微软员工考自家的证书(和其他大厂,比如 AWS 一样)是免费的。 这种“薅羊毛”的机会,我怎么可能错过?一件事情如果同时有好几个好处,我一般都会去做。考证这件事正好满足: 免费(公司报销 / 内部 voucher) 有明确目标,能推动自己系统学习 简历上更好看 对知识结构做一次系统性梳理 微软证书体系结构 微软证书大致分三个等级: Fundamentals(初级,通常是 -900 系列) Associate(中级) Expert(高级) 我这次考的四张都是 初级/Fundamentals 级别。 像 PL-900 这样的证书也属于 …
我在AWS亚麻迅云(S3存储)工作的时候第一次了解到Parquet文件,觉得很神奇。简单来说,就是CSV文件按列来存储。 什么是 Parquet 文件? Parquet是一个为大数据处理框架(如Apache Hadoop、Apache Spark等)优化的列式存储文件格式。它是Twitter和Cloudera之间的合作产物。作为一种列式格式,与传统的基于行的格式(如CSV或JSON)相比,它具有一些明显的优势: 压缩 由于列式存储的特性,每一列的数据更为同质,这使得它比基于行的存储具有更好的压缩比。例如,存储年龄值的列将只有整数,从而实现有效的压缩。 读取效率 对于只需要部分列的分析查询,Parquet只从磁盘读取必要的列。这比读取整行并丢弃不需要的数据更为高效。 模式进化 Parquet支持复杂的嵌套数据结构,且其模式可以随时间发展。这意味着您可以在不需要重写整个数据集的情况下添加、删除或修改列。 性能 有效的压缩和通过只读必要列来减少I/O的组合可以极大地加快大型数据集上的分析查询性能。 兼容性 Parquet得到了广泛的数据处理工具的支持,包括但不限于Hadoop、Spark、Presto、Hive、Impala等。 类型支持 Parquet支持丰富的数据结构,包括标准原始数据(整数、浮点数、字符串)和更复杂的类型(列表、映射、结构体)。 压缩算法 Parquet支持多种压缩算法,允许用户选择压缩比和解压速度之间的最佳权衡。 谓词下推 许多处理引擎可以利用Parquet的列式特性来下推某些谓词(过滤器)并只读取必要的数据块,从而进一步优化查询性能。 一个Parquet格式的最简单的例子 要更好地理解Parquet格式,与CSV这样的传统基于行的格式对比数据的存储方式是很有用的。 假设你有一个小型的数据集,记录了人们的名字和他们的年龄: CSV格式: Name, Age …
在线工具 – 中国行政区邮编双向查找 (带数据 和 API). 支持模糊查找, 双向查找. 但不支持 把省和市具体名称的查找 比如 “福建厦门” (要么 福建 要么 厦门). 科普一下知识: 目前中国一共有23个省, 5个自治区, 4个直辖市和2个特别行政区. 输入 “特别行政区”, 返回: 香港特别行政区 810000 澳门特别行政区 820000 输入 “自治区”, …