Tag: SRE

写了十几年代码, 谷歌/Google认为我还不够Senior

我儿子也说我不够Senior: 去年9月,我第三次面试伦敦谷歌,目标是一个SRE(站点可靠性工程师)职位,抱着试试看的心态参加了面试。第一轮面试的最后两分钟,回答了一个关于如何将算法应用于分布式系统(如何优化算法)的follow-up问题,表现得不太好,因此没能通过那一轮。 不过严格来说也不算被拒绝。等了三周后,他们告诉我最终选择了另一位候选人,虽然我的表现不是最出色的,但应该达到了最低门槛,所以并未直接拒掉我,而是建议我等待伦敦的其他职位空缺再申请。 这一等就到了12月。这位谷歌的美女猎头联系了我,很快安排了隔一周的两轮算法与编码面试。新年后还有两轮:一轮系统设计,一轮文化匹配(也就是行为测试)。 这是我第二次进入谷歌的终面(Final Rounds),也就是 Onsite Interviews。 谷歌终面:接近L5却被给L4,大饼画得响 面试结束后的第二周,我发了邮件询问结果,但没收到任何回复。又过了一周,还是毫无消息。我一度以为自己被拒绝了,甚至怀疑是不是发挥太差,谷歌连拒信都懒得发给我。 上周(面试后的第6周),突然就接到猎头的邮件,她说: I hope you’re keeping well! Apologies for my delay I’ve been unexpectedly out the office. Your feedback isn’t …

站点可靠性工程师(SRE) vs 软件开发工程师(SE/SDE)

许多大公司都有站点可靠性工程师(SRE = Site Reliability Engineer)的职位空缺。例如,谷歌、Facebook/Meta 或字节跳动的抖音。软件工程师(Software Engineer)与亚马逊/Amazon所称的软件开发工程师相同(Software Development Engineer)。 站点可靠性工程师(SRE)是一个专注于确保生产环境中软件系统的可靠性、可扩展性和性能的角色。SRE 负责服务的健康状况和正常运行时间,平衡软件开发与运维任务。软件工程师(SE)主要专注于编写和维护代码以创建软件产品,而 SRE 则融合了开发技能、系统管理、故障排除和事件管理,以确保这些产品在实际环境中顺利运行。 以下是两者之间关键区别的比较: 站点可靠性工程师 (SRE) 专注于可靠性与运维: 确保系统高度可用、可扩展且具有弹性。 监控系统健康状况,管理事件并处理故障。 运维自动化: 使用代码自动化手动任务(例如基础设施部署、监控和补救措施)。 通过创建自动恢复或仅需最少人工干预的系统来减少重复性工作。 随叫随到的职责/也就是On-call:我在亚马逊AWS云On Call的体验 通常参与随叫随到的轮值,处理操作问题和紧急情况。 性能和容量规划: 分析系统性能,确保系统能够应对增长和流量高峰。 SLA、SLO 和 …