Tag: SRE

写了十几年代码, 谷歌/Google认为我还不够Senior

2025年2月21日程序员, 面试 No Comments

我儿子也说我不够Senior：去年9月，我第三次面试伦敦谷歌，目标是一个SRE（站点可靠性工程师）职位，抱着试试看的心态参加了面试。第一轮面试的最后两分钟，回答了一个关于如何将算法应用于分布式系统（如何优化算法）的follow-up问题，表现得不太好，因此没能通过那一轮。不过严格来说也不算被拒绝。等了三周后，他们告诉我最终选择了另一位候选人，虽然我的表现不是最出色的，但应该达到了最低门槛，所以并未直接拒掉我，而是建议我等待伦敦的其他职位空缺再申请。这一等就到了12月。这位谷歌的美女猎头联系了我，很快安排了隔一周的两轮算法与编码面试。新年后还有两轮：一轮系统设计，一轮文化匹配（也就是行为测试）。这是我第二次进入谷歌的终面（Final Rounds），也就是 Onsite Interviews。谷歌终面：接近L5却被给L4，大饼画得响面试结束后的第二周，我发了邮件询问结果，但没收到任何回复。又过了一周，还是毫无消息。我一度以为自己被拒绝了，甚至怀疑是不是发挥太差，谷歌连拒信都懒得发给我。上周（面试后的第6周），突然就接到猎头的邮件，她说： I hope you’re keeping well! Apologies for my delay I’ve been unexpectedly out the office. Your feedback isn’t …

[继续阅读……]

站点可靠性工程师(SRE) vs 软件开发工程师(SE/SDE)

2024年10月19日工作, 程序员, 资讯, 软件工程 No Comments

许多大公司都有站点可靠性工程师（SRE = Site Reliability Engineer）的职位空缺。例如，谷歌、Facebook/Meta 或字节跳动的抖音。软件工程师（Software Engineer）与亚马逊/Amazon所称的软件开发工程师相同（Software Development Engineer）。站点可靠性工程师（SRE）是一个专注于确保生产环境中软件系统的可靠性、可扩展性和性能的角色。SRE 负责服务的健康状况和正常运行时间，平衡软件开发与运维任务。软件工程师（SE）主要专注于编写和维护代码以创建软件产品，而 SRE 则融合了开发技能、系统管理、故障排除和事件管理，以确保这些产品在实际环境中顺利运行。以下是两者之间关键区别的比较：站点可靠性工程师 (SRE) 专注于可靠性与运维：确保系统高度可用、可扩展且具有弹性。监控系统健康状况，管理事件并处理故障。运维自动化：使用代码自动化手动任务（例如基础设施部署、监控和补救措施）。通过创建自动恢复或仅需最少人工干预的系统来减少重复性工作。随叫随到的职责/也就是On-call：我在亚马逊AWS云On Call的体验通常参与随叫随到的轮值，处理操作问题和紧急情况。性能和容量规划：分析系统性能，确保系统能够应对增长和流量高峰。 SLA、SLO 和 …

[继续阅读……]