题 Joel测试系统管理员作业


基于 “组织问题” - IT的痛点?  我认为系统管理员需要确定一个地方是否值得工作是公平的。有一个众所周知的类似 由Joel为程序员测试

系统管理员在面试时应该问的12个问题是什么,以帮助他们决定是否是一个好的工作场所?

按照乔尔的规则:

  1. 问题应该是平台和技术无关的
  2. 问题应引出简单的回答,例如是或否

编辑: 请一次发布一个问题,以便我们查看用户投票的内容。


142




问题 - 我们是否应该将每个问题放在一个单独的答案中,以便我们有一个前12个投票的问题/答案? - Brian
我认为这可能是最好的工作方式。 - Nick Kavadias
Joel Test使用是/否问题,所以也许我们应该坚持使用这些类型而不是“如何”或“描述”问题。 - Doug Luxem
真正。但问题也可以用“除x之外的任何其他答案”也足够了。每个组织都以不同的方式做事,虽然Joel已经足够好提供模板,但这并不意味着/ everyone /将遵循相同/种类的模板。 - Avery Payne
7号不符合问题标准。此外,如果没有相当多的工作及其环境的先验知识,7号的答案也将毫无价值。 - John Gardeniers


答案:


您是否使用事故/票务跟踪系统?


101



还有一个推论:它是否支持电子邮件和对话?我们在这里使用的系统会对你的问题回答“是”,但接近净损失。不可避免地会有报告,帮助台不会提出正确的问题。因此,其他人进入并进行无证件的二次信息收集,修复问题并且不做任何努力来记录这些问题。至少使用临时电子邮件线程,您最终会得到引用的对话历史记录。 - jldugger
这可能是好事还是坏事。一些票务系统最终阻碍了几乎所有其他工作,帮助台不断升级只是为了让票证脱离他们的领域。 - sclarson
您需要一个事件系统来收集有关实际问题所在和/或重新发生的位置的统计信息。这是修复损坏系统的良好基础,它的报告可帮助管理层确定这是您必须处理的有效问题。 - Oskar Duveborn
问题和事件之间存在差异。一个事件是一个事件。一旦出现事故模式,就会出现问题。 - geoffc


您是否执行系统备份,并定期进行测试还原?


80





  • 在日常运营中,还有多少人和我一起工作?

这会影响您以非常直接的方式执行的能力。它也会影响你不间断度假的能力......

  • 谁是第一个遇到问题的人?

这个答案会有所不同,但它很好地表明了组织如何实际“组织”。大型设置应该有一个帮助台和售票系统;小设置应该有 至少 票务系统,以及某种公司付费寻呼机的帮助。

“只是你”不是一个可接受的答案。这是完全缺乏组织,应该跟进一个问题“如何跟踪用户的请求?”。这个 必须 得到答复 某物 除了“你没有”。

  • 您现有系统与管理员的比例是多少?

这不应该太高(高于50:1)或太低(低于5:1)。太高了,你的工作量会非常严重,你会踩着水来维持生计。太低,你要么是单人商店,要么商店管理系统的能力存在严重问题。

与往常一样,该规则也有例外;可以从单一来源(想想网络前端)成像200多个系统的实例,以及业务非常小的实例(20个员工可能只需要2个服务器)。

  • 您的最终用户/客户与管理员的比例是多少?

这是衡量期望的标准。这些是你的“顾客”。当出现问题时,这将是您解决问题所需的“压力”。如果您的系统遇到问题,只有2名管理员的5000人组织可能是一个非常非常紧张的地方。

  • 您的最终用户/客户与现有系统的比率是多少?

这是衡量服务器工作负载的指标。非常高的比率可能是过度使用的迹象,或预算限制,当需要扩展时,它会束缚你的手。未充分利用也可能是一个问题,当它没有被要求时(即HR有自己的服务器是有道理的,但5000个组织中只有5个“常规”用户的文件服务器是一个红旗);这可能需要一些“虚拟化”来整合服务器......

  • 是否存在处理现有系统更新的现有流程,例如应用供应商补丁或固件更新?

这应该是除(a)“我不知道”或(b)“我们不更新”之外的任何其他答案。

  • 说服务器着火了。如果出现危机或灾难,停机时间可以接受的时间范围是多少?

这应该 总是 是一个合理的问题。如果面试官在这个问题上变得不合时宜,那么他们就不了解你的工作性质,这是对未来前景的重要线索。如果期望是24/7运行,那很好 - 除非他们没有基础设施,这意味着 你会照看孩子的机器很多。了解什么是可接受的和不可接受的,有助于向他们提供关于他们真实期望的信息。

  • 说到火灾,你的设备是否有灭火系统,是否属于合适的类型?

洒水器是  可接受的答案。这个  发生了,而你  让组织认为把架子塞进一个没有通风的扫帚壁橱里,头上还有一个喷火器 一个好主意。如果这被低估,忽视或遇到敌意,那么起床,谢谢面试官,等等 不要走路,跑......

  • 描述您的数据备份过程和使用的存储格式。

这是另一个问题,应该用“我们没有”和“我们没有备份媒体”以外的任何问题来回答。

  • 您是否定期测试备份,以及频率如何?

以上问题的后续行动。如果您没有定期测试,那么您只是在招惹麻烦。

  • 资本支出和次要购买是否有已知的预算和购买流程?你能解释一下我用来购买东西的过程吗?

如果答案是“我们(其他人)将根据需要购买”,那就是一面红旗。这意味着“我们不相信你在真正需要的时候购买设备,所以我们会让别人去做”。 应该总是有某种预算。

购买东西的过程应该很容易在不到2分钟的时间内解释。它不应该涉及超过2个签约方(更高的数字表示繁文缛节),它应该在几天或几小时而不是几周内进行周转(如果太长则关键购买会被搁置)。 应该总是有某种过程。

  • 您是否有计划刷新和回收旧硬件,以及它经常出现的频率?

实际上,我看到有18家小型计算机运行的公司通过支持合同和支持供应商的大量备件保持活力。当然,原始硬件供应商有  离开后......

桌面单元的刷新速度不应超过3年,要么低于5年。在预算紧张的企业中,将桌面设备延长至5年有时是一个合适的答案。

关于回收的问题是一个测试,看看他们是否对旧硬件有“一次性”的态度。从某种意义上说,你应该通过一个已知的回收商妥善处理它,这是很糟糕的,但从某种意义上来说,如果需要,你可以将旧硬件压缩成临时职责。它还可以让您了解他们的“boneyard”(一堆旧硬件)的大小。

相关问题:

https://serverfault.com/questions/44638/how-often-does-tech-refresh-happen


72



很好的综合反应。 “刷新和回收”也是对服务器提出要求的一种方式;你不想进入一个你大部分时间都在护理古代服务器的商店,对吗? - Maximus Minimus
这里有很多好点,你有机会把它砍掉并作为单独的答案重新发布,这样我们就知道社区如何优先考虑每个项目? - Kara Marfia
很奇怪......是否有一个SO错误,允许170位代表的用户对答案进行编辑但是没有编辑可见? serverfault.com/users/9113/joshperry 在底部进行了两行编辑,但我认为当有人进行编辑时你可以公开看到它是谁...... - Avery Payne


您有灾难恢复计划吗?这包括IT吗?

伟大评论的后续行动: 如果是这样,它是否包括整个组织而不仅仅是IT?它是否包括人员,您是否定期测试?

相关问题:

灾难恢复计划制定最佳实践或资源?


49



他们是否意识到DR不仅仅是一个IT问题?许多地方仅仅依靠IT就认真考虑DR,并且没有计划他们的纸质文件。 - Maximus Minimus
是的,这是真的 - 虽然我也经常看到相反的情况:有很好的计划在哪里重新安置执行管理层和核心业务工作人员,以防办公室变得无法使用 - 但没有任何办法让IT工作,当时服务器机房与灾难计划所在的办公室完全相同,真的很傻......但话说再次,他们有很好的手动例程 一切  - 这使他们能够更好地处理更短的IT中断。 - Oskar Duveborn
答案“是的,我们已经完全投保”并不是一个有效的答案。 - Joseph
你有DR计划,是否包括人员?如果建筑物烧毁,我将坐在哪里...... - Jeffrey Hulten
你经常测试吗? - romandas


是否记录了当前的环境?

这些政策和程序是否都记录在案并且一致?


40



“如果我明天被雇用,而我的团队的其他成员都在明天的午餐中赢得了彩票(或”在一场怪胎事故中死亡“),那么文件是否足以让我管理环境?”又名文档是否正确?真的对吗? -Waldo - gWaldo


内部会计实践是否评估IT为其他部门提供的服务的价值,还是将IT简单地视为成本中心?

(这与Stick的“问题是你的组织中的优先事项还是一个必要的邪恶?”的问题几乎完全相同?但是措辞是为了可能引出一个诚实的答案而不是公然的电报正确的谎言。)


37



我喜欢!有点太太管理,但我现在可以忍受它 - Nick Kavadias
是啊。我担心您需要管理员来指定准确的问题。不能用68K机器语言破解Xeon,不能用英语破解经理的大脑。 - chaos


我认为必须具备的一件事是测试机器具有与实时服务器相同的硬件规格。

“您的测试环境与生产的匹配程度如何?”


36



同样地,我会说其中一个问题应该是“你们是否有单独的开发,阶段和生产系统以及变更控制流程?” - gharper
这应该是常规Joel测试的一部分。我不能告诉你我有多少次部署到PROD,只是为了找到一个我们没有看到的bug,因为Stress区域是 强大四倍! - tsilb


我觉得非常有趣的是,许多答案的措辞都是“你有这个吗?”或者“你定期这样做吗?”如果我将被聘为一个新的系统管理员,我希望能够实现这些东西,如果他们还没有存在。灾难恢复和监控日志不会成为或破坏访谈。如果他们没有做这些事情,他们将在我被雇用之后。

正如我前面提到的,我主要担心的是上面的支持。如果我说我们需要更换服务器,我想要怀疑的好处。或者,如果我实施恼人的安全策略,我不希望合作伙伴向抱怨的人提供豁免权,这样他们看起来就像是一个善良的关怀老板。

系统管理员处于公司结构层次结构中的陌生位置。有时他们正在根据大多数初级人员的需求来指导和确定他们的优先事项,有时候他们正在制定管理政策。我们同时处于最低端和最高端。

只要管理层在我处于最佳位置的情况下得到我的建议,我愿意通过处于最底层来扮演替罪羊和peon的角色。


34



Joel Test并不是“你错过12个中的3个,因此我拒绝你的提议” - 它只是一个工具,可以帮助你最好地评估IT的当前状态,并进行相应的协商。 - Kara Marfia
“如果他们不做这些事情,他们就会在我被雇用之后。”如果你有技能 说服 他们应该根据您的需求改变管理,我印象深刻。 - tore-


所有新的系统/软件/应用程序购买都是通过IT进行的吗?IT是否有能力拒绝并建议另一个系统,也许是另一个系统已经在使用的系统?


33



aka - 公司的硬件标准化方法是什么? - Kara Marfia
......和软件(或简称系统)标准化^^ - Oskar Duveborn
这是一个有趣的问题,因为它可能是消极的或积极的 - 对IT部门权力比对支持业务更感兴趣的IT部门可能是一个非常消极的环境。 - Whisk
也是如此,我有点依赖IT选择最佳系统来完成任务 - 但我看到太多的例子,其中三个不同的办公室(SAME部门)试图为销售/客户支持或电子钥匙购买不同的系统 - 只是因为每个当地经销商都有一个小的价格优势......他们没有意识到的是集中运行的成本,并且负责IT运营的所有这些不同的系统与实际运行相同的神相比是巨大的该死的系统适合每个人,并获得人们掌握它的协同效应。 - Oskar Duveborn
这不是关于电力行程,而是关于具有可管理的硬件标准。这个绝对不是可选的。 - Kara Marfia


您是否愿意花钱购买适当的监控/记录工具?

- 或者,从最初的乔尔测试问题:

你用钱可以买的最好的工具吗?

相关问题:

服务器健康监控软件


32



我建议不要将其称为“愿意花钱”,而是将其称为“你使用(或推广使用)适当的监控记录工具”因为监控一些最好的是免费的。 Nagios,MRTG,仙人掌等 - Brian
甚至可能就像“你知道服务器是否中断了吗?”这样简单的事情。 - Nick Kavadias
一些最好的一些根本不是免费的 - 取决于被监控的环境...... - Oskar Duveborn
我会把它留作“愿意花钱”,因为像nagios这样的“免费”通常比开箱即用的解决方案更贵,而不是国会花费管理时间而不是钱(希望)。 “承诺资源”可能是管理说“我们当然愿意花时间来解决我们的监控问题以及你是我们的系统管理员” - Jim B
我认为Joel对这个类似概念的说法是“你能用钱买的最好的工具吗?”几乎任何可以想象的职业都适合我。 - SingleNegationElimination


我可以和你以前的系统管理员说话吗?


31