题 最佳系统管理员意外[已关闭]


我正在寻找有关系统管理员意外的有趣故事。删除CEO的电子邮件,格式化错误的硬盘等。

我将添加自己的故事作为答案。


87
2018-05-13 21:00




也可以看看 serverfault.com/questions/5066 - Zoredache
这真的是一个民意调查,然后是一个问题。这可能应该设置为社区维基。 - Zoredache
是的,这绝对应该是一个社区维基。不过,在问题的意图中,我最喜欢的故事是500英里的电子邮件 - ibiblio.org/harris/500milemail.html  - 虽然,显然,那不是我。 - Mihai Limbăşan
500英里很棒 - Hubert Kario
这应该被称为“更糟糕的系统管理员意外”。 - Rilindo


答案:


我很高兴发现linux“killall”命令(杀死所有匹配指定名称的进程,对停止僵尸很有用)和solaris“killall”命令之间的区别(杀死所有进程并暂停系统,对于停止生产服务器很有用)在高峰时段的中间,让所有同事嘲笑你一个星期)。


133
2018-05-13 23:20



去过也做过。之后我们在solaris-box上将killall命令别名:alias killall ='echo ORLLY?' =) - Commander Keen
Solaris上的“ifconfig -a4”(显示所有接口的IPv4信息)和“ifconfig -a 4”(将所有接口设置为0.0.0.4)之间也存在重要差异。 - Zanchey
+1“哎呀,这风吹进了solaris?” - Mark Harrison
@Commander,我打算推荐你的评论,但有 究竟 在这一刻,42赞成......我只是 不能。 - Massimo
也, hostname -f 在Linux上打印Linux上的完全限定域名。在Solaris上,它将主机名设置为 -f。 - 200_success


我负责公司网络代理,当时是Netscape的产品。在管理表单(这是一个基于Web的界面)中玩游戏时,有一个很大的(我发誓它是红色的)按钮说 删除用户数据库。没问题,我想。让我们看看当我点击它时它给我的选项是什么。如果没有选项,肯定会有确认提示。

是的,没有确认。没有选择。没有更多的用户。

所以,转到Solaris Sysadmin先生并说我迫切需要从磁带上恢复,他回答说:“我不会把那个盒子拿回来。”

“呃,再来一次,”我反驳道。

“我不支持那个盒子。这是我要添加到备份轮换中的东西列表,但我还没有完成它。”

“这台服务器已经生产了将近8个月!”我尖叫。

, 他回答。 “抱歉。”


73
2018-05-14 12:26



这绝对是所有那些抱怨那些讨厌的人“你确定吗?”的故事。对话框;) - MikeyB
我不确定你应该是那个尖叫他的人...... - Mikeage
这不是一个意外 - 你故意按下删除用户数据库按钮,来吧老兄... - Wayne Koorts
是啊,你说得对。按下按钮不是偶然的。实际上删除数据库是事故的一部分。随你... - squillman
该按钮后面应该有两到三个确认提示。删除用户数据库有什么用?我完全责怪程序员把按钮放在那里。而db没有备份的事实。 “天才可能有其局限性,但愚蠢并没有因此而受到妨碍。” (attr到Elbert Hubbard)。假设人类并不好奇,粗心大猩猩正在构建一场灾难。 - Jared Updike


很多年前,我工作的公司有一个客户端,他们将他们的NT 4.0服务器的夜间备份运行到 贾兹开车 (像一个高容量的拉链盘)。

我们设置了一个批处理文件,该文件在一夜之间作为预定作业运行。每天早上他们都会从驱动器中收集昨晚的磁盘,然后在他们离开之前他们会按顺序插入下一个磁盘。

无论如何,批处理文件看起来像这样(Jaz驱动器是驱动器F :) ...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

无论如何,有一天晚上他们忘了把磁盘放入。驱动器F的更改失败了(驱动器中没有磁盘),批处理文件继续运行。批处理文件的默认工作目录? C:。我第一次看到备份例程 破坏 它备份的服务器。

那天我学到了一些关于系统管理(和异常处理)的知识。

吉姆。

PS:修复? “deltree / y F:\ *。*”。


66
2018-05-13 20:00



......我们要解释一下Jaz驱动器是什么?我真的那么老吗? - Spencer Ruport
这是一个IOMEGA的东西(记得Zip Drives?)是Zip Drives的大哥,它就像一个没有磁头的硬盘,只是盘子,进入一个带有小窗口的塑料盒子里,当插入时驱动器,驱动器插入标头。如果像1或2GB,昂贵,并且往往过热,所以不建议将墨盒留在读卡器内(这是由一位老IOMEGA老板说的) - Andor
呵呵,我喜欢jaz驱动器是如何通过与刚刚死亡和无关的拉链驱动器进行比较来解释的。 - Luke
如果它让你觉得年纪大了,那么之前从未见过的系统管理员就是deltree。 - Joseph
我不得不向很多程序员解释,当你尝试改变状态的操作,但可能会失败并让你处于以前的状态时,如果你要做一些危险的事情,你必须检查它是否成功如果你处于以前的状态。为什么我要解释这个? - carlito


root @dbhost #find / -name core -exec rm -f {} \;

我:“你不能进去?好的。数据库名称是什么?”

铜:“核心。”

我:“哦。”


61
2018-05-13 18:31



从那时起,使用'file'命令被添加到清理crontab ... :) - MikeyB
哦亲爱的上帝...... - squillman
我的天啊...哇。我要记下这个,所以我从来没有这样做过。 - Glenn Willen


我喜欢每个人用“当我年轻/绿色”的时候对他们的故事进行限定的方式,好像他们再也不会这样做了。即使是经验最丰富的职业选手也可能发生意外。

我自己最糟糕的时刻是如此糟糕,我仍然有心悸思考它...

我们有一个SAN,上面有生产数据。对公司至关重要。我的“导师”决定扩展分区以释放一些磁盘空间。你能看到它的发展方向吗?他说,SAN软件可以在生产时间内实现这一目标,没有人会注意到。警钟应该已经响起,但显然是沉默的。他说他之前已经“完成了很多次”没有任何问题。但事情就是这样 - 他让我点击按钮说“你确定吗?”!因为我是公司的新手,所以我认为这个人知道他在说什么。大错。好消息是LUN得到了扩展。坏消息是......当我开始在Windows机器上看到磁盘写入错误时,我知道有坏消息。

我很高兴我穿着棕色裤子。

我们必须解释为什么1TB的数据在午餐时间消失了。那是非常非常糟糕的一天。

实际上这是一个很好的原则 - 在你做一些你怀疑的事情之前,想象一下如果出现问题就必须向管理层解释。如果你想不出一个很好的答案来解释你的行为,那么就不要这样做。


60
2018-05-13 18:22



最后一段为+1 - “坐在你的手上”技术,一个重要的反思时刻 - Andy
在使用实时系统一段时间后,您将获得一定的技能:蜘蛛意识到什么是危险的,什么不是。就像在根提示符下返回之前暂停一个额外的秒,或者确保SQL update语句具有正确的where子句(已经在select count(*)中运行)。 - jplindstrom
我想要一个弹出窗口,上面写着“你想在继续之前打印你的简历吗?” ..并且只有一个选项:“是” - warren
+1表示最后一段中的建议 - Jeroen Huinink
+1,同上。我记得在一位系统管理员的朋友那里听说他的年度表现评估中存在关于他的打字速度不佳的问题,他轻蔑地(并且正确地)驳回了“我没有付出快速打字的费用。我付出了很高的回报率。慢慢地,若有所思地。“ - MadHatter


一天早上,当工作时间开始说它无法连接到非关键服务器时,Nagios就把我们搞砸了。好的,徒步到服务器房间。这是一台旧服务器,是在2002年购买的戴尔1650,我们知道1650年代一直存在硬件问题。 PFY刺入电源按钮。没有。再次点击它,并按住它五秒钟以“强制开机”......这将覆盖BMC的错误保护,因为没有DRAC,无法在没有打开机箱电源的情况下检查BMC日志。

机器开始POST,然后再次死亡。我站在它上面然后说:“我闻到烟味。”我们将服务器拉出轨道,其中一个电源感觉很温暖,所以PFY拉动它并准备关闭盒子。我说,“不,那不是电源烟,这是主板烟雾。”

我们再次打开案例,寻找燃烧气味的来源。原来一个电感线圈和一个电容器吹掉了主板上的稳压器,并将熔化的铜和电容器喷到了所有东西上,缩短了一堆东西,基本上弄得很乱。

对我来说最糟糕的部分是认识到我已经吸了足够的硬件来识别烧焦的主板的气味和烧毁的电源之间的区别。


54
2018-05-14 14:49



这项工作的选择标准包括:良好的嗅觉。辉煌。 - mlp
我的好友到目前为止将一组驱动导轨拧入磁盘,然后将它们插入电路板并将其短路。漂亮的粉红色烟雾非常有特色。 - squillman


三天前(严重)我远程登录到学校服务器,在Windows Server 2008文件服务器上安装Service Pack 2。

我决定安排所需的重启,深夜,当教师不会登录完成他们的年终报告卡。我键入的内容如下:

 在23:59“shutdown -r -t 0” 

......可能运行良好。

但后来我第二次猜到了自己。我的'关闭'语法是否正确?我试着通过输入查看用法帮助

 关机/ h 

...并立即丢失了我的RDP连接。恐慌,我打了谷歌的语法。快速搜索显示,Server 2008版本的关闭包括一个/ h开关,(正如您可能已经猜到的那样)使机器休眠。

教师们在几分钟内就开始打电话给我,报告他们无法再打开或保存他们一直在处理的成绩单。由于我在场外并且服务器室被锁定,我不得不直接打电话给学校校长并带她完成重启机器的过程。

今天我把自制饼干带给大家,作为一种道歉形式。


47
2018-05-13 23:53



命令行中有缺陷的用户界面设计的完美示例:“最少惊喜原则”发生了什么? - Mei
在DOS / Windows上不是吗? - Jared Updike
通常是/?在Win上,但有很多实用程序从UNIX移植或由UNIX人员编写(包括很多这样的在MS中)-h或/ h - Richard Gadsden
..但你还是 总是 试试吧 /? 第一! - warren
这就是我喜欢Linux的原因。 man shutdown。我知道我不会引起问题 man! - Josh


在以前的工作中,我们有一个很棒的本土系统,可以记录和存档在公司内输入,离开或停留的每一封邮件。

吹掉你的整个邮箱?没问题!正在寻找某人每周/每月/每年发送给你的邮件,但你不记得是谁发送了它或主题是什么?没问题!我们只需将二月份的所有内容重新发送到特殊文件夹。

在某些时候,公司的首席执行官需要监控竞争对手和内部销售人员之间的邮件是否受到怀疑。因此,我们设置的脚本不是每天晚上运行,而是将前一天的相关邮件发送给CEO。没问题!

大约一个月后,双重紧急问题的消息从高位回落。似乎当CEO正在阅读发送到$ OTHERCOMPANY的邮件列表时,他遇到了这个:

To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

当然,首席执行官是一个重要人物,他太忙了,无法点击Outlook中的所有“发送阅读回执”对话框,并将他的客户配置为只发送所有内容。监视筛选器捕获的消息之一具有读取接收请求集。猜猜Outlook做了什么?肯定会误导'秘密'监控。

我们的下一个任务是:向邮件过滤器添加规则,以阻止从CEO到该公司的传出读取收据。是的,这是最简单的方法。 :)


37
2018-05-13 18:35



但这在我的国家是不合法的。完全没有。 - mafu
啊,那就是 您的 国家。 :)在加拿大,这很好。 - MikeyB
监控进入或离开自己公司服务器的电子邮件是不合法的?你生活在哪个国家? - Andrew Ensley
+1新闻 - Fahad Sadah


啊,我大概是在10年前,当时我还是湿透了。我很高兴在所有程序员计算机上安装电池备份。他们还希望加载软件以警告停电并正常关闭。

因此,我将其设置在我的计算机上,首先测试所有内容,并确保一切正常。所以我断开电源线,屏幕上出现了消息。 “外部电源丢失,开始系统关闭”。

所以我想,嘿,很酷,它有效。但是出于一些奇怪的原因,我甚至不记得,它将该消息作为网络消息发送出来,因此公司中的所有200多台计算机都获得了该消息,其中100多个用户是程序员。

是的,谈论大规模怪胎!!

我在那个地方呆了一会儿!


36
2018-05-13 19:00



哈哈,听起来像我的朋友在这里用“网络发送”和大约1300名收件人发生的事情:) - squillman
啊。我也在大学做了“网络发送”的事情。我想“他们不得不禁用这个”ba-ding! BA-丁!在整个实验室里,计算机都有消息。我决定向网络管理员道歉,在我的路上,我通过的每台计算机都有消息。 /叹 - Matt Simmons
是的,在那里羞耻的走路!我的朋友没有离开他的椅子。也没打扰回答他的电话。 - squillman
哈哈是我网上的一位朋友送给学校里的每个人“帮助!我被困在114室”当然60秒后,一大群人出现,找出是谁发来的消息 - Mark Henderson♦
我们实际上使用该功能来管理我大专的系统管理员。清除所有计算机实验室的虚假AV消息和系统关闭消息,看起来像是他们来自他。他强烈怀疑我们是罪魁祸首,但我和我的伙伴各有一个不在犯罪现场(我在课堂时发送了第一个,并且在我上课时他发送了第二个)并且计算机具有通用实验室登录 - Shial