以下文章来源于大国重器高端电子元器件 ,作者大国重器 天地
小器件,大战略!首个专注世界军用电子元器件的权威智库,全面覆盖政策、管理、技术、产业和市场,望与圈内同仁携手,为我国军用电子元器件突破发展瓶颈、自主可控集聚智慧。本公号以专业、首发、原创、悦读为运维原则,打造军用电子元器件圈内第一信息平台。
来源于公众号ID:大国重器高端电子元器件
编者按:今天第一篇文章是Rankred网站2020年5月27日发的2018年的一篇旧文,里面提到的一些信息疑似来自本篇文章,一并编译在此,以正视听。
(信息来源:Aviationweek网站2012年11月20日发布)
近日,美国国家航空航天局(NASA)透露,除了第一级发动机关闭外,SpaceX公司猎鹰9号执行向国际空间站首次商业再补给任务过程中,经历一些异常情况,包括“龙”飞船上的三台飞行计算机中的一台因疑似受到辐射打击而关机。为此,SpaceX公司负责飞行器认证的主管John Muratore在一次访谈中表达了如下内容。
John Muratore在美国NASA和空军工作了30年,曾任NASA航天飞机项目的总监和总工程师,负责管理飞行项目,并建立了沿用至今的任务控制中心。
John Muratore
NASA并未强制要求使用抗辐射器件
NASA没有要求龙飞船上使用抗辐射计算机系统,事实上对其自研系统也没有此类要求。在空间站中,有些区域使用的是抗辐射器件,其他区域使用的是商用现货(COTS)器件。空间站的大部分控制都是通过没有经过抗辐射加固的笔记本电脑来进行的。
根据任务需求做过辐射评估
辐射环境是人们很早以前就知道的事情,是自然环境的一部分。对抗辐射的考虑与执行任务有关。龙飞船执行低地轨道、短时任务,推动了很多架构。NASA并不要求使用抗辐射器件,但要求SpaceX做出严格分析,包括辐射环境及辐射对龙飞船的影响,以及如何应对。SpaceX不仅做了这个分析,还经过了独立的专家小组的审查。
多冗余保证高容错和稳健
龙飞船上有三套处理单元,每个单元有两台计算机成对运行、互相检查,因此实际上有六台计算机。采取冗余的原因是,当在国际空间站附近运行时,必须始终有两套处理单元在关键动作上投票表决。我们有三套,所以可以容忍失效。这与辐射无关,这是为了确保飞行器在空间站附近飞行时的安全。
除了三套处理单元,我们还有18个其他处理单元,每个单元都采用了3个计算机,所以我们的飞行器上有54个处理器。这是一个高度分布式的设计,非常容错且稳健。
着眼系统整体抗辐射性能
系统的整体设计做了抗辐射加固,并把它们作为一个整体系统来测试,对单个器件并未进行典型的抗辐射器件筛选,但每个器件都能承受抗辐射器件所能承受的剂量,我们已经对所有设计都进行了广泛测试。在测试过程中,我们不断地提升辐射环境直至器件失效。我们已经对很多器件进行了非常、非常高的辐射环境的测试,以此了解器件在辐射环境中的真实反应。
一台电脑疑被辐射击中而关机?
对于龙飞船上的一台电脑疑似被辐射击中而关机,可以把电脑想象成很多白色的弹珠,这些弹珠在桌子上按特定的图案排列,一个黑色的弹珠进来后,把其中一个白色的弹珠撞掉了。我们电脑的存储器会不断地检查发生的这种情况。如果存储器受到撞击,电脑就会检测到它,并进行修复,不会有任何损害。但计算机中的其他电路受到攻击,如把信息出入处理器的地方,基本上会导致一个比特位从0变成1。这条指令可能是错误的,这就是在一个处理单元中设置两个处理器并互相比对的原因,检测到这一点就可以强制重启。电脑重启后,我们会做重新同步。还在运行的两台电脑会把所有最新的应用程序都加载到存储器中,这样三个存储器中的信息都是一样的。
当重新启动时,有重新同步的选项。我们已经在地面上练习过了很多次,也经常这样做。但在这次任务中,我们需要协调并向空间站的所有合作伙伴解释我们在做什么,这需要时间。NASA说,与其通过漫长的技术解释来说明为什么要这么做及说服大家而让大家分心,不如像现在这样继续飞?我们说,可以。因此即使有一台电脑坏了,我们也满足了NASA的每一个要求。
如果三台电脑都出现故障?
如果三个计算机单元都受到撞击并立即掉下来,请再想想弹珠。现在我们有三张桌子,都布置了白色弹珠,黑色弹珠必须经过才能立即击中所有三张桌子,将很难出现。但是即使这样,我们通常仍然可以在计算机关闭的情况下控制飞行器,可以直接指挥,可以通过TDRS卫星从站点指挥它们,也可以从自己的地面站进行指挥,完全没有影响,而且我们只需要重新启动,即可使用。
使用抗辐射器件进行替换?
在下一个任务中,我们不会采用抗辐射器件来替换龙飞船中的现有器件,可能会做一些轻微的程序性或软件上的改动,以更快完成重新同步。仅此而已,我们没有被要求做任何改变。我们满足了NASA提出的每一个安全要求,每一个被击中的硬件都能百分之百完全恢复,完全按设计预期来运作。
选择器件的原则
不选用抗辐射器件或软件的并不是它的费用。我们致力于在我们所有的设计中选择最好的零件。因此,即使花费很多但我们需要它,我们就去买。我们已经被要求在计算机中采用所有这些冗余以满足所有不同的安全要求。然后,我们开始研究要使用哪些器件以及适合该设计的器件。对于我们来说,比器件成本更重要的是器件的功能-功耗、内存、处理能力及面积等。这是头等大事。
第二个是它们附带了哪些工具。我们运行Linux操作系统,用C++编写所有程序,这使我们可以利用庞大的人才库,并找到计算机和软件行业中最优秀的人才与我们合作。如果要研究抗辐射器件,其可使用的语言,适用于它们的支持包,编程人才等方面都非常有限,限制了使用器件的能力。他们都需要更长的时间才能到达所需水平,而获得他们也更困难。
抗辐射器件难以实现快速迭代
我们有数百种功能级别不同的飞行计算机,并且处于多代设计中。如果您想要更多的功能、更快的速度,抗辐射器件往往没有增长和升级的路径,这是这类器件的问题。两年的时间,我们已经在SpaceX上使用了第三代飞行计算机,目前正在开展第四代计算机的研制。因此,我们一直在寻找市场上可用的产品,并与市场一起发展,以便我们可以使用最好的软件工具,最好的人员和最好的技术,并实现最现代,最优化,最有效的设计。
这就是为什么我们不选用抗辐射器件的原因。它们是很好的器件,很多人都在使用,但是它们并没有打开我们想要拥有的那种可能性。在SpaceX,我们的目标是世界上最可靠,最具成本效益和最安全地进入太空。我们的首席执行官Elon Musk非常清楚:我们要去火星。因此,为龙建造计算机不仅是为Dragon建造计算机,还在于构建整套工具,技术,人员和流程,然后再转到下一个飞行器,再到下一个。我们的经验可以共享。猎鹰的设计进入了龙,目前正在将龙的设计改造成新的猎鹰,设计不断发展,这就是为什么我们不想进入增长能力有限的抗辐射产品。
兼容并包
飞行器采用的是抗辐射设计,而不是抗辐射零件。但抗辐射技术和企业也在使用。SpaceX飞行器上的软件可以通过插入奇偶校验位来轻松检测和纠正这些位翻转,这是最简单的错误检测代码形式。第一次去哈勃太空望远镜维修时,我是飞行主管之一,他们拥有与我们相同的纠错记忆方法。而我们只是一路走来,纠正错误。我们正在使用众所周知的技术和功能进行操作,将其扩展到以前未完成的程度。
做实验,搞科研,学知识
▼