[[201408_NttSmartConnect_PSOD_crash]] &edit(,nolabel); ** 20140819: NTTSMC_Discuss_w_Shimizu-san [#x20e9c1d] -20140819: NTT Smart Connect PSOD問題引継ぎ -20140819: 清水版 tcpip heap stats collector&color(red){(CVM rebootの度に修正必要)};: &ref("201408_NttSmartConnect_PSOD_crash/20140819_NTTSMC_Discuss_w_Shimizu-san/heap_log.sh",heap_log.sh); 16h00m-17h00m at Hotel ARIA conference room Ironwood5 清水氏、柳澤氏、森次&br; o 再現は可能。 --> PSOD(virtual端末のscreenshot) dumpは部分的に取れている。 screenshotとdumpの両方をvmwareに提供しているが解析は進んでいない。 vmwareは、vSphereの問題として認めていない。 o QA path NTT-SMC -> CTC -> MACNICA Networks -> Nutanix snmp問題(済) smtp問題(disableできない不具合、NOS 4.0.1でfix) の2件は一応fix. o PSOD 先週水曜日(20140813)に Nutanix(Japan)で再現 1G-10G, 10G-10Gの両方で発生している。 他社の同様の構成では発生していないと思われる(が実態は不明)。 (Micahel Websterの言っている)CVMのbuffer sizeの変更で、症状が変わるのかどうか。 Michael Websterは、方法に関して簡単と言っているが、確認が必要。 有効性が確認できた場合、work aroundとして提案できる可能性がある。 vSphere 5.1 Update2(10G-1G構成)ではheapの最大値は128MBytesで PSODが発生していた。 vSphere 5.5(10Gx1構成)で heap sizeを128MBytes(default)から 512MBytes(vSphere5.5の最大値)で72時間連続動作させた場合 heap sizeの増加は発生している。 heap levelが一度減ってからまた増えるがPSODは 発生していない。 この事は、NTT SMC様には、これから報告。 o 確認方法 Nutanix Japan officeへ、PPTPで繋いで, vSphere clientは、172.16.0.101 から表示されるhttp画面からdownloadする。 (windows network connectionからは、the Internetへの同時接続ができないらしく このURLを得た後、pptp接続を切断してthe Internetへ接続し直す必要がある。 余りハッキリと意識されていないのであるが、Nutanix JapanのLab networkは、Buffalo HGWで pptp pass-throughを使用し、cisco routerに接続しているらしい。) o Nutanix Japan Lab ESXi、5.5(のnodeは)、10G onlyで既存. ESXi 5.1(のnodeは)の10G only構成は、現在作りかけ。 200台分のVMが動いている。 (CTCが、実際の動作を踏まえてPerl scriptを作った) Performanceは、CVMのどれかをbrower(HTML5)経由でRESTコマンドを使用して見ることができる。 heap sizeは、172.16.0.105に、sshで "nutanixuser" でloginして見ることができる。 # ssh -l nutanixuser 172.16.0.105 (PWD: nutanix/4u) /home/nutanix/tmp にheep_log.shと云うスクリプトがあり、これをcronで5分に1度 実行している。 このscript実行により、/home/nutanix/tmp/heap_log 内に log fileが出来る。 フォーマットは、<<host_ip>>_<<yyymmddhh>> 現在のheapの空き値を見るためには、"percent free of current size:" 行を見る。 water mark(最大使用値)を見るためには、 "lowest percent free of max size ever encountered"行を見る。 但し、先週末(20140816-20140817)は、停電のためheap size情報の取得ができていない。 この件は、NTT SMC様には伝えていない。 ESXiのheapのstart addresは、再起動の度に変わるので、heap_log.sh内の start addressをその都度修正する必要がある。 以下の操作を 172.16.0.101 - 172.16.0.104 で繰り返す。 #ssh-l root 172.16.0.101 を実行し、 #vsish を打つと heap etcの情報を取得できるためのinteractive mode画面に入る。 (CVMからだと、root passwordは不要に設定してある。) > get /system/heeaps/tcpip <<tab>>/stats で、start addressが得られる。 <<tab>>で、tcp heap start addressをauto completeして表示してくれる。 ここで得られた値を、heap_log.shに反映させればよい。 > exit で、この画面から抜ける。 o 再現環境 NTT SMC様環境再現機: vCenterは、172.16.0.25 UID: Administrator PWD: nutanix/4u Nutanix Lab環境機: vCenterは、172.16.0.20 UID: administrator PWD: nutanix/4u o Supportの状況(20140819,17h00m PDT) (清水氏談) 先にOpenしたcase担当として、ChadによりXianがassignされた。 (現状)解析中とは言え、どこまでやるのか。高林さんにCaseをassignしてvmwareにpushした方が良い。 Johnは、vmwareの問題と言っているが、wmwareは認めていない。 VM -> NTTSMC -> CTC -> Nutanix の経路で情報を入手する必要がある。 PSoD画面は、NOS 3.5.3では、発生しなかった。 ESXi 5.1 U2(Update2)で、10倍の付加(FIOでDisk I/O)で問題は無かった。 (172.16.0.20 上で。) o NTTSMC向け報告内容 解析状況の報告。 PSOD再現後のvmware escalation状況の報告。 5.1のclusterは、用意してあるので検証用にconfigし、その後 CVM Bufferの調整は可能である。 日本のofficeは、network addressとして 172.16.x.x を出してくるので そこから cluster nodeへ、access可能である。 o 高林さんは、APAC時間に合わせて作業を開始するので、17h00mからOpenしている。 o 200台VMは、scriptで作る 以上。 notebookより入力。無編集。 [[201408_NttSmartConnect_PSOD_crash]]