201408_NttSmartConnect_PSOD_crash/20140819_NTTSMC_Discuss_w_Shimizu-san の変更点

追加された行はこの色です。
削除された行はこの色です。
201408_NttSmartConnect_PSOD_crash/20140819_NTTSMC_Discuss_w_Shimizu-san は削除されています。
201408_NttSmartConnect_PSOD_crash/20140819_NTTSMC_Discuss_w_Shimizu-san の差分を削除
[[201408_NttSmartConnect_PSOD_crash]]
&edit(,nolabel);

** 20140819: NTTSMC_Discuss_w_Shimizu-san [#x20e9c1d]
-20140819: NTT Smart Connect PSOD問題引継ぎ
-20140819: 清水版 tcpip heap stats collector&color(red){(CVM rebootの度に修正必要)};: &ref("201408_NttSmartConnect_PSOD_crash/20140819_NTTSMC_Discuss_w_Shimizu-san/heap_log.sh",heap_log.sh);

   16h00m-17h00m 
   at Hotel ARIA conference room Ironwood5
   清水氏、柳澤氏、森次&br;
 
 　　　　o 再現は可能。  --> PSOD(virtual端末のscreenshot)
                    dumpは部分的に取れている。
                    screenshotとdumpの両方をvmwareに提供しているが解析は進んでいない。
      vmwareは、vSphereの問題として認めていない。
 
 　　　　o QA path
    　　　NTT-SMC -> CTC -> MACNICA Networks -> Nutanix
  
       snmp問題(済)
       smtp問題(disableできない不具合、NOS 4.0.1でfix)　　の２件は一応fix.
 
     o PSOD
       先週水曜日(20140813)に Nutanix(Japan)で再現
       1G-10G, 10G-10Gの両方で発生している。
       他社の同様の構成では発生していないと思われる(が実態は不明)。
  
       (Micahel Websterの言っている)CVMのbuffer sizeの変更で、症状が変わるのかどうか。
       Michael Websterは、方法に関して簡単と言っているが、確認が必要。
       有効性が確認できた場合、work aroundとして提案できる可能性がある。
         vSphere 5.1 Update2(10G-1G構成)ではheapの最大値は128MBytesで
 　　　　　PSODが発生していた。
  
       vSphere 5.5(10Gx1構成)で　heap sizeを128MBytes(default)から
 　　　　　　　512MBytes(vSphere5.5の最大値)で72時間連続動作させた場合
       heap sizeの増加は発生している。　heap levelが一度減ってからまた増えるがPSODは
       発生していない。
  
       この事は、NTT SMC様には、これから報告。
  
     o 確認方法
       Nutanix Japan officeへ、PPTPで繋いで,
       vSphere clientは、172.16.0.101 から表示されるhttp画面からdownloadする。
       (windows network connectionからは、the Internetへの同時接続ができないらしく
       このURLを得た後、pptp接続を切断してthe Internetへ接続し直す必要がある。
       余りハッキリと意識されていないのであるが、Nutanix JapanのLab networkは、Buffalo HGWで
       pptp pass-throughを使用し、cisco routerに接続しているらしい。)
  
     o Nutanix Japan Lab
       ESXi、5.5(のnodeは)、10G onlyで既存.
       ESXi 5.1(のnodeは)の10G only構成は、現在作りかけ。
       200台分のVMが動いている。　　(CTCが、実際の動作を踏まえてPerl scriptを作った)
  
       Performanceは、CVMのどれかをbrower(HTML5)経由でRESTコマンドを使用して見ることができる。
  
       heap sizeは、172.16.0.105に、sshで "nutanixuser" でloginして見ることができる。
  
       # ssh -l nutanixuser 172.16.0.105
                 (PWD: nutanix/4u)
  
       /home/nutanix/tmp にheep_log.shと云うスクリプトがあり、これをcronで5分に1度
       実行している。
  
       このscript実行により、/home/nutanix/tmp/heap_log 内に log fileが出来る。
       フォーマットは、<<host_ip>>_<<yyymmddhh>>
  
       現在のheapの空き値を見るためには、"percent free of current size:" 行を見る。
       water mark(最大使用値)を見るためには、
           "lowest percent free of max size ever encountered"行を見る。
  
       但し、先週末(20140816-20140817)は、停電のためheap size情報の取得ができていない。
       この件は、NTT SMC様には伝えていない。
  
 　　　　　　　ESXiのheapのstart addresは、再起動の度に変わるので、heap_log.sh内の
       start addressをその都度修正する必要がある。
  
       以下の操作を 172.16.0.101 - 172.16.0.104 で繰り返す。
  
 　　　　　　　#ssh－l root 172.16.0.101 を実行し、　#vsish を打つと
          heap etcの情報を取得できるためのinteractive mode画面に入る。
 　　　　　　　　　(CVMからだと、root passwordは不要に設定してある。)
  
       > get /system/heeaps/tcpip <<tab>>/stats
  
            で、start addressが得られる。
            <<tab>>で、tcp heap start addressをauto completeして表示してくれる。
 　　　　　　　　　　　　ここで得られた値を、heap_log.shに反映させればよい。
  
       > exit
  
            で、この画面から抜ける。
           
 　　　o 再現環境
     NTT SMC様環境再現機: vCenterは、172.16.0.25
         UID: Administrator
         PWD: nutanix/4u 
     Nutanix Lab環境機: vCenterは、172.16.0.20
         UID: administrator
         PWD: nutanix/4u
  
   o Supportの状況(20140819,17h00m PDT)　　(清水氏談)
     先にOpenしたcase担当として、ChadによりXianがassignされた。
 　　　　(現状)解析中とは言え、どこまでやるのか。高林さんにCaseをassignしてvmwareにpushした方が良い。
  
     Johnは、vmwareの問題と言っているが、wmwareは認めていない。
     VM -> NTTSMC -> CTC -> Nutanix の経路で情報を入手する必要がある。
  
     PSoD画面は、NOS 3.5.3では、発生しなかった。
     ESXi 5.1 U2(Update2)で、10倍の付加(FIOでDisk I/O)で問題は無かった。
 　　　　(172.16.0.20 上で。)
      
 　　　o NTTSMC向け報告内容
     解析状況の報告。　PSOD再現後のvmware escalation状況の報告。
  
     5.1のclusterは、用意してあるので検証用にconfigし、その後 CVM Bufferの調整は可能である。
     日本のofficeは、network addressとして 172.16.x.x を出してくるので
     そこから cluster nodeへ、access可能である。
  
    o 高林さんは、APAC時間に合わせて作業を開始するので、17h00mからOpenしている。
    o 200台VMは、scriptで作る
      
 以上。 notebookより入力。無編集。

[[201408_NttSmartConnect_PSOD_crash]]