URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 83202
[ Назад ]

Исходное сообщение
"Solaris 9, SunFire V240 упал."
Отправлено Inhum , 04-Дек-08 16:07

Внезапно сервер перестал отвечать на запросы.
Даже из LOM не пускал в консоль.
Перегрузил по poweroff, poweron.
Потом в /var/adm/messages обнаружил:
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
    Cmd (0x657e948) dump for Target 0 Lun 0:
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
        cdb=[ 0x2a 0x0 0x0 0xc1 0x86 0x34 0x0 0x0 0x10 0x0 ]
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
    pkt_flags=0x4000 pkt_statistics=0x60 pkt_state=0x7
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
    pkt_scbp=0x0 cmd_flags=0x1860
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
    Disconnected tagged cmd(s) (1) timeout for Target 0.0
genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available
genunix: [ID 611667 kern.info] NOTICE: glm0: Disconnected tagged cmd(s) (1) timeout for Target 0.0
glm: [ID 401478 kern.warning] WARNING: ID[SUNWpd.glm.cmd_timeout.6018]
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
    got SCSI bus reset
genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available
genunix: [ID 611667 kern.info] NOTICE: glm0: got SCSI bus reset
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
    SCSI transport failed: reason 'reset': retrying command
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
    SCSI transport failed: reason 'timeout': retrying command
fw: [ID 957691 kern.notice] threshold = 10
last message repeated 8 times
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
    Cmd (0xb5f0f80) dump for Target 0 Lun 0:
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
        cdb=[ 0x2a 0x0 0x4 0x3d 0x2e 0xe5 0x0 0x0 0x1 0x0 ]
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
    pkt_flags=0xc000 pkt_statistics=0x60 pkt_state=0x7
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
    pkt_scbp=0x0 cmd_flags=0x1860
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
    Disconnected tagged cmd(s) (1) timeout for Target 0.0
genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available
genunix: [ID 611667 kern.info] NOTICE: glm0: Disconnected tagged cmd(s) (1) timeout for Target 0.0
glm: [ID 401478 kern.warning] WARNING: ID[SUNWpd.glm.cmd_timeout.6018]
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
    got SCSI bus reset
genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available
genunix: [ID 611667 kern.info] NOTICE: glm0: got SCSI bus reset
fw: [ID 957691 kern.notice] threshold = 10
last message repeated 9 times
fw: [ID 957691 kern.notice] threshold = 10
last message repeated 1 time
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
    Error for Command: write(10)               Error Level: Retryable
scsi: [ID 107833 kern.notice]     Requested Block: 71118565                  Error Block: 71118565
scsi: [ID 107833 kern.notice]     Vendor: HITACHI                            Serial Number: 0346S1M1MA
scsi: [ID 107833 kern.notice]     Sense Key: Unit Attention
scsi: [ID 107833 kern.notice]     ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd1):
    Error for Command: write(10)               Error Level: Retryable
scsi: [ID 107833 kern.notice]     Requested Block: 12682804                  Error Block: 12682804
scsi: [ID 107833 kern.notice]     Vendor: HITACHI                            Serial Number: 0346S1L6NP
scsi: [ID 107833 kern.notice]     Sense Key: Unit Attention
scsi: [ID 107833 kern.notice]     ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
fw: [ID 957691 kern.notice] threshold = 10
last message repeated 83 times
Может кто-нибудь объяснить, что произошло? Может стоит предпринять какие-то меры.
Сейчас в лог никакие ошибки не пишутся.
Спасибо.

Содержание

Solaris 9, SunFire V240 упал.,rstone, 17:56 , 04-Дек-08
Solaris 9, SunFire V240 упал.,zd3n, 18:44 , 04-Дек-08
- Solaris 9, SunFire V240 упал.,Inhum, 07:22 , 05-Дек-08
  - Solaris 9, SunFire V240 упал.,zd3n, 07:51 , 05-Дек-08
    - Solaris 9, SunFire V240 упал.,Inhum, 09:39 , 05-Дек-08
      - Solaris 9, SunFire V240 упал.,zd3n, 09:50 , 05-Дек-08
        
        Solaris 9, SunFire V240 упал.,Inhum, 13:01 , 05-Дек-08
        
        Solaris 9, SunFire V240 упал.,rstone, 16:08 , 08-Дек-08
        
        Solaris 9, SunFire V240 упал.,Inhum, 16:42 , 08-Дек-08
        
        Solaris 9, SunFire V240 упал.,zd3n, 06:37 , 09-Дек-08
        
        Solaris 9, SunFire V240 упал.,Inhum, 10:47 , 12-Дек-08
        
        Solaris 9, SunFire V240 упал.,ReSeT, 13:25 , 12-Дек-08
        
        Solaris 9, SunFire V240 упал.,Inhum, 15:35 , 15-Дек-08
        
        Solaris 9, SunFire V240 упал.,rstone, 15:53 , 14-Дек-08
        
        Solaris 9, SunFire V240 упал.,rstone, 16:03 , 14-Дек-08
Solaris 9, SunFire V240 упал.,kolayshkin, 22:55 , 14-Дек-08
Solaris 9, SunFire V240 упал.,Mike_A, 12:42 , 16-Янв-09
- Solaris 9, SunFire V240 упал.,Mike_A, 11:54 , 21-Янв-09

Сообщения в этом обсуждении

"Solaris 9, SunFire V240 упал."
Отправлено rstone , 04-Дек-08 17:56

Вроде отвалился диски HITACHI .
Вроде не смертельно , так как Error Level: Retryable .
НО , если никто не трогал кабели/диски/электричество - тогда это есть нехорошо и диски переходят в разрад "подозрительных"
Не претендую на истину в последней инстанции :)

"Solaris 9, SunFire V240 упал."
Отправлено zd3n , 04-Дек-08 18:44

prtdiag -v
статус по дискам что пишет?

"Solaris 9, SunFire V240 упал."
Отправлено Inhum , 05-Дек-08 07:22

>
>prtdiag -v
>статус по дискам что пишет?
System Configuration: Sun Microsystems  sun4u Sun Fire V240
System clock frequency: 167 MHZ
Memory size: 2GB
==================================== CPUs ====================================
               E$          CPU                  CPU     Temperature
CPU  Freq      Size        Implementation       Mask    Die   Amb.  Status                                                                                   Location
---  --------  ----------  -------------------  -----   ----  ----  ------                                                                                   --------
  0  1503 MHz  1MB         SUNW,UltraSPARC-IIIi   3.2     -     -    online                                                                                   MB/P0
  1  1503 MHz  1MB         SUNW,UltraSPARC-IIIi   3.2     -     -    online                                                                                   MB/P1
================================= IO Devices =================================
Bus   Freq      Slot +  Name +
Type  MHz       Status  Path                          Model
----  ----  ----------  ----------------------------  --------------------
pci    66           MB  pci108e,1648 (network)
                  okay  /pci@1f,700000/network@2
pci    66           MB  pci108e,1648 (network)
                  okay  /pci@1f,700000/network@2,1
pci    33           MB  isa/su (serial)
                  okay  /pci@1e,600000/isa@7/serial@0,3f8
pci    33           MB  isa/su (serial)
                  okay  /pci@1e,600000/isa@7/serial@0,2e8
pci    33           MB  pci10b9,5229 (ide)
                  okay  /pci@1e,600000/ide@d
pci    66           MB  scsi-pci1000,21 (scsi-2)
                  okay  /pci@1c,600000/scsi@2
pci    66           MB  scsi-pci1000,21 (scsi-2)
                  okay  /pci@1c,600000/scsi@2,1
pci    66           MB  pci108e,1648 (network)
                  okay  /pci@1d,700000/network@2
pci    66           MB  pci108e,1648 (network)
                  okay  /pci@1d,700000/network@2,1
pci    66         PCI0  pci100b,35 (network)          SUNW,pci-qge
                  okay  /pci@1d,700000/pci@1/pci@0/network@0
pci    66         PCI0  pci100b,35 (network)          SUNW,pci-qge
                  okay  /pci@1d,700000/pci@1/pci@0/network@1
pci    66         PCI0  pci100b,35 (network)          SUNW,pci-qge
                  okay  /pci@1d,700000/pci@1/pci@4/network@2
pci    66         PCI0  pci100b,35 (network)          SUNW,pci-qge
                  okay  /pci@1d,700000/pci@1/pci@4/network@3
pci    33            7  isa/rmc-comm-rmc_comm (seria+
                  okay  /pci@1e,600000/isa@7/rmc-comm@0,3e8
pci    33           10  usb (usb)
                  okay  /pci@1e,600000/usb

============================ Memory Configuration ============================
Segment Table:
-----------------------------------------------------------------------
Base Address       Size       Interleave Factor  Contains
-----------------------------------------------------------------------
0x0                1GB               1           BankIDs 0
0x1000000000       1GB               1           BankIDs 16
Bank Table:
-----------------------------------------------------------
           Physical Location
ID       ControllerID  GroupID   Size       Interleave Way
-----------------------------------------------------------
0        0             0         1GB             0
16       1             0         1GB             0
Memory Module Groups:
--------------------------------------------------
ControllerID   GroupID  Labels         Status
--------------------------------------------------
0              0        MB/P0/B0/D0
0              0        MB/P0/B0/D1
1              0        MB/P1/B0/D0
1              0        MB/P1/B0/D1
============================ Environmental Status ============================
Fan Speeds:
---------------------------------------------
Location       Sensor          Status   Speed
---------------------------------------------
F0             RS              okay     6081 rpm
F1             RS              okay     6367 rpm
F2             RS              okay     6136 rpm
MB/P0/F0       RS              okay     16463 rpm
MB/P0/F1       RS              okay     16071 rpm
MB/P1/F0       RS              okay     16875 rpm
MB/P1/F1       RS              okay     16463 rpm
PS0            FF_FAN          okay
PS1            FF_FAN          okay
Temperature sensors:
-----------------------------------------------------------------------------
Location       Sensor         Temperature  Lo   LoWarn  HiWarn    Hi   Status
-----------------------------------------------------------------------------
MB/P0          T_CORE           52C       -     -        84C     89C   okay
MB/P1          T_CORE           47C       -     -        84C     89C   okay
MB             T_ENC            22C        -3C    5C     40C     48C   okay
PS0            FF_OT            -         -     -       -        -     okay
PS1            FF_OT            -         -     -       -        -     okay
----------------------------------------------------------------------
Current sensors:
----------------------------------------------------------------------
Location  Sensor          Current    Lo     LoWarn  HiWarn   Hi    Status
----------------------------------------------------------------------
MB         FF_SCSI       -         -       -       -       -   okay
PS0        FF_OC         -         -       -       -       -   okay
PS1        FF_OC         -         -       -       -       -   okay
------------------------------------------------------------------------
Voltage sensors:
------------------------------------------------------------------------
Location   Sensor       Voltage     Lo     LoWarn  HiWarn   Hi    Status
------------------------------------------------------------------------
MB/P0      V_CORE          1.46V       -     1.26V   1.54V     -   okay
MB/P1      V_CORE          1.46V       -     1.26V   1.54V     -   okay
MB         V_VTT           1.24V       -     1.17V   1.43V     -   okay
MB         V_GBE_+2V5      2.51V       -     2.25V   2.75V     -   okay
MB         V_GBE_CORE      1.21V       -     1.08V   1.32V     -   okay
MB         V_VCCTM         2.54V       -     2.25V   2.75V     -   okay
MB         V_+2V5          2.49V       -     2.34V   2.86V     -   okay
MB         V_+1V5          1.51V       -     1.35V   1.65V     -   okay
MB/BAT     V_BAT           2.97V       -     2.70V     -       -   okay
PS0        P_PWR             -         -       -       -       -   okay
---------------------
Keyswitch:
---------------------
Location       State
---------------------
SYSCTRL        NORMAL
--------------------------------------------------
Led State:
--------------------------------------------------
Location   Led                   State       Color
--------------------------------------------------
MB         ACT                   on          green
MB         SERVICE               off         amber
MB         LOCATE                off         white
PS0        ACT                   on          green
PS0        SERVICE               off         amber
PS0        OK2RM                 off         blue
PS1        ACT                   on          green
PS1        SERVICE               off         amber
PS1        OK2RM                 off         blue
HDD0       SERVICE               off         amber
HDD0       OK2RM                 off         blue
HDD1       SERVICE               off         amber
HDD1       OK2RM                 off         blue
HDD2       SERVICE               off         amber
HDD2       OK2RM                 off         blue
HDD3       SERVICE               off         amber
HDD3       OK2RM                 off         blue
=========================== FRU Operational Status ===========================
-------------------------
Fru Operational Status:
-------------------------
Location        Status
-------------------------
MB/SC           okay
PS0             okay
HDD0            present
HDD1            present
PS1             okay
================================ HW Revisions ================================
ASIC Revisions:
-------------------------------------------------------------------
Path                   Device           Status             Revision
-------------------------------------------------------------------
/pci@1f,700000         pci108e,a801     okay               4
/pci@1e,600000         pci108e,a801     okay               4
/pci@1c,600000         pci108e,a801     okay               4
/pci@1d,700000         pci108e,a801     okay               4
System PROM revisions:
----------------------
OBP 4.16.2 2004/10/04 18:22 Sun Fire V210/V240,Netra 240
OBDIAG 4.16.2 2004/10/04 18:23

"Solaris 9, SunFire V240 упал."
Отправлено zd3n , 05-Дек-08 07:51

Бывали похожие ситуации, когда статус винтов вроде как нормальный, но в логах периодически ошибки чтения/записи проскакивали.
Винты в основном у меня зазеркалированы(каждый слайс в отдельности), при таких ошибках слайс отваливался(хотя некоторые слайсы были в нормальном состоянии).
Попробуй
#cat /dev/dsk/cXtXdXsX > /dev/null - для конкретного слайса(или диска целиком)
если ошибка чтения вылезет, то винт сразу меняю по техподдержке на новый.

"Solaris 9, SunFire V240 упал."
Отправлено Inhum , 05-Дек-08 09:39

>Бывали похожие ситуации, когда статус винтов вроде как нормальный, но в логах
>периодически ошибки чтения/записи проскакивали.
>Винты в основном у меня зазеркалированы(каждый слайс в отдельности), при таких ошибках
>слайс отваливался(хотя некоторые слайсы были в нормальном состоянии).
>
>Попробуй
>#cat /dev/dsk/cXtXdXsX > /dev/null - для конкретного слайса(или диска целиком)
>если ошибка чтения вылезет, то винт сразу меняю по техподдержке на новый.
>
Ну вот так проверил:
cat /dev/dsk/c1t0d0s0 > /dev/null
Без ошибок.
Судя по логу, в этом слайсе проблема была.
Толкьо не получилось весь диск таким образом проверить.
Вот так, без указания слайса не правильно?
cat /dev/dsk/c1t0d0 > /dev/null

"Solaris 9, SunFire V240 упал."
Отправлено zd3n , 05-Дек-08 09:50

>[оверквотинг удален]
>
>Без ошибок.
>
>Судя по логу, в этом слайсе проблема была.
>
>Толкьо не получилось весь диск таким образом проверить.
>
>Вот так, без указания слайса не правильно?
>
>cat /dev/dsk/c1t0d0 > /dev/null
Для проверки всего диска нужно проверять c1t0d0s2, т.к. по умолчанию 2 слайс указывает на весь диск.
Если данные на винте не нужны, можно попробовать забить нулями, тем самым проверив на запись.
#cat /dev/zero > /drv/dsk/c1t0d0s0 (естественно, если система стоит не на нём)

"Solaris 9, SunFire V240 упал."
Отправлено Inhum , 05-Дек-08 13:01

>Для проверки всего диска нужно проверять c1t0d0s2, т.к. по умолчанию 2 слайс
>указывает на весь диск.
>Если данные на винте не нужны, можно попробовать забить нулями, тем самым
>проверив на запись.
>#cat /dev/zero > /drv/dsk/c1t0d0s0 (естественно, если система стоит не на нём)
Нет, данные конечно нужны.
Есть ли резон беспокоится? Может как-то детальней проверить можно?
Просто опыта в администрировании серверов SUN мало. :(

"Solaris 9, SunFire V240 упал."
Отправлено rstone , 08-Дек-08 16:08

Ну вот ,  понаписали всякого :)
Раз :
cat /dev/zero > /dev/dsk/c1t0d0s0   - Нифига  не полная проверка , т.к пишет  последовательно .
Два :
cat  /dev/dsk/c1t0d0s2 >  /dev/null - Нифига не полная проверка , т.к читает последовательно .
Три :
Можно подергать  диски bonnie или iozone , но это тоже нифига  не докажет ;)
Вывод :
В мусор.
Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество"  , а то были преЦенДенТы :)

"Solaris 9, SunFire V240 упал."
Отправлено Inhum , 08-Дек-08 16:42

>Ну вот ,  понаписали всякого :)
>Раз :
>cat /dev/zero > /dev/dsk/c1t0d0s0   - Нифига  не полная проверка , т.к пишет  последовательно .
>Два :
>cat  /dev/dsk/c1t0d0s2 >  /dev/null - Нифига не полная проверка , т.к читает последовательно .
Хм. Если ошибки физически, то есть ли разница читать/писать последовательно или как-то по другому?
А если логические, то должны были исправится.
>Три :
>Можно подергать  диски bonnie или iozone , но это тоже нифига
> не докажет ;)
Что такое bonnie и iozone?

>Вывод :
>В мусор.
>
>Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество"  ,
>а то были преЦенДенТы :)
Кабеля никто не трогал.
Реально ли на основе запсис из лога, которую я привел, можно сделать вывод, что хард уже не пригоден для использования?
После перезагрузки пока ошибок больше не было.

"Solaris 9, SunFire V240 упал."
Отправлено zd3n , 09-Дек-08 06:37

>>Ну вот ,  понаписали всякого :)
>>Раз :
>>cat /dev/zero > /dev/dsk/c1t0d0s0   - Нифига  не полная проверка , т.к пишет  последовательно .
>>Два :
>>cat  /dev/dsk/c1t0d0s2 >  /dev/null - Нифига не полная проверка , т.к читает последовательно .
>
А я и не говорю что это полная проверка, это действие позволяет быстро оценить, стоит ли оставлять данный винт на сервере....
При таких ошибках, на Sun серверах техподдержка меняет винты сразу... А то чревато последствиями....
Для десктопа конечно это не аргумент.
Если нужна была бы полная проверка, то брать утилиту диагностики с сайта производителя винта и тестить....
>>Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество"  ,
>>а то были преЦенДенТы :)
Ну кто на серверах просто так кабели дёргает?... К ним годами иногда не подходят....

>Реально ли на основе запсис из лога, которую я привел, можно сделать
>вывод, что хард уже не пригоден для использования?
Не факт, зависит от условий тех поддержки.....

"Solaris 9, SunFire V240 упал."
Отправлено Inhum , 12-Дек-08 10:47

Сегодня снова сервер так же "завис".
После перезагрузки в /var/adm/messages:
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 810393 kern.info] [AFT2] D$Data (0x00) 0x00000098.00000000 *Bad* 0x00000000.00000000
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 810393 kern.info] [AFT2] D$Data (0x10) 0x00000000.00000000 0x00000000.00000000
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 441589 kern.info] [AFT2] D$Tag (0x44:2) 0x40036457 D$state Valid D$utag 0xc011 D$snp 0x40036456
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 550578 kern.info] [AFT2] PAtag 0x000.364568a0 PAsnp 0x000.364568a0 VAutag 0x0468a0
Dec 12 09:56:58 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 09:59:44 last message repeated 17 times
Dec 12 09:59:47 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:01:01 last message repeated 42 times
Dec 12 10:01:01 fw: [ID 154754 kern.notice]
Dec 12 10:01:01 FW-1: stopping debug messages for the next 59 seconds
Dec 12 10:02:24 fw: [ID 241504 kern.notice] FW-1: lost 45 debug messages
Dec 12 10:02:24 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:06:20 last message repeated 26 times
Dec 12 10:06:28 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:12:43 last message repeated 31 times
Dec 12 10:13:09 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:19:34 last message repeated 37 times
Dec 12 10:19:49 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:26:23 last message repeated 54 times
Dec 12 10:26:25 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:32:47 last message repeated 52 times
Dec 12 10:33:32 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:39:40 last message repeated 34 times
Dec 12 10:39:52 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:46:13 last message repeated 31 times
Dec 12 10:46:28 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:53:02 last message repeated 36 times
Dec 12 10:53:15 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:59:34 last message repeated 34 times
Dec 12 11:00:04 fw: [ID 957691 kern.notice] threshold = 10

"Solaris 9, SunFire V240 упал."
Отправлено ReSeT , 12-Дек-08 13:25

>>Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0
Над этой строчкой в логе больше нету строк с [AFT2] ?
А что вообще с сервером делали? Работал-работал и начал виснуть? Или что-то изменяли/устанавливали?

"Solaris 9, SunFire V240 упал."
Отправлено Inhum , 15-Дек-08 15:35

>>>Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0
>
>Над этой строчкой в логе больше нету строк с [AFT2] ?
Нет, выше нет таких строк.
>
>А что вообще с сервером делали? Работал-работал и начал виснуть? Или что-то
>изменяли/устанавливали?
Да в том то и дело, что ничего не делали.
Работал себе спокойно 200 с лишним дней и перестал.

"Solaris 9, SunFire V240 упал."
Отправлено rstone , 14-Дек-08 15:53

>>>Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество"  ,
>>>а то были преЦенДенТы :)
>
>Ну кто на серверах просто так кабели дёргает?... К ним годами иногда
>не подходят....
Кто  дергает ?
Ну например  крупногабаритный обслуживающий персонал  компании 'солнечная шелезяка' :)
Или уборщица .
Или техники кондиционерного оборудования - они кстати любят ведра подставлять под капающий  кондиционер , а потом их нечаянно роняют и имееют кууууучу удовольствия :)
Особливо весело когда такое ведро на storage выливается (  реальный случай в оооочень крупной компании ) .

"Solaris 9, SunFire V240 упал."
Отправлено rstone , 14-Дек-08 16:03

Кстати , можно попробовать ( после бута или из стоп-а  )  :
ok> setenv auto-boot? false
ok> setenv diag-switch? true
ok> setenv diag-level max
ok> setenv diag-device disk
ok> reset
Посмотреть  , может чего   и глюкнет .
! все это будет бежать  минут 10-15  , а может и до 20 .
Потом все вернуть назад :
ok> setenv auto-boot? true
ok> setenv diag-switch? false

"Solaris 9, SunFire V240 упал."
Отправлено kolayshkin , 14-Дек-08 22:55

>[оверквотинг удален]
> glm: [ID 401478 kern.warning] WARNING: ID[SUNWpd.glm.cmd_timeout.6018]
> scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
>  got SCSI bus reset
> genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service
>still available
> genunix: [ID 611667 kern.info] NOTICE: glm0: got SCSI bus reset
> scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
>  SCSI transport failed: reason 'reset': retrying command
> scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
>  SCSI transport failed: reason 'timeout': retrying command
Очень велика вероятность того, что помирает диск /pci@1c,600000/scsi@2/sd@0,0 , тот кторый в HDD0 (скорее всего контролер). Retryeble ошибки вызваны ресетом шины, и ни каких проблемах не говрят. Если есть поддержка на сервер или он еще на гарантии, то лучше обратится в сервис. А противном случае мониторить консоль на предмет ошибок.

"Solaris 9, SunFire V240 упал."
Отправлено Mike_A , 16-Янв-09 12:42

Имею ОЧЕНЬ похожую картину.
Саляра 8я, Netra 240
Я научился это ронаять - СТАБИЛЬНО!
Все просто, всего лишь просматриваю содержимое записи на ленточке:
ph2> mt -f /dev/rmt/0n status
HP DAT-72 tape drive:
   sense key(0x0)= No Additional Sense   residual= 0   retries= 0
   file no= 0   block no= 0
ph2> tar -tvf /dev/rmt/0n
-rw-rw-rw-   0/1   264278016 Jan 11 00:15 2009 /export/home/backup/all-20090111000002.tar
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2       Connected command timeout for Target 1.0
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2       Target 1 disabled wide SCSI mode
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2       Target 1 reverting to async. mode
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2       got SCSI bus reset
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:04 ph2       SCSI transport failed: reason 'reset': retrying command
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:04 ph2       SCSI transport failed: reason 'timeout': retrying command
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2       got SCSI bus reset
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:05 ph2       SCSI transport failed: reason 'reset': retrying command
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:05 ph2       Error for Command: write                   Error Level: Retryable
Jan 16 09:57:05 ph2 scsi:         Requested Block: 24259                     Error Block: 24259
Jan 16 09:57:05 ph2 scsi:         Vendor: HITACHI                            Serial Number: 0603PJP2LK
Jan 16 09:57:05 ph2 scsi:         Sense Key: Unit Attention
Jan 16 09:57:05 ph2 scsi:         ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2       got SCSI bus reset
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:05 ph2       auto request sense failed (reason=reset)
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:06 ph2       Error for Command: write(10)               Error Level: Retryable
Jan 16 09:57:06 ph2 scsi:         Requested Block: 68267440                  Error Block: 68267440
Jan 16 09:57:06 ph2 scsi:         Vendor: HITACHI                            Serial Number: 0603PJP2LK
Jan 16 09:57:06 ph2 scsi:         Sense Key: Unit Attention
Jan 16 09:57:06 ph2 scsi:         ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:06 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:06 ph2       got SCSI bus reset
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:06 ph2       auto request sense failed (reason=reset)
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:07 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:07 ph2       got SCSI bus reset
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:07 ph2       auto request sense failed (reason=reset)
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:08 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:08 ph2       got SCSI bus reset
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:08 ph2       auto request sense failed (reason=reset)
Jan 16 09:57:09 ph2 vxdmp: NOTICE: Reached DMP Threshold IO TimeOut (0) for dev 276/0xc
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:09 ph2       Error for Command: read(10)                Error Level: Retryable
Jan 16 09:57:09 ph2 scsi:         Requested Block: 11097664                  Error Block: 11097664
Jan 16 09:57:09 ph2 scsi:         Vendor: HITACHI                            Serial Number: 0603PJP2LK
Jan 16 09:57:09 ph2 scsi:         Sense Key: Unit Attention
Jan 16 09:57:09 ph2 scsi:         ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:09 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:09 ph2       got SCSI bus reset
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:09 ph2       auto request sense failed (reason=reset)
Jan 16 09:57:10 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:10 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:10 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
-rw-rw-rw-   0/1       74 Jan 11 00:16 2009 /export/home/backup/backup.log
Jan 16 09:57:10 ph2    got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
panic
SC Alert: CRITICAL ALARM is set
[cpu1]/thread=2a10007dd20: Failfast: Aborting because "fed" died 35 seconds ago.
000002a10007d4a0 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+60 (3000517a800, 3, 0, 7840e85c, 2a10007d6a0, 1000ba8c)
  %l0-3: 0000000010044ad4 0000000000010000 0000000000000000 00000300004b54dc
  %l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58
000002a10007d550 cl_runtime:__0f5CosNsc_syslog_msgDlogiTBPCce+1c (30004de4b20, 3, 0, 7840e85c, 7840e5a0, 1041c3f8)
  %l0-3: 00000000100074b0 000000000000000a 000000000000000a 000000001000a408
  %l4-7: 000003000006e288 000002a10248f7a4 0000000000000000 000002a10001f910
000002a10007d600 cl_comm:__0fHff_implPstop_node_panicv+ac (7840e628, 782e99dc, 300010cd2c8, 782e99dc, 0, 0)
  %l0-3: 0000000010116660 0000000000000016 000000000000000a 000002a100385d20
  %l4-7: 0000000000000003 0000000000000002 0000000000000000 000002a10001f9c0
000002a10007d6b0 cl_comm:__0fHff_implNunit_timedoutv+ac (300010cd368, 300010cd2c8, 300010cd388, 1041c3f8, 1, 1041c380)
  %l0-3: 0000000010045cb0 0000000000000000 0000000000010000 000002a100117d20
  %l4-7: 0000030001c27fc8 0000030000012400 0000030001c27ea8 0000030001c27ea0
000002a10007d760 cl_comm:__0fQff_callout_tableTper_tick_processingvT+f0 (3000005d411, 5cd0de, 7840e3e8, 7840e400, 7840e4f0, 300010cd
388)
  %l0-3: 00000000782ea388 00000000783ffd88 000003000013d3a8 0000000000000001
  %l4-7: 0000000000000000 0000000000000000 0000000000000000 000003000013ca90
000002a10007d820 cl_comm:__0fNff_admin_implWsc_per_tick_processing65Nff_admin_implQcallout_caller_t+84 (3000005d410, 3759e4c91c21, 3
000005d388, 0, 5, 3000005e0c0)
  %l0-3: 000000007813b754 000000007842953a 000003000013d3a8 000000007fffffff
  %l4-7: 00000000781c1cd0 000002a10248f60d 0000000000000000 000003000013ca90
000002a10007d8d0 genunix:clock+464 (1046ec00, 0, 0, 0, 0, 0)
  %l0-3: 0000000000000000 0000000000000400 000002a10000fd20 000000001041c380
  %l4-7: 0000000000000001 0000000000000000 000000001041cb60 0000000000000000
000002a10007d9a0 genunix:cyclic_softint+a4 (1041c380, 3000005d928, 1, 7, 300004b54c8, 10079968)
  %l0-3: 000003000005d948 00000000005cc97c 0000000000000000 00000300004b54d8
  %l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58
000002a10007da60 unix:cbe_level10+8 (0, 803, 1041c380, 2a10007dd20, 10060, 1000ba8c)
  %l0-3: 0000000010044ad4 0000000000010000 0000000000000000 00000300004b54dc
  %l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58
syncing file systems... done
dumping to /dev/dsk/c1t0d0s1, offset 2577989632
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
... (длиная  портьянка таких же 2 строк)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
SC Alert: CRITICAL ALARM is set
SC Alert: SC Request to XIR Host due to Watchdog
ERROR: error-reset-cleanup: Externally Initiated Reset has occurred.
panic[cpu1]/thread=2a10007dd20: sync initiated
dump aborted: please record the above information!
rebooting...
SC Alert: Host System has Reset
SC Alert: CRITICAL ALARM is set
XIR/Watchdog Reset
Executing Power On Self Test
0>
0>@(#) Sun Fire[TM] V210/V240,Netra[TM] 240 POST 4.17.1 2005/04/11 14:43
       /export/delivery/delivery/4.17/4.17.1/post4.17.0/Fiesta/enxs/integrated  (root)
0>Copyright й 2005 Sun Microsystems, Inc. All rights reserved
  SUN PROPRIETARY/CONFIDENTIAL.
  Use is subject to license terms.
0>OBP->POST Call with %o0=00000800.01014000.
0>Diag level set to MAX.
0>Verbosity level set to NORMAL.
0>Start Selftest.....
0>CPUs present in system: 0 1
0>Test CPU(s)....Done
0>Interrupt Crosscall....Done
0>Init Memory....Done
0>PLL Reset....Done
0>Init Memory....Done
0>Test Memory....Done
0>Test CPU Caches....Done
0>Functional CPU Tests....Done
0>IO-Bridge Tests....Done
0>INFO:
0>      POST Passed all devices.
0>
0>POST: Return to OBP.
SC Alert: Host System has Reset
SC Alert: CRITICAL ALARM is set
Configuring system memory & CPU(s)
Probing system devices
Probing memory
Probing I/O buses
Netra 240, No Keyboard
Copyright 2005 Sun Microsystems, Inc.  All rights reserved.
OpenBoot 4.17.1, 4096 MB memory installed, Serial #66723609.
Ethernet address 0:3:ba:fa:12:1a, Host ID: 83fa121a.

Running diagnostic script obdiag/normal
Testing /pci@1e,600000/ide@d
Testing /pci@1e,600000/isa@7/rtc@0,70
Testing /pci@1c,600000/scsi@2
Testing /pci@1c,600000/scsi@2,1
Testing /pci@1e,600000/isa@7/serial@0,2e8
Testing /pci@1e,600000/isa@7/serial@0,3f8

Rebooting with command: boot
Probing system devices
Probing memory
Probing I/O buses
Netra 240, No Keyboard
Copyright 2005 Sun Microsystems, Inc.  All rights reserved.
OpenBoot 4.17.1, 4096 MB memory installed, Serial #66723609.
Ethernet address 0:3:ba:fa:12:1a, Host ID: 83fa121a.
Rebooting with command: boot
Boot device: disk  File and args:
SunOS Release 5.8 Version Generic_117350-22 64-bit
Copyright 1983-2003 Sun Microsystems, Inc.  All rights reserved.
Hardware watchdog enabled
Starting VxVM restore daemon...
VxVM starting in boot mode...
Jan 16 09:59:10 vxvm:vxconfigd: Detaching plex rootvol-01 from volume rootvol
Jan 16 09:59:11 vxvm:vxconfigd: System boot disk does not have a valid rootvol plex
Jan 16 09:59:11 vxvm:vxconfigd: Please boot from one of the following disks:
Jan 16 09:59:11 vxvm:vxconfigd:         DISK MEDIA      DEVICE          BOOT COMMAND
Jan 16 09:59:11 vxvm:vxconfigd:         rootmirr_2      c1t1d0s2        boot vx-rootmirr_2
Jan 16 09:59:11 vxvm:vxconfigd: System startup failed
syncing file systems... done
Program terminat
SC Alert: CRITICAL ALARM is set
ed
{0} ok
ЙЕС! Готов!
Далее если poweroff-poweron делать МОЖЕТ сказать, что скази больше нет:
     NOTICE: Not running OpenBoot Diagnostics because diag-script = none.
     ERROR: The following devices are disabled:
    scsi
Boot device: disk1  File and args:
Evaluating:
Can't locate boot device
Если так скажет про скази, то потом надо ему bootmode reset_nvram, скази оживает.
А зеркало разбитое - boot disk1, когда загрузиться он САМ начинает чинить зеркало (в vxtask list видно - часа 2 чинит), и потом следулющий раз нормально перезагружается без фокусов.
Обращаю ВНИМАНИЕ: Это все происходит ТОЛЬКО, когда читаешь с ленточки (я совал 3 ленточки с разных серваков, при чтении 2-х из них рюхается как приведено выше - иногда может не сразу рюхнуться, а через минут 5 после того как УЖЕ показал всё, что есть на ленте).
Внешний ленточник HP C7438-00260 подключен к скази-контроллеру что на матернике (с сзади на корпусе обычный узкий разъёмчик), а внутренние винты (2 в зеркале) тоже подключены к этому же контроллеру на материнке.
Получается ошибки при работате с ленточками вышебают мозги скази контрллеру и поэтому иногда пропадает совсем, и бьётся зеркало.
Еще замечу, по технологии этот сервер находится в горячем резерве, поэтому САМ он по ночам на ленту ничего не пишет, но если врдуг произойдет свичовер и он станет активным - он будет писать на ленту, и вот мне ОЧЕНЬ не хочется чтоб в такой ситуации он рюхался от ленточки.
И еще, менял лентотяги (с нормально работающего сервера брал) и кабель - все равно именно этот сервер падает именно от чтения тех же ленточек (которые на родных серверах читаются нормально).
Есть подозрение, что какие-то параметры скази не правильно установлены.
Вопрос, КАК НАСТРАИВАЮТСЯ ПАРАМЕТРЫ SCSI? (где-то в /etc вроде есть какой-то файл с параметрами). Какие там параметры за чё отвечают?

"Solaris 9, SunFire V240 упал."
Отправлено Mike_A , 21-Янв-09 11:54

http://sunsolve.sun.com/search/document.do?assetkey=1-21-126...
чуть-чуть полегчало - ленту читает теперь дальше, но на последнем файле рюхается
пробовал ЭТУ же ленту на другом ТАКОМ ЖЕ сане - отлично читает, скоко угодно раз
по поводу параметров SCSI
в /etc/system добавить:
set vxdmp:dmp_failed_io_threshold=0
set vxdmp:dmp_retry_count=1
set scsi_reset_delay=500
set sd:sd_retry_count=0x3
set sd:sd_io_time=0x30
в /kernel/drv/glm.conf добавить:
scsi-selection-timeout=64;
в /kernel/drv/qus.conf добавить:
scsi-selection-timeout=250;
в /kernel/drv/mpt.conf добавить:
scsi-selection-timeout=64;
но это и так у меня всё уже стояло, но толку...
такое ощущение что ещё где-то есть какие-то парамы, в биосе...