Внезапно сервер перестал отвечать на запросы.Даже из LOM не пускал в консоль.
Перегрузил по poweroff, poweron.
Потом в /var/adm/messages обнаружил:
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
Cmd (0x657e948) dump for Target 0 Lun 0:
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
cdb=[ 0x2a 0x0 0x0 0xc1 0x86 0x34 0x0 0x0 0x10 0x0 ]
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
pkt_flags=0x4000 pkt_statistics=0x60 pkt_state=0x7
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
pkt_scbp=0x0 cmd_flags=0x1860
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
Disconnected tagged cmd(s) (1) timeout for Target 0.0
genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available
genunix: [ID 611667 kern.info] NOTICE: glm0: Disconnected tagged cmd(s) (1) timeout for Target 0.0
glm: [ID 401478 kern.warning] WARNING: ID[SUNWpd.glm.cmd_timeout.6018]
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
got SCSI bus reset
genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available
genunix: [ID 611667 kern.info] NOTICE: glm0: got SCSI bus reset
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
SCSI transport failed: reason 'reset': retrying command
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
SCSI transport failed: reason 'timeout': retrying command
fw: [ID 957691 kern.notice] threshold = 10
last message repeated 8 times
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
Cmd (0xb5f0f80) dump for Target 0 Lun 0:
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
cdb=[ 0x2a 0x0 0x4 0x3d 0x2e 0xe5 0x0 0x0 0x1 0x0 ]
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
pkt_flags=0xc000 pkt_statistics=0x60 pkt_state=0x7
scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0):
pkt_scbp=0x0 cmd_flags=0x1860
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
Disconnected tagged cmd(s) (1) timeout for Target 0.0
genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available
genunix: [ID 611667 kern.info] NOTICE: glm0: Disconnected tagged cmd(s) (1) timeout for Target 0.0
glm: [ID 401478 kern.warning] WARNING: ID[SUNWpd.glm.cmd_timeout.6018]
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
got SCSI bus reset
genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available
genunix: [ID 611667 kern.info] NOTICE: glm0: got SCSI bus reset
fw: [ID 957691 kern.notice] threshold = 10
last message repeated 9 times
fw: [ID 957691 kern.notice] threshold = 10
last message repeated 1 time
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
Error for Command: write(10) Error Level: Retryable
scsi: [ID 107833 kern.notice] Requested Block: 71118565 Error Block: 71118565
scsi: [ID 107833 kern.notice] Vendor: HITACHI Serial Number: 0346S1M1MA
scsi: [ID 107833 kern.notice] Sense Key: Unit Attention
scsi: [ID 107833 kern.notice] ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd1):
Error for Command: write(10) Error Level: Retryable
scsi: [ID 107833 kern.notice] Requested Block: 12682804 Error Block: 12682804
scsi: [ID 107833 kern.notice] Vendor: HITACHI Serial Number: 0346S1L6NP
scsi: [ID 107833 kern.notice] Sense Key: Unit Attention
scsi: [ID 107833 kern.notice] ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
fw: [ID 957691 kern.notice] threshold = 10
last message repeated 83 timesМожет кто-нибудь объяснить, что произошло? Может стоит предпринять какие-то меры.
Сейчас в лог никакие ошибки не пишутся.
Спасибо.
Вроде отвалился диски HITACHI .
Вроде не смертельно , так как Error Level: Retryable .
НО , если никто не трогал кабели/диски/электричество - тогда это есть нехорошо и диски переходят в разрад "подозрительных"Не претендую на истину в последней инстанции :)
prtdiag -v
статус по дискам что пишет?
>
>prtdiag -v
>статус по дискам что пишет?System Configuration: Sun Microsystems sun4u Sun Fire V240
System clock frequency: 167 MHZ
Memory size: 2GB==================================== CPUs ====================================
E$ CPU CPU Temperature
CPU Freq Size Implementation Mask Die Amb. Status Location
--- -------- ---------- ------------------- ----- ---- ---- ------ --------
0 1503 MHz 1MB SUNW,UltraSPARC-IIIi 3.2 - - online MB/P0
1 1503 MHz 1MB SUNW,UltraSPARC-IIIi 3.2 - - online MB/P1================================= IO Devices =================================
Bus Freq Slot + Name +
Type MHz Status Path Model
---- ---- ---------- ---------------------------- --------------------
pci 66 MB pci108e,1648 (network)
okay /pci@1f,700000/network@2pci 66 MB pci108e,1648 (network)
okay /pci@1f,700000/network@2,1pci 33 MB isa/su (serial)
okay /pci@1e,600000/isa@7/serial@0,3f8pci 33 MB isa/su (serial)
okay /pci@1e,600000/isa@7/serial@0,2e8pci 33 MB pci10b9,5229 (ide)
okay /pci@1e,600000/ide@dpci 66 MB scsi-pci1000,21 (scsi-2)
okay /pci@1c,600000/scsi@2pci 66 MB scsi-pci1000,21 (scsi-2)
okay /pci@1c,600000/scsi@2,1pci 66 MB pci108e,1648 (network)
okay /pci@1d,700000/network@2pci 66 MB pci108e,1648 (network)
okay /pci@1d,700000/network@2,1pci 66 PCI0 pci100b,35 (network) SUNW,pci-qge
okay /pci@1d,700000/pci@1/pci@0/network@0pci 66 PCI0 pci100b,35 (network) SUNW,pci-qge
okay /pci@1d,700000/pci@1/pci@0/network@1pci 66 PCI0 pci100b,35 (network) SUNW,pci-qge
okay /pci@1d,700000/pci@1/pci@4/network@2pci 66 PCI0 pci100b,35 (network) SUNW,pci-qge
okay /pci@1d,700000/pci@1/pci@4/network@3pci 33 7 isa/rmc-comm-rmc_comm (seria+
okay /pci@1e,600000/isa@7/rmc-comm@0,3e8pci 33 10 usb (usb)
okay /pci@1e,600000/usb
============================ Memory Configuration ============================
Segment Table:
-----------------------------------------------------------------------
Base Address Size Interleave Factor Contains
-----------------------------------------------------------------------
0x0 1GB 1 BankIDs 0
0x1000000000 1GB 1 BankIDs 16Bank Table:
-----------------------------------------------------------
Physical Location
ID ControllerID GroupID Size Interleave Way
-----------------------------------------------------------
0 0 0 1GB 0
16 1 0 1GB 0Memory Module Groups:
--------------------------------------------------
ControllerID GroupID Labels Status
--------------------------------------------------
0 0 MB/P0/B0/D0
0 0 MB/P0/B0/D1
1 0 MB/P1/B0/D0
1 0 MB/P1/B0/D1============================ Environmental Status ============================
Fan Speeds:
---------------------------------------------
Location Sensor Status Speed
---------------------------------------------
F0 RS okay 6081 rpm
F1 RS okay 6367 rpm
F2 RS okay 6136 rpm
MB/P0/F0 RS okay 16463 rpm
MB/P0/F1 RS okay 16071 rpm
MB/P1/F0 RS okay 16875 rpm
MB/P1/F1 RS okay 16463 rpm
PS0 FF_FAN okay
PS1 FF_FAN okayTemperature sensors:
-----------------------------------------------------------------------------
Location Sensor Temperature Lo LoWarn HiWarn Hi Status
-----------------------------------------------------------------------------
MB/P0 T_CORE 52C - - 84C 89C okay
MB/P1 T_CORE 47C - - 84C 89C okay
MB T_ENC 22C -3C 5C 40C 48C okay
PS0 FF_OT - - - - - okay
PS1 FF_OT - - - - - okay
----------------------------------------------------------------------
Current sensors:
----------------------------------------------------------------------
Location Sensor Current Lo LoWarn HiWarn Hi Status
----------------------------------------------------------------------
MB FF_SCSI - - - - - okay
PS0 FF_OC - - - - - okay
PS1 FF_OC - - - - - okay
------------------------------------------------------------------------
Voltage sensors:
------------------------------------------------------------------------
Location Sensor Voltage Lo LoWarn HiWarn Hi Status
------------------------------------------------------------------------
MB/P0 V_CORE 1.46V - 1.26V 1.54V - okay
MB/P1 V_CORE 1.46V - 1.26V 1.54V - okay
MB V_VTT 1.24V - 1.17V 1.43V - okay
MB V_GBE_+2V5 2.51V - 2.25V 2.75V - okay
MB V_GBE_CORE 1.21V - 1.08V 1.32V - okay
MB V_VCCTM 2.54V - 2.25V 2.75V - okay
MB V_+2V5 2.49V - 2.34V 2.86V - okay
MB V_+1V5 1.51V - 1.35V 1.65V - okay
MB/BAT V_BAT 2.97V - 2.70V - - okay
PS0 P_PWR - - - - - okay
---------------------
Keyswitch:
---------------------
Location State
---------------------
SYSCTRL NORMAL
--------------------------------------------------
Led State:
--------------------------------------------------
Location Led State Color
--------------------------------------------------
MB ACT on green
MB SERVICE off amber
MB LOCATE off white
PS0 ACT on green
PS0 SERVICE off amber
PS0 OK2RM off blue
PS1 ACT on green
PS1 SERVICE off amber
PS1 OK2RM off blue
HDD0 SERVICE off amber
HDD0 OK2RM off blue
HDD1 SERVICE off amber
HDD1 OK2RM off blue
HDD2 SERVICE off amber
HDD2 OK2RM off blue
HDD3 SERVICE off amber
HDD3 OK2RM off blue=========================== FRU Operational Status ===========================
-------------------------
Fru Operational Status:
-------------------------
Location Status
-------------------------
MB/SC okay
PS0 okay
HDD0 present
HDD1 present
PS1 okay================================ HW Revisions ================================
ASIC Revisions:
-------------------------------------------------------------------
Path Device Status Revision
-------------------------------------------------------------------
/pci@1f,700000 pci108e,a801 okay 4
/pci@1e,600000 pci108e,a801 okay 4
/pci@1c,600000 pci108e,a801 okay 4
/pci@1d,700000 pci108e,a801 okay 4System PROM revisions:
----------------------
OBP 4.16.2 2004/10/04 18:22 Sun Fire V210/V240,Netra 240
OBDIAG 4.16.2 2004/10/04 18:23
Бывали похожие ситуации, когда статус винтов вроде как нормальный, но в логах периодически ошибки чтения/записи проскакивали.
Винты в основном у меня зазеркалированы(каждый слайс в отдельности), при таких ошибках слайс отваливался(хотя некоторые слайсы были в нормальном состоянии).Попробуй
#cat /dev/dsk/cXtXdXsX > /dev/null - для конкретного слайса(или диска целиком)
если ошибка чтения вылезет, то винт сразу меняю по техподдержке на новый.
>Бывали похожие ситуации, когда статус винтов вроде как нормальный, но в логах
>периодически ошибки чтения/записи проскакивали.
>Винты в основном у меня зазеркалированы(каждый слайс в отдельности), при таких ошибках
>слайс отваливался(хотя некоторые слайсы были в нормальном состоянии).
>
>Попробуй
>#cat /dev/dsk/cXtXdXsX > /dev/null - для конкретного слайса(или диска целиком)
>если ошибка чтения вылезет, то винт сразу меняю по техподдержке на новый.
>Ну вот так проверил:
cat /dev/dsk/c1t0d0s0 > /dev/null
Без ошибок.
Судя по логу, в этом слайсе проблема была.
Толкьо не получилось весь диск таким образом проверить.
Вот так, без указания слайса не правильно?
cat /dev/dsk/c1t0d0 > /dev/null
>[оверквотинг удален]
>
>Без ошибок.
>
>Судя по логу, в этом слайсе проблема была.
>
>Толкьо не получилось весь диск таким образом проверить.
>
>Вот так, без указания слайса не правильно?
>
>cat /dev/dsk/c1t0d0 > /dev/nullДля проверки всего диска нужно проверять c1t0d0s2, т.к. по умолчанию 2 слайс указывает на весь диск.
Если данные на винте не нужны, можно попробовать забить нулями, тем самым проверив на запись.
#cat /dev/zero > /drv/dsk/c1t0d0s0 (естественно, если система стоит не на нём)
>Для проверки всего диска нужно проверять c1t0d0s2, т.к. по умолчанию 2 слайс
>указывает на весь диск.
>Если данные на винте не нужны, можно попробовать забить нулями, тем самым
>проверив на запись.
>#cat /dev/zero > /drv/dsk/c1t0d0s0 (естественно, если система стоит не на нём)Нет, данные конечно нужны.
Есть ли резон беспокоится? Может как-то детальней проверить можно?
Просто опыта в администрировании серверов SUN мало. :(
Ну вот , понаписали всякого :)
Раз :
cat /dev/zero > /dev/dsk/c1t0d0s0 - Нифига не полная проверка , т.к пишет последовательно .
Два :
cat /dev/dsk/c1t0d0s2 > /dev/null - Нифига не полная проверка , т.к читает последовательно .
Три :
Можно подергать диски bonnie или iozone , но это тоже нифига не докажет ;)Вывод :
В мусор.Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество" , а то были преЦенДенТы :)
>Ну вот , понаписали всякого :)
>Раз :
>cat /dev/zero > /dev/dsk/c1t0d0s0 - Нифига не полная проверка , т.к пишет последовательно .
>Два :
>cat /dev/dsk/c1t0d0s2 > /dev/null - Нифига не полная проверка , т.к читает последовательно .Хм. Если ошибки физически, то есть ли разница читать/писать последовательно или как-то по другому?
А если логические, то должны были исправится.
>Три :
>Можно подергать диски bonnie или iozone , но это тоже нифига
> не докажет ;)Что такое bonnie и iozone?
>Вывод :
>В мусор.
>
>Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество" ,
>а то были преЦенДенТы :)Кабеля никто не трогал.
Реально ли на основе запсис из лога, которую я привел, можно сделать вывод, что хард уже не пригоден для использования?
После перезагрузки пока ошибок больше не было.
>>Ну вот , понаписали всякого :)
>>Раз :
>>cat /dev/zero > /dev/dsk/c1t0d0s0 - Нифига не полная проверка , т.к пишет последовательно .
>>Два :
>>cat /dev/dsk/c1t0d0s2 > /dev/null - Нифига не полная проверка , т.к читает последовательно .
>А я и не говорю что это полная проверка, это действие позволяет быстро оценить, стоит ли оставлять данный винт на сервере....
При таких ошибках, на Sun серверах техподдержка меняет винты сразу... А то чревато последствиями....
Для десктопа конечно это не аргумент.Если нужна была бы полная проверка, то брать утилиту диагностики с сайта производителя винта и тестить....
>>Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество" ,
>>а то были преЦенДенТы :)Ну кто на серверах просто так кабели дёргает?... К ним годами иногда не подходят....
>Реально ли на основе запсис из лога, которую я привел, можно сделать
>вывод, что хард уже не пригоден для использования?Не факт, зависит от условий тех поддержки.....
Сегодня снова сервер так же "завис".После перезагрузки в /var/adm/messages:
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 810393 kern.info] [AFT2] D$Data (0x00) 0x00000098.00000000 *Bad* 0x00000000.00000000
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 810393 kern.info] [AFT2] D$Data (0x10) 0x00000000.00000000 0x00000000.00000000
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 441589 kern.info] [AFT2] D$Tag (0x44:2) 0x40036457 D$state Valid D$utag 0xc011 D$snp 0x40036456
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 550578 kern.info] [AFT2] PAtag 0x000.364568a0 PAsnp 0x000.364568a0 VAutag 0x0468a0
Dec 12 09:56:58 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 09:59:44 last message repeated 17 times
Dec 12 09:59:47 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:01:01 last message repeated 42 times
Dec 12 10:01:01 fw: [ID 154754 kern.notice]
Dec 12 10:01:01 FW-1: stopping debug messages for the next 59 seconds
Dec 12 10:02:24 fw: [ID 241504 kern.notice] FW-1: lost 45 debug messages
Dec 12 10:02:24 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:06:20 last message repeated 26 times
Dec 12 10:06:28 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:12:43 last message repeated 31 times
Dec 12 10:13:09 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:19:34 last message repeated 37 times
Dec 12 10:19:49 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:26:23 last message repeated 54 times
Dec 12 10:26:25 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:32:47 last message repeated 52 times
Dec 12 10:33:32 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:39:40 last message repeated 34 times
Dec 12 10:39:52 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:46:13 last message repeated 31 times
Dec 12 10:46:28 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:53:02 last message repeated 36 times
Dec 12 10:53:15 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:59:34 last message repeated 34 times
Dec 12 11:00:04 fw: [ID 957691 kern.notice] threshold = 10
>>Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0Над этой строчкой в логе больше нету строк с [AFT2] ?
А что вообще с сервером делали? Работал-работал и начал виснуть? Или что-то изменяли/устанавливали?
>>>Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0
>
>Над этой строчкой в логе больше нету строк с [AFT2] ?Нет, выше нет таких строк.
>
>А что вообще с сервером делали? Работал-работал и начал виснуть? Или что-то
>изменяли/устанавливали?Да в том то и дело, что ничего не делали.
Работал себе спокойно 200 с лишним дней и перестал.
>>>Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество" ,
>>>а то были преЦенДенТы :)
>
>Ну кто на серверах просто так кабели дёргает?... К ним годами иногда
>не подходят....Кто дергает ?
Ну например крупногабаритный обслуживающий персонал компании 'солнечная шелезяка' :)
Или уборщица .
Или техники кондиционерного оборудования - они кстати любят ведра подставлять под капающий кондиционер , а потом их нечаянно роняют и имееют кууууучу удовольствия :)
Особливо весело когда такое ведро на storage выливается ( реальный случай в оооочень крупной компании ) .
Кстати , можно попробовать ( после бута или из стоп-а ) :ok> setenv auto-boot? false
ok> setenv diag-switch? true
ok> setenv diag-level max
ok> setenv diag-device disk
ok> resetПосмотреть , может чего и глюкнет .
! все это будет бежать минут 10-15 , а может и до 20 .Потом все вернуть назад :
ok> setenv auto-boot? true
ok> setenv diag-switch? false
>[оверквотинг удален]
> glm: [ID 401478 kern.warning] WARNING: ID[SUNWpd.glm.cmd_timeout.6018]
> scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
> got SCSI bus reset
> genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service
>still available
> genunix: [ID 611667 kern.info] NOTICE: glm0: got SCSI bus reset
> scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
> SCSI transport failed: reason 'reset': retrying command
> scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
> SCSI transport failed: reason 'timeout': retrying commandОчень велика вероятность того, что помирает диск /pci@1c,600000/scsi@2/sd@0,0 , тот кторый в HDD0 (скорее всего контролер). Retryeble ошибки вызваны ресетом шины, и ни каких проблемах не говрят. Если есть поддержка на сервер или он еще на гарантии, то лучше обратится в сервис. А противном случае мониторить консоль на предмет ошибок.
Имею ОЧЕНЬ похожую картину.Саляра 8я, Netra 240
Я научился это ронаять - СТАБИЛЬНО!
Все просто, всего лишь просматриваю содержимое записи на ленточке:ph2> mt -f /dev/rmt/0n status
HP DAT-72 tape drive:
sense key(0x0)= No Additional Sense residual= 0 retries= 0
file no= 0 block no= 0
ph2> tar -tvf /dev/rmt/0n
-rw-rw-rw- 0/1 264278016 Jan 11 00:15 2009 /export/home/backup/all-20090111000002.tar
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2 Connected command timeout for Target 1.0
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2 Target 1 disabled wide SCSI mode
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2 Target 1 reverting to async. mode
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2 got SCSI bus reset
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:04 ph2 SCSI transport failed: reason 'reset': retrying command
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:04 ph2 SCSI transport failed: reason 'timeout': retrying command
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2 got SCSI bus reset
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:05 ph2 SCSI transport failed: reason 'reset': retrying command
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:05 ph2 Error for Command: write Error Level: Retryable
Jan 16 09:57:05 ph2 scsi: Requested Block: 24259 Error Block: 24259
Jan 16 09:57:05 ph2 scsi: Vendor: HITACHI Serial Number: 0603PJP2LK
Jan 16 09:57:05 ph2 scsi: Sense Key: Unit Attention
Jan 16 09:57:05 ph2 scsi: ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2 got SCSI bus reset
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:05 ph2 auto request sense failed (reason=reset)
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:06 ph2 Error for Command: write(10) Error Level: Retryable
Jan 16 09:57:06 ph2 scsi: Requested Block: 68267440 Error Block: 68267440
Jan 16 09:57:06 ph2 scsi: Vendor: HITACHI Serial Number: 0603PJP2LK
Jan 16 09:57:06 ph2 scsi: Sense Key: Unit Attention
Jan 16 09:57:06 ph2 scsi: ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:06 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:06 ph2 got SCSI bus reset
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:06 ph2 auto request sense failed (reason=reset)
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:07 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:07 ph2 got SCSI bus reset
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:07 ph2 auto request sense failed (reason=reset)
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:08 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:08 ph2 got SCSI bus reset
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:08 ph2 auto request sense failed (reason=reset)
Jan 16 09:57:09 ph2 vxdmp: NOTICE: Reached DMP Threshold IO TimeOut (0) for dev 276/0xc
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:09 ph2 Error for Command: read(10) Error Level: Retryable
Jan 16 09:57:09 ph2 scsi: Requested Block: 11097664 Error Block: 11097664
Jan 16 09:57:09 ph2 scsi: Vendor: HITACHI Serial Number: 0603PJP2LK
Jan 16 09:57:09 ph2 scsi: Sense Key: Unit Attention
Jan 16 09:57:09 ph2 scsi: ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:09 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:09 ph2 got SCSI bus reset
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:09 ph2 auto request sense failed (reason=reset)
Jan 16 09:57:10 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:10 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:10 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
-rw-rw-rw- 0/1 74 Jan 11 00:16 2009 /export/home/backup/backup.log
Jan 16 09:57:10 ph2 got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus resetpanic
SC Alert: CRITICAL ALARM is set
[cpu1]/thread=2a10007dd20: Failfast: Aborting because "fed" died 35 seconds ago.000002a10007d4a0 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+60 (3000517a800, 3, 0, 7840e85c, 2a10007d6a0, 1000ba8c)
%l0-3: 0000000010044ad4 0000000000010000 0000000000000000 00000300004b54dc
%l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58
000002a10007d550 cl_runtime:__0f5CosNsc_syslog_msgDlogiTBPCce+1c (30004de4b20, 3, 0, 7840e85c, 7840e5a0, 1041c3f8)
%l0-3: 00000000100074b0 000000000000000a 000000000000000a 000000001000a408
%l4-7: 000003000006e288 000002a10248f7a4 0000000000000000 000002a10001f910
000002a10007d600 cl_comm:__0fHff_implPstop_node_panicv+ac (7840e628, 782e99dc, 300010cd2c8, 782e99dc, 0, 0)
%l0-3: 0000000010116660 0000000000000016 000000000000000a 000002a100385d20
%l4-7: 0000000000000003 0000000000000002 0000000000000000 000002a10001f9c0
000002a10007d6b0 cl_comm:__0fHff_implNunit_timedoutv+ac (300010cd368, 300010cd2c8, 300010cd388, 1041c3f8, 1, 1041c380)
%l0-3: 0000000010045cb0 0000000000000000 0000000000010000 000002a100117d20
%l4-7: 0000030001c27fc8 0000030000012400 0000030001c27ea8 0000030001c27ea0
000002a10007d760 cl_comm:__0fQff_callout_tableTper_tick_processingvT+f0 (3000005d411, 5cd0de, 7840e3e8, 7840e400, 7840e4f0, 300010cd
388)
%l0-3: 00000000782ea388 00000000783ffd88 000003000013d3a8 0000000000000001
%l4-7: 0000000000000000 0000000000000000 0000000000000000 000003000013ca90
000002a10007d820 cl_comm:__0fNff_admin_implWsc_per_tick_processing65Nff_admin_implQcallout_caller_t+84 (3000005d410, 3759e4c91c21, 3
000005d388, 0, 5, 3000005e0c0)
%l0-3: 000000007813b754 000000007842953a 000003000013d3a8 000000007fffffff
%l4-7: 00000000781c1cd0 000002a10248f60d 0000000000000000 000003000013ca90
000002a10007d8d0 genunix:clock+464 (1046ec00, 0, 0, 0, 0, 0)
%l0-3: 0000000000000000 0000000000000400 000002a10000fd20 000000001041c380
%l4-7: 0000000000000001 0000000000000000 000000001041cb60 0000000000000000
000002a10007d9a0 genunix:cyclic_softint+a4 (1041c380, 3000005d928, 1, 7, 300004b54c8, 10079968)
%l0-3: 000003000005d948 00000000005cc97c 0000000000000000 00000300004b54d8
%l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58
000002a10007da60 unix:cbe_level10+8 (0, 803, 1041c380, 2a10007dd20, 10060, 1000ba8c)
%l0-3: 0000000010044ad4 0000000000010000 0000000000000000 00000300004b54dc
%l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58syncing file systems... done
dumping to /dev/dsk/c1t0d0s1, offset 2577989632
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)... (длиная портьянка таких же 2 строк)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus resetSC Alert: CRITICAL ALARM is set
SC Alert: SC Request to XIR Host due to Watchdog
ERROR: error-reset-cleanup: Externally Initiated Reset has occurred.panic[cpu1]/thread=2a10007dd20: sync initiated
dump aborted: please record the above information!
rebooting...SC Alert: Host System has Reset
SC Alert: CRITICAL ALARM is set
XIR/Watchdog Reset
Executing Power On Self Test
0>
0>@(#) Sun Fire[TM] V210/V240,Netra[TM] 240 POST 4.17.1 2005/04/11 14:43
/export/delivery/delivery/4.17/4.17.1/post4.17.0/Fiesta/enxs/integrated (root)
0>Copyright й 2005 Sun Microsystems, Inc. All rights reserved
SUN PROPRIETARY/CONFIDENTIAL.
Use is subject to license terms.
0>OBP->POST Call with %o0=00000800.01014000.
0>Diag level set to MAX.
0>Verbosity level set to NORMAL.
0>Start Selftest.....
0>CPUs present in system: 0 1
0>Test CPU(s)....Done
0>Interrupt Crosscall....Done
0>Init Memory....Done
0>PLL Reset....Done
0>Init Memory....Done
0>Test Memory....Done
0>Test CPU Caches....Done
0>Functional CPU Tests....Done
0>IO-Bridge Tests....Done
0>INFO:
0> POST Passed all devices.
0>
0>POST: Return to OBP.SC Alert: Host System has Reset
SC Alert: CRITICAL ALARM is set
Configuring system memory & CPU(s)
Probing system devices
Probing memory
Probing I/O busesNetra 240, No Keyboard
Copyright 2005 Sun Microsystems, Inc. All rights reserved.
OpenBoot 4.17.1, 4096 MB memory installed, Serial #66723609.
Ethernet address 0:3:ba:fa:12:1a, Host ID: 83fa121a.
Running diagnostic script obdiag/normalTesting /pci@1e,600000/ide@d
Testing /pci@1e,600000/isa@7/rtc@0,70
Testing /pci@1c,600000/scsi@2
Testing /pci@1c,600000/scsi@2,1
Testing /pci@1e,600000/isa@7/serial@0,2e8
Testing /pci@1e,600000/isa@7/serial@0,3f8
Rebooting with command: boot
Probing system devices
Probing memory
Probing I/O busesNetra 240, No Keyboard
Copyright 2005 Sun Microsystems, Inc. All rights reserved.
OpenBoot 4.17.1, 4096 MB memory installed, Serial #66723609.
Ethernet address 0:3:ba:fa:12:1a, Host ID: 83fa121a.Rebooting with command: boot
Boot device: disk File and args:
SunOS Release 5.8 Version Generic_117350-22 64-bit
Copyright 1983-2003 Sun Microsystems, Inc. All rights reserved.
Hardware watchdog enabled
Starting VxVM restore daemon...
VxVM starting in boot mode...
Jan 16 09:59:10 vxvm:vxconfigd: Detaching plex rootvol-01 from volume rootvol
Jan 16 09:59:11 vxvm:vxconfigd: System boot disk does not have a valid rootvol plex
Jan 16 09:59:11 vxvm:vxconfigd: Please boot from one of the following disks:
Jan 16 09:59:11 vxvm:vxconfigd: DISK MEDIA DEVICE BOOT COMMAND
Jan 16 09:59:11 vxvm:vxconfigd: rootmirr_2 c1t1d0s2 boot vx-rootmirr_2
Jan 16 09:59:11 vxvm:vxconfigd: System startup failed
syncing file systems... done
Program terminat
SC Alert: CRITICAL ALARM is set
ed
{0} okЙЕС! Готов!
Далее если poweroff-poweron делать МОЖЕТ сказать, что скази больше нет:NOTICE: Not running OpenBoot Diagnostics because diag-script = none.
ERROR: The following devices are disabled:
scsiBoot device: disk1 File and args:
Evaluating:Can't locate boot device
Если так скажет про скази, то потом надо ему bootmode reset_nvram, скази оживает.
А зеркало разбитое - boot disk1, когда загрузиться он САМ начинает чинить зеркало (в vxtask list видно - часа 2 чинит), и потом следулющий раз нормально перезагружается без фокусов.Обращаю ВНИМАНИЕ: Это все происходит ТОЛЬКО, когда читаешь с ленточки (я совал 3 ленточки с разных серваков, при чтении 2-х из них рюхается как приведено выше - иногда может не сразу рюхнуться, а через минут 5 после того как УЖЕ показал всё, что есть на ленте).
Внешний ленточник HP C7438-00260 подключен к скази-контроллеру что на матернике (с сзади на корпусе обычный узкий разъёмчик), а внутренние винты (2 в зеркале) тоже подключены к этому же контроллеру на материнке.
Получается ошибки при работате с ленточками вышебают мозги скази контрллеру и поэтому иногда пропадает совсем, и бьётся зеркало.Еще замечу, по технологии этот сервер находится в горячем резерве, поэтому САМ он по ночам на ленту ничего не пишет, но если врдуг произойдет свичовер и он станет активным - он будет писать на ленту, и вот мне ОЧЕНЬ не хочется чтоб в такой ситуации он рюхался от ленточки.
И еще, менял лентотяги (с нормально работающего сервера брал) и кабель - все равно именно этот сервер падает именно от чтения тех же ленточек (которые на родных серверах читаются нормально).
Есть подозрение, что какие-то параметры скази не правильно установлены.
Вопрос, КАК НАСТРАИВАЮТСЯ ПАРАМЕТРЫ SCSI? (где-то в /etc вроде есть какой-то файл с параметрами). Какие там параметры за чё отвечают?
http://sunsolve.sun.com/search/document.do?assetkey=1-21-126...
чуть-чуть полегчало - ленту читает теперь дальше, но на последнем файле рюхается
пробовал ЭТУ же ленту на другом ТАКОМ ЖЕ сане - отлично читает, скоко угодно разпо поводу параметров SCSI
в /etc/system добавить:
set vxdmp:dmp_failed_io_threshold=0
set vxdmp:dmp_retry_count=1
set scsi_reset_delay=500
set sd:sd_retry_count=0x3
set sd:sd_io_time=0x30в /kernel/drv/glm.conf добавить:
scsi-selection-timeout=64;в /kernel/drv/qus.conf добавить:
scsi-selection-timeout=250;в /kernel/drv/mpt.conf добавить:
scsi-selection-timeout=64;но это и так у меня всё уже стояло, но толку...
такое ощущение что ещё где-то есть какие-то парамы, в биосе...