Навигация
ГлавнаяФотогалереяКарта сайтаСтатьиМузыкаФильмыРейтинг контентаИнформация о сервереТемператураОбратная связь
Свежие записи
Что делать после приобретения оружияКак получить лицензию на оружиеРадиохоббиВышло обновление iOS 6.1Душевный блатнячок
Комменты
2017-10-23 15:35:49 [projects] Дим:
2017-10-11 12:42:42 [articles] Маша:
2017-10-06 10:09:52 [news] Николай:
2017-10-06 10:00:20 [projects] Николай:
2017-09-15 13:47:27 [projects] Artem:
2017-09-15 13:47:10 [projects] Artem:
2017-07-06 07:21:52 [projects] DarkEternal:
Теги
Друзья

Диагностика и восстановление HDD

Января
2012 года
18
Теги: hardware, hdd,
Раздел: odmin.info Статьи Hardware Диагностика и восстановление HDD
Просмотров: 22486
К написанию данной статьи меня сподвигло одно не очень приятное событие - на моем серваке стал помирать винт. Хотя визуально это было незаметно, но показания SMART я увидел вовремя.
Речь пойдет о диагностике и восстановлении винчестера (HDD).


Первые признаки скорой кончины накопителя


1. Неестественное повышение температуры винчестера.
2. Хаотичное увеличение времени доступа к некоторым файлам/разделам.
3. Интенсивная работа индикатора работы hdd в режиме простоя (мигает красная лампочка).
4. Более шумная работа во время операций чтения/записи, появление посторонних шумов (щелчки, посвистывания, периодические остановки/запуски шпинделя).
5. Ошибки при записи или чтении файлов, потеря данных, появление битых файлов.
6. Отказ, либо серьезное замедление работы ОС, вследствии повреждения ее файлов (п. 5).

Диагностика


Вообще для диагностики и устранения проблем жестких дисков существуют диагностические платы (на рисунке - плата PC-3000 for Windows UDMA, примерная стоимость 1200$).

Покупать такое оборудование нет смысла, если профессионально не заниматься восстановлением дисков и данных на них. Мы же, как среднестатистические сисадмины воспользуемся компьютером и программыми средствами.
Итак, приступим! Первым делом проверим показатели S.M.A.R.T., расшифровывается это как self-monitoring, analysis and reporting technology — технология внутренней оценки состояния жёсткого диска компьютера; а также механизм предсказания возможного выхода его из строя.
Для этого можно использовать программу Aida 64 или любую, которая позволяет смотреть данные SMART. В данной статье мы воспользуемся программой Aida 64.
Посмотрев на показатели, увидишь мало чего понятного, поэтому расшифруем пункты диагностической таблицы, хотя для разных производителей они немного различны, но основные показатели и что самое главное, их коды - идентичны:
Таблица атрибутов SMART (http://ru.wikipedia.org/wiki/S.M.A.R.T.)
Hex Имя атрибута Лучше, если... Описание
01 01 Raw Read Error Rate Меньше Частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска. Для всех дисков Seagate, Samsung (семейства F1 и более новые) и Fujitsu 2,5″ это — число внутренних коррекций данных, проведенных до выдачи в интерфейс, следовательно на пугающе огромные цифры можно реагировать спокойно.
02 02 Throughput Performance Больше Общая производительность диска. Если значение атрибута уменьшается, то велика вероятность, что с диском есть проблемы.
03 03 Spin-Up Time Меньше Время раскрутки пакета дисков из состояния покоя до рабочей скорости. Растет при износе механики (повышенное трение в подшипнике и т.п.), также может свидетельствовать о некачественном питании (например, просадке напряжения при старте диска).
04 04 Start/Stop Count Полное число циклов запуск-остановка шпинделя. У дисков некоторых производителей (например, Seagate) — счётчик включения режима энергосбережения. В поле raw value хранится общее количество запусков/остановок диска.
05 05 Reallocated Sectors Count Меньше Число операций переназначения секторов. Когда диск обнаруживает ошибку чтения/записи, он помечает сектор «переназначенным» и переносит данные в специально отведённую резервную область. Вот почему на современных жёстких дисках нельзя увидеть bad-блоки — все они спрятаны в переназначенных секторах. Этот процесс называют remapping, а переназначенный сектор — remap. Чем больше значение, тем хуже состояние поверхности дисков. Поле raw value содержит общее количество переназначенных секторов. Рост значения этого атрибута может свидетельствовать об ухудшении состояния поверхности блинов диска.
06 06 Read Channel Margin Запас канала чтения. Назначение этого атрибута не документировано. В современных накопителях не используется.
07 07 Seek Error Rate Меньше Частота ошибок при позиционировании блока магнитных головок. Чем их больше, тем хуже состояние механики и/или поверхности жёсткого диска. Также на значение параметра может повлиять перегрев и внешние вибрации (например, от соседних дисков в корзине).
08 08 Seek Time Performance Больше Средняя производительность операции позиционирования магнитными головками. Если значение атрибута уменьшается (замедление позиционирования), то велика вероятность проблем с механической частью привода готовок.
09 09 Power-On Hours (POH) Меньше Число часов (минут, секунд — в зависимости от производителя), проведённых во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ (MTBF — mean time between failure).
10 0A Spin-Up Retry Count Меньше Число повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность неполадок с механической частью.
11 0B Recalibration Retries Меньше Количество повторов запросов рекалибровки в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность проблем с механической частью.
12 Device Power Cycle Count Количество полных циклов включения-выключения диска.
13 0D Soft Read Error Rate Меньше Число ошибок при чтении, по вине программного обеспечения, которые не поддались исправлению. Все ошибки имеют не механическую природу и указывают лишь на неправильную размётку/взаимодействие с диском программ или операционной системы.
184 B8 End-to-End error Меньше Данный атрибут — часть технологии HP SMART IV, это означает, что после передачи через кэш памяти буфера данных паритет данных между хостом и жестким диском не совпадают.
187 BB Reported UNC Errors Меньше Ошибки, которые не могли быть восстановлены, используя методы устранения ошибки аппаратными средствами.
190 BE Airflow Temperature (WDC) Меньше Температура воздуха внутри корпуса жёсткого диска. Для дисков Seagate рассчитывается по формуле (100 — HDA temperature). Для дисков Western Digital - (125- HDA).
191 BF G-sense error rate Меньше Количество ошибок, возникающих в результате ударных нагрузок. Атрибут хранит показания встроенного акселерометра, который фиксирует все удары, толчки, падения и даже неаккуратную установку диска в корпус компьютера.
192 C0 Power-off retract count Меньше Число циклов выключений или аварийных отказов (включений/выключений питания накопителя).
193 C1 Load/Unload Cycle Меньше Количество циклов перемещения блока магнитных головок в парковочную зону / в рабочее положение.
194 C2 HDA temperature Меньше Здесь хранятся показания встроенного термодатчика для механической части диска - банки (HDA — Hard Disk Assembly). Информация снимается со встроенного термодатчика, которым служит одна из магнитных головок, обычно нижняя в банке. В битовых полях атрибута фиксируются текущая, минимальная и максимальная температура. Не все программы, работающие со SMART, правильно разбирают эти поля, так что к их показаниям стоит относиться критично.
195 C3 Hardware ECC Recovered Меньше Число коррекции ошибок аппаратной частью диска (чтение, позиционирование,передача по внешнему интерфейсу). На дисках с SATA-интерфейсом значение нередко ухудшается при повышении частоты системной шины — SATA очень чувствителен к разгону.
196 C4 Reallocation Event Count Меньше Число операций переназначения. В поле «raw value» атрибута хранится общее число попыток переноса информации с переназначенных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки.
197 C5 Current Pending Sector Count Меньше Число секторов, являющихся кандидатами на замену. Они не были ещё определены как плохие, но считывание с них отличается от чтения стабильного сектора, это так называемые подозрительные или нестабильные сектора. В случае успешного последующего прочтения сектора он исключается из числа кандидатов. В случае повторных ошибочных чтений накопитель пытается восстановить его и выполняет операцию переназначения (remaping). Рост значения этого атрибута может свидетельствовать о физической деградации жёсткого диска.
198 C6 Uncorrectable Sector Count Меньше Число неисправимых ошибок при обращении к сектору. {Возможно, имелось в виду «число некорректируемых (средствами диска) секторов», но никак не число самих ошибок!} В случае увеличения числа ошибок велика вероятность критических дефектов поверхности и/или механики накопителя.
199 C7 UltraDMA CRC Error Count Меньше Число ошибок, возникающих при передаче данных по внешнему интерфейсу в режиме UltraDMA (нарушения целостности пакетов и т.п.). Рост этого атрибута свидетельствует о плохом (мятом, перекрученном) кабеле и плохих контактах. Также подобные ошибки появляются при разгоне шины PCI, сбоях питания, сильных электромагнитных наводках, а иногда и по вине драйвера. Возможно причина в некачественном шлейфе. Для исправления попробуйте использовать SATA шлейф без защёлок, имеющий плотное соединение с контактами диска.
200 C8 Write Error Rate / Multi-Zone Error Rate Меньше Показывает общее количество ошибок, происходящих при записи сектора. Показывает общее число ошибок записи на диск. Может служить показателем качества поверхности и механики накопителя.
201 C9 Soft read error rate Меньше Частота появления «программных» ошибок при чтении данных с диска. Данный параметр показывает частоту появления ошибок при операциях чтения с поверхности диска по вине программного обеспечения, а не аппаратной части накопителя.
202 CA Data Address Mark errors Меньше Number of Data Address Mark (DAM) errors (or) vendor-specific.
203 CB Run out cancel Меньше Количество ошибок ECC.
204 CC Soft ECC correction Меньше Количество ошибок ECC, скорректированных программным способом.
205 CD Thermal asperity rate (TAR) Меньше Number of thermal asperity errors.
206 CE Flying height Высота между головкой и поверхностью диска.
207 CF Spin high current Меньше Amount of high current used to spin up the drive.
208 D0 Spin buzz Number of buzz routines to spin up the drive.
209 D1 Offline seek performance Drive’s seek performance during offline operations.
220 DC Disk Shift Меньше Дистанция смещения блока дисков относительно шпинделя. В основном возникает из-за удара или падения. Единица измерения неизвестна. При увеличении атрибута диск быстро становится неработоспособным.
221 DD G-Sense Error Rate Меньше Число ошибок, возникших из-за внешних нагрузок и ударов. Атрибут хранит показания встроенного датчика удара.
222 DE Loaded Hours Время, проведённое блоком магнитных головок между выгрузкой из парковочной области в рабочую область диска и загрузкой блока обратно в парковочную область.
223 DF Load/Unload Retry Count Количество новых попыток выгрузок/загрузок блока магнитных головок в/из парковочной области после неудачной попытки.
224 E0 Load Friction Меньше Величина силы трения блока магнитных головок при его выгрузке из парковочной области.
225 E1 Load Cycle Count Меньше Количество циклов перемещения блока магнитных головок в парковочную область.
226 E2 Load 'In'-time Время, за которое привод выгружает магнитные головки из парковочной области на рабочую поверхность диска.
227 E3 Torque Amplification Count Меньше Количество попыток скомпенсировать вращающий момент.
228 E4 Power-Off Retract Cycle Меньше Количество повторов автоматической парковки блока магнитных головок в результате выключения питания.
230 E6 GMR Head Amplitude Амплитуда «дрожания» (расстояние повторяющегося перемещения блока магнитных головок).
231 E7 Temperature Меньше Температура жёсткого диска.
240 F0 Head flying hours Время позиционирования головки.
250 FA Read error retry rate Меньше Число ошибок во время чтения жёсткого диска.
Теперь, согласно таблице проанализируем состояние экспериментального экземпляра, показания SMART которого, представлены на рисунке выше.
01 - Аппаратных ошибок чтения нет.
03 - Время раскрутки в норме.
04 - Диск запускался всего 66 раз.
05 - Переназначенных секторов нет.
09 - Общее время работы 5182 часа (215,9 суток).
С2 - Температура - 40*С.
Сделаем выводы: винт находится в хорошем состоянии, ремонта и замены в данный момент проводить не требуется.
Но не все так радужно в жизни бывает... Идея написать статью возникла уже после печальных и успешных опытов по восстановлению дисков и данных, поэтому и нет реальных скринов с показателями мертвых и полумертвых девайсов, ибо восстанавливая их, о скринах я не задумывался.
Так вот, первым делом необходимо обратить внимание на показатель SMART под названием 05 Reallocated Sectors Count, и если его значение уже больше нуля, то в домашних условиях это не изменить и это первая ласточка, которая говорит о том, что начались проблемы с поверхностью, поэтому делаем бэкапы на другой носитель и готовимся через некоторое время к покупке нового винчестера.
Второе, на что следует обращать внимание - это показатель C2 HDA temperature, т.е. температура механики диска, и если она выше 40*С, то рекомендуется поставить дополнительное охлаждение, потому что высокая температура приводит к преждевременному износу механики.
И третье, на что нужно обращать внимание это показатель 09 Power-On Hours, он покажет насколько стар накопитель. Но сразу оговорюсь - старость не аргумент списывать диск со счетов. Приведу пример из жизни. Винт, стоявший в моем сервере (WD Green 1Tb 64Mb Cache) наработал всего 7800 часов и у него появились reallocated'ы, т.е. поверхность уже начинала сыпаться, а в старом серваке моего товарища стоит Seagate Barracuda 60Gb, та самая из первых выпусков, наработка - 61000 часов, это практически 7 лет!!! непрерывной работы, и никаких намеков на смерть она не дает. Поэтому сразу скажу, что считаю, что качество нынешних комплектующих оставляет желать лучшего.
Вернемся снова к делу. Разобравшись со SMART'ами перейдем к тестам поверхности.
Само-мониторинг винтов работает неплохо, но не всегда он является истиной в последней инстанции, поэтому полагаться на него со 100%-ной уверенностью не следут. И чтобы подтердить или опровергнуть свои опасения воспользуемся очень известной утилитой MHDD. Для этого загрузимся с Hiren Boot CD или любого подобного диска и запустим MHDD, вот что мы увидим:
Выбираем диск, в моем случае это №6, жмем Enter, если диск успешно инициализирован программой, то увидим приглашение:
MHDD>
Нажимаем F4 для запуска сканирования поверхности и видим следующее окно:
Снова жмем F4. Тест запустился:
Продолжительность его зависит от производительности системы и скорости диска, мой диск на 250Gb сканировался 1 час 15 минут. После завершения теста у хорошего накопителя не должно быть обнаружено ни одного блока >500 или помеченного буквой, но если они есть, то это означает, что некоторые сектора на диске не читаются, либо читаются с большой задержкой. Итак, что делать, если есть подпорченные блоки?

Восстановление


Первым делом сохраним все данные с диска, если таковые имеются, потому что процедура, описанная ниже уничтожит ВСЕ данные. Сохранили? Приступаем! Снова запускаем MHDD, выбираем винт, пишем команду ERASE. Стирание будет происходить дольше, чем SCAN. По завершении стирания, снова делаем SCAN и смотрим, улучшились ли наши показатели, если косячные блоки исчезли и время доступа ко всем секторам в пределах 5-150 ms, то значит с задачей мы справились. Теперь можно загружать вашу любимую ОС (конечно же, если диск не был основным), форматировать диск и создавать на нем разделы.
Как быть, если ситуация после ERASE лучше не стала? В таком случае снова запускаем MHDD, жмем F4 и включаем опцию Erase Delays *DESTRUCTIVE*, как показано на рисунке:
Таким образом мы включили стирание блоков с ожиданием, очень часто эта процедура оказывается эффективной, если задержки чтения не связаны с качеством поверхности, а имеют программное происхождение, которое почему-то система расценила, как аппаратную проблему. Снова ждем. В итоге смотрим результат. Если количество некачественных блоков (>500ms и за ним следующие) уменьшилось или же совсем стало равно нулю, то переходим к загрузке любимой ОС, как я рассказывал выше.
Что делать, если и это не помогло? Тут уже можно говорить о физическом ухудшении качества поверхности, с которым мы уже ничего сделать не сможем. Единственный шанс продлить жизнь винчестеру - это Remap, поэтому снова MHDD, снова F4, только теперь включим опцию Remap, все остальное оставим по умолчанию. В результате этой операции программа попытается заменить сбойные секторы, на секторы из резервной области. Замененные секторы подсвечиваются синим цветом. После этой процедуры параметр SMART 05 Reallocated Sectors Count должен увеличиться. И если все проблемные секторы были перенесены, то можно приступать к загрузке ОС, форматированию и разметке накопителя.

Заключение


Если после всех проделанных процедур количество неисправных секторов не уменьшается или растет - можно смело выкидывать диск, в домашних условиях мы больше не сможем ничего с ним сделать, а если и сможем, то долго он все равно не прослужит. Но как показывает практика, те накопители, проблемность которых была вовремя выявлена, подлежат восстановлению методами, описанными выше и после этого они еще могут нам послужить.
Успехов вам в начинаниях и терпения конечно же. Удачи!
Комментарии к записи:
Xander 2013-04-19 17:18:30
Выкидывать не надо. Можно сделать так: http://www.yaplakal.com/pics/pics_original/5/2/0/1836025.jpg
Cj110 2013-05-12 13:41:59
Спасибо за очень полезную и информативную статью!
просто Саша 2013-12-30 03:38:40
Спасибо, статья очень помогла чего скрывать. ЖД совсем не хотел винду принимать. Я как то в ЖД восстановил тем что разбил 1 жд на 2 так что бы не обращался к бад секторам . Там бады были в начале в середине и в концы.
Vladus 2014-01-09 15:19:03
Да, такое бывает, рад, что смог помочь! =)
Влад 2015-09-11 17:54:16
Спасибо. Лучшая статья на данную тему. Просто и доступно.
Алексей 2016-05-31 09:21:58
Огромное тебе спасибо. Освежил память твоей статьёй. Все грамотно написано.

Добавление комментария

Ваше имя:
Ваш комментариий:
Введите код с картинки:
 
^_^