خرابی RAID یکی از بحرانیترین اتفاقاتی است که میتواند برای سرور، NAS یا سیستم ذخیرهسازی یک مجموعه رخ دهد. وقتی سرور ناگهان از دسترس خارج میشود، پیامهایی مانند RAID Degraded، Disk Failure، Array Missing، Logical Drive Failed یا RAID Controller Error نمایش داده میشود و دسترسی به اطلاعات حیاتی سازمان مختل میگردد، معمولاً اولین نگرانی مدیران IT این است که آیا امکان بازیابی اطلاعات RAID وجود دارد یا نه.
RAID برای افزایش سرعت، کارایی، دسترسپذیری یا تحمل خطا طراحی شده است؛ اما یک نکته بسیار مهم وجود دارد: RAID جایگزین بکاپ نیست. بسیاری از کاربران تصور میکنند چون اطلاعات روی چند دیسک ذخیره شده، پس همیشه امن است؛ در حالی که خرابی هارد، خطای انسانی، مشکل کنترلر، حذف Logical Drive، Rebuild اشتباه، قطع برق یا آسیب به Metadata میتواند کل آرایه را از دسترس خارج کند.
در این مقاله بهصورت کاربردی بررسی میکنیم RAID 0 و RAID 1 چگونه کار میکنند، چه عواملی باعث خرابی آنها میشود، در چه شرایطی امکان بازیابی اطلاعات وجود دارد و هنگام خرابی RAID دقیقاً چه کارهایی را نباید انجام داد.
RAID چیست و چرا در سرورها استفاده میشود؟
RAID مخفف عبارت Redundant Array of Independent Disks است. در این روش، چند هارد دیسک یا SSD در قالب یک آرایه ذخیرهسازی کنار هم قرار میگیرند تا بسته به نوع RAID، سرعت خواندن و نوشتن افزایش پیدا کند، دسترسپذیری اطلاعات بیشتر شود یا در برابر خرابی یک دیسک، سیستم همچنان قابل استفاده بماند.
RAID معمولاً در سرورها، NAS، سیستمهای ذخیرهسازی سازمانی، ورکاستیشنهای حرفهای، دیتاسنترها و سیستمهایی استفاده میشود که اطلاعات آنها ارزش بالایی دارد. فایلهای حسابداری، دیتابیسها، ماشینهای مجازی، پروژههای سازمانی، آرشیو دوربین مداربسته و اطلاعات کاربران معمولاً روی چنین ساختارهایی نگهداری میشوند.
با وجود مزایای RAID، خرابی در این ساختار میتواند پیچیدهتر از خرابی یک هارد معمولی باشد؛ چون اطلاعات فقط روی یک دیسک ذخیره نشده و برای بازیابی صحیح، باید ساختار آرایه، ترتیب دیسکها، Stripe Size، نوع RAID، Offset و Metadata بهدرستی تحلیل شود.

اجزای اصلی سیستم RAID
برای درک بهتر فرایند بازیابی RAID، ابتدا باید اجزای اصلی آن را بشناسیم.
۱. دیسکها یا درایوهای ذخیرهسازی
دیسکها میتوانند از نوع HDD، SSD یا NVMe باشند. در بسیاری از سرورها همچنان از هاردهای HDD سازمانی استفاده میشود، اما در سیستمهای جدیدتر، SSD و NVMe نیز رایج شدهاند. هرکدام از این درایوها میتوانند دچار خرابی فیزیکی، بدسکتور، خرابی فریمور، آسیب الکترونیکی یا مشکل منطقی شوند.
۲. RAID Controller
کنترلر RAID وظیفه مدیریت آرایه را بر عهده دارد. این کنترلر میتواند سختافزاری یا نرمافزاری باشد. در RAID سختافزاری، یک کارت کنترلر مستقل ساختار آرایه را مدیریت میکند. در RAID نرمافزاری، سیستمعامل یا نرمافزارهای ذخیرهسازی این کار را انجام میدهند.
خرابی کنترلر یکی از دلایل رایج از دست رفتن دسترسی به RAID است. در چنین شرایطی ممکن است دیسکها سالم باشند، اما آرایه دیگر شناسایی نشود یا بهصورت Missing، Foreign یا Failed نمایش داده شود.
۳. RAID Metadata
Metadata اطلاعاتی است که ساختار RAID را مشخص میکند. این اطلاعات میتواند شامل نوع RAID، ترتیب دیسکها، اندازه Stripe، Offset، شماره دیسکها و وضعیت آرایه باشد. آسیب دیدن Metadata یا حذف آن میتواند باعث شود سیستم دیگر نتواند آرایه را بهدرستی تشخیص دهد.
در بسیاری از پروژههای تخصصی ریکاوری RAID، بازیابی یا تحلیل Metadata یکی از مهمترین مراحل کار است.
تفاوت RAID 0 و RAID 1
RAID 0 و RAID 1 دو ساختار کاملاً متفاوت هستند. یکی برای سرعت بیشتر طراحی شده و دیگری برای ایجاد نسخه Mirror از اطلاعات.
| ویژگی | RAID 0 | RAID 1 |
| روش ذخیره سازی | Striping | Mirroring |
| هدف اصلی | افزایش سرعت | افزایش امنیت و دسترسپذیری |
| تحمل خرابی دیسک | ندارد | معمولاً تحمل خرابی یک دیسک |
| سرعت خواندن و نوشتن | بالا | متوسط تا خوب |
| ریسک از دست رفتن اطلاعات | بالا | کمتر از RAID 0 |
| کاربرد رایج | پردازش سنگین، فایلهای حجیم، ورکاستیشن | سرورهای حساس، سیستمهای اداری، فایلهای مهم |
RAID 0 چیست؟
در RAID 0 دادهها بین چند دیسک تقسیم میشوند. به این روش Striping گفته میشود. برای مثال، اگر یک فایل روی RAID 0 ذخیره شود، بخشی از آن روی دیسک اول، بخشی روی دیسک دوم و بخشهای بعدی روی دیسکهای دیگر نوشته میشود.
مزیت RAID 0 سرعت بالای خواندن و نوشتن است؛ چون چند دیسک همزمان درگیر ذخیرهسازی داده میشوند. اما مشکل اصلی آن این است که هیچ تحمل خطایی ندارد. اگر فقط یکی از دیسکها خراب شود، بخشی از فایلها ناقص میشود و کل آرایه ممکن است از دسترس خارج گردد.
به همین دلیل، بازیابی RAID 0 معمولاً پیچیدهتر و حساستر از بسیاری از ساختارهای دیگر است.

RAID 1 چیست؟
در RAID 1 اطلاعات بهصورت Mirror ذخیره میشود. یعنی همان دادهای که روی دیسک اول نوشته میشود، روی دیسک دوم نیز ذخیره میگردد. اگر یکی از دیسکها خراب شود، معمولاً دیسک دیگر همچنان شامل نسخه کامل اطلاعات است.
RAID 1 نسبت به RAID 0 امنیت بیشتری دارد، اما باز هم به معنی داشتن بکاپ نیست. اگر اطلاعات به اشتباه حذف شود، اگر فایلها خراب شوند، اگر ویروس یا باجافزار دادهها را تغییر دهد یا اگر Rebuild اشتباه انجام شود، همان خطا ممکن است روی دیسک دیگر نیز اثر بگذارد.
بنابراین RAID 1 فقط در برابر خرابی فیزیکی یک دیسک تا حدی محافظت ایجاد میکند، نه در برابر همه سناریوهای از دست رفتن اطلاعات.
چرا RAID خراب میشود؟
خرابی RAID همیشه یک دلیل ساده ندارد. گاهی مشکل از یک هارد است، گاهی از کنترلر، گاهی از خطای انسانی و گاهی هم چند عامل همزمان باعث از دست رفتن دسترسی به اطلاعات میشوند.
۱. خرابی فیزیکی هارد دیسک
یکی از رایجترین دلایل خرابی RAID، مشکل فیزیکی در یک یا چند دیسک است. این مشکل میتواند شامل بدسکتور شدید، خرابی هد، آسیب پلاتر، خرابی موتور، خرابی برد یا مشکل فریمور باشد.
علائم رایج خرابی فیزیکی هارد در RAID عبارتاند از:
- صدای کلیک یا تقتق از هارد
- شناسایی نشدن دیسک در BIOS یا کنترلر
- کاهش شدید سرعت سرور
- نمایش وضعیت Failed یا Offline برای یک دیسک
- توقف فرایند Rebuild
- هنگ کردن سیستم هنگام دسترسی به دادهها
در چنین شرایطی روشن و خاموش کردن مداوم سرور یا تلاش برای Rebuild میتواند وضعیت را بدتر کند.
۲. خرابی RAID Controller
اگر RAID Controller دچار مشکل شود، ممکن است آرایه بهدرستی شناسایی نشود. گاهی دیسکها سالم هستند، اما کنترلر به دلیل خرابی سختافزاری، مشکل تنظیمات، بهروزرسانی اشتباه Firmware یا آسیب الکتریکی، ساختار RAID را از دسترس خارج میکند.
در این حالت ممکن است کاربر تصور کند اطلاعات پاک شده، در حالی که دادهها همچنان روی دیسکها وجود دارند و باید آرایه با کنترلر جایگزین یا بهصورت مجازی بازسازی شود.
۳. حذف Logical Drive
در بعضی موارد، مدیر سیستم یا کاربر به اشتباه Logical Drive را حذف میکند. این کار معمولاً به معنی پاک شدن کامل دادهها نیست، اما ساختار منطقی RAID از بین میرود و سیستم دیگر نمیتواند آرایه را مثل قبل شناسایی کند.
اگر بعد از حذف Logical Drive عملیات جدیدی مثل ساخت آرایه جدید، Initialize، فرمت یا نصب سیستمعامل انجام نشود، شانس بازیابی اطلاعات معمولاً بیشتر است.
۴. Rebuild اشتباه
Rebuild یکی از حساسترین عملیاتها در RAID است. اگر دیسک اشتباه انتخاب شود، ترتیب دیسکها تغییر کند، دیسک معیوب وارد فرایند شود یا Rebuild روی آرایه ناپایدار انجام گیرد، ممکن است دادههای سالم با اطلاعات ناقص یا خراب بازنویسی شوند.
در بسیاری از پروندههای ریکاوری RAID، مشکل اصلی خود خرابی اولیه نیست؛ بلکه اقدامی است که بعد از خرابی انجام شده است.
۵. جابهجایی دیسکها
ترتیب دیسکها در بسیاری از آرایههای RAID اهمیت زیادی دارد، بهخصوص در RAID 0 و ساختارهای Stripe-based. اگر دیسکها بدون مستندسازی از جای خود خارج شوند و دوباره با ترتیب اشتباه متصل گردند، کنترلر ممکن است آرایه را شناسایی نکند یا ساختار داده بههم بریزد.
قبل از خارج کردن دیسکها از سرور، بهتر است حتماً شمارهگذاری شوند.
۶. قطع برق و نوسان جریان
قطع برق ناگهانی، خاموش شدن غیر اصولی سرور یا نبود UPS میتواند باعث آسیب به فایل سیستم، ناقص ماندن عملیات نوشتن، خرابی Metadata یا از دست رفتن وضعیت صحیح آرایه شود. این موضوع در سرورها و NASهایی که دائماً در حال نوشتن داده هستند، اهمیت بیشتری دارد.
بعد از خرابی RAID چه کارهایی نباید انجام داد؟
اگر RAID شما خراب شده یا سرور دیگر اطلاعات را نمایش نمیدهد، قبل از هر کاری این موارد را جدی بگیرید:
- Rebuild را بدون بررسی تخصصی شروع نکنید.
- دیسکها را جابهجا نکنید.
- آرایه را Initialize نکنید.
- Logical Drive جدید نسازید.
- روی دیسکها سیستمعامل نصب نکنید.
- از نرمافزارهای عمومی ریکاوری روی دیسک اصلی استفاده نکنید.
- اگر هارد صدا میدهد، آن را چند بار روشن و خاموش نکنید.
- دیسک Failed را بدون ایمیجگیری وارد فرایند Rebuild نکنید.
- ترتیب دیسکها را بدون یادداشتبرداری تغییر ندهید.
در بازیابی RAID، هر تغییر اشتباه میتواند ساختار آرایه را پیچیدهتر کند. بهترین کار این است که سیستم خاموش شود، وضعیت دیسکها ثبت گردد و قبل از هر اقدامی با متخصص ریکاوری RAID مشورت شود.

بازیابی اطلاعات RAID 0 چگونه انجام میشود؟
بازیابی RAID 0 به دلیل ساختار Striping حساسیت بالایی دارد. چون فایلها بین چند دیسک تقسیم شدهاند، برای بازسازی صحیح اطلاعات باید همه دیسکها تا حد امکان بررسی و از آنها ایمیج گرفته شود.
در RAID 0 اگر یک دیسک خراب شود، بخشی از دادهها از دسترس خارج میشود. با این حال، در بعضی شرایط هنوز امکان بازیابی کامل یا بخشی از اطلاعات وجود دارد؛ مخصوصاً اگر خرابی از نوع منطقی باشد یا بتوان از دیسک معیوب ایمیج مناسبی تهیه کرد.
بازیابی RAID 0 پس از خرابی یک دیسک
اگر در RAID 0 فقط یک دیسک دچار خرابی شده باشد، شانس بازیابی به نوع خرابی بستگی دارد. اگر دیسک فقط مشکل منطقی، بدسکتور محدود یا خرابی قابل کنترل داشته باشد، با ایمیجگیری تخصصی و بازسازی آرایه میتوان شانس خوبی برای بازیابی داشت.
اما اگر دیسک آسیب شدید فیزیکی دیده باشد و بخش زیادی از دادهها قابل خواندن نباشد، بازیابی کامل دشوارتر میشود. چون در RAID 0 هر دیسک بخشی از فایلها را نگه میدارد و نبود یک بخش میتواند باعث ناقص شدن فایلها شود.
بازیابی اطلاعات RAID 1 چگونه انجام میشود؟
RAID 1 به دلیل ساختار Mirroring معمولاً شانس بازیابی بیشتری نسبت به RAID 0 دارد. چون اطلاعات بهصورت مشابه روی دو دیسک ذخیره میشود، اگر یک دیسک خراب شود، دیسک دیگر معمولاً شامل نسخه کامل اطلاعات است.
اما این موضوع به معنی بیخطر بودن RAID 1 نیست. اگر اطلاعات حذف شود، فایل سیستم خراب گردد، ویروس دادهها را تغییر دهد یا عملیات Sync اشتباه انجام شود، ممکن است هر دو دیسک تحت تأثیر قرار بگیرند.
چه زمانی باید RAID را به مرکز تخصصی بسپاریم؟
در بعضی موارد، تلاشهای معمولی میتواند مشکل را بدتر کند. اگر یکی از شرایط زیر وجود دارد، بهتر است از ادامه کار خودداری کنید و RAID را به مرکز تخصصی بسپارید:
- خرابی همزمان چند دیسک
- صدای غیرعادی از هارد
- شناسایی نشدن یک یا چند دیسک
- RAID Controller Failure
- حذف اشتباه Logical Drive
- شکست عملیات Rebuild
- نمایش Array Missing یا Incomplete RAID
- وجود اطلاعات حیاتی سازمانی
- خرابی NAS یا سرور
- وجود دیتابیس یا ماشین مجازی روی RAID
در امدادسیستم، بررسی تخصصی RAID با تمرکز بر حفظ ساختار اصلی داده انجام میشود. در پروژههای حساس، ابتدا از دیسکها ایمیج گرفته میشود و سپس عملیات بازسازی آرایه و استخراج اطلاعات روی نسخه امن انجام میگیرد.

راهکارهای جلوگیری از خرابی دوباره RAID
برای کاهش ریسک خرابی RAID، این نکات را رعایت کنید:
۱. بکاپ منظم داشته باشید
مهمترین اصل این است که RAID را جایگزین بکاپ نکنید. همیشه از اطلاعات حیاتی نسخه پشتیبان جداگانه داشته باشید.
۲. وضعیت دیسکها را مانیتور کنید
از ابزارهای مانیتورینگ SMART، هشدارهای RAID Controller و سیستمهای پایش سلامت سرور استفاده کنید. اگر دیسکی علائم خرابی نشان میدهد، قبل از بحرانی شدن وضعیت آن را بررسی کنید.
۳. از UPS استفاده کنید
قطع برق ناگهانی میتواند باعث خرابی فایل سیستم، آسیب به Metadata یا ناقص ماندن عملیات نوشتن شود. استفاده از UPS برای سرورها و NAS ضروری است.
۴. Rebuild را با دقت انجام دهید
قبل از Rebuild مطمئن شوید دیسک درست انتخاب شده، ترتیب دیسکها مشخص است و دیسکهای دیگر آرایه سالم هستند. Rebuild روی آرایه ناپایدار میتواند خطرناک باشد.
۵. دیسکها را شمارهگذاری کنید
در سرورها و NASها بهتر است دیسکها همیشه شمارهگذاری شوند تا در زمان خرابی، ترتیب آنها مشخص باشد.
۶. تست دورهای بکاپ انجام دهید
داشتن بکاپ کافی نیست. باید مطمئن شوید بکاپها قابل بازگردانی هستند. بسیاری از سازمانها زمانی متوجه خرابی بکاپ میشوند که دیگر دیر شده است.
آیا بازیابی اطلاعات RAID همیشه امکانپذیر است؟
در بسیاری از موارد بله، اما نتیجه به نوع RAID، تعداد دیسکهای خراب، وضعیت هاردها، سلامت Metadata و اقداماتی که بعد از خرابی انجام شده بستگی دارد. Rebuild اشتباه یا Initialize کردن آرایه میتواند شانس بازیابی را کاهش دهد.
بعد از خرابی RAID اولین کاری که باید انجام دهیم چیست؟
اولین کار این است که سیستم را خاموش کنید و از انجام Rebuild، جابهجایی دیسکها یا ساخت آرایه جدید خودداری کنید. سپس ترتیب دیسکها و پیامهای خطا را ثبت کرده و با مرکز تخصصی بازیابی RAID تماس بگیرید.
آیا RAID 0 بعد از خرابی یک دیسک قابل بازیابی است؟
بازیابی RAID 0 بعد از خرابی یک دیسک دشوار است، اما در بعضی شرایط امکانپذیر است. چون دادهها بین چند دیسک تقسیم شدهاند، باید از دیسکهای سالم و معیوب ایمیج گرفته شود و ساختار آرایه بهصورت تخصصی بازسازی گردد.
آیا RAID 1 جایگزین بکاپ محسوب میشود؟
خیر. RAID 1 فقط یک نسخه Mirror از اطلاعات روی دیسک دیگر ایجاد میکند، اما در برابر حذف اشتباه، ویروس، باجافزار، خرابی فایل سیستم یا Sync اشتباه محافظت کامل ندارد. برای امنیت واقعی، بکاپ جداگانه ضروری است.
آیا حذف Logical Drive باعث پاک شدن کامل اطلاعات RAID میشود؟
معمولاً خیر. در بسیاری از موارد با حذف Logical Drive، خود دادهها هنوز روی دیسکها باقی میمانند و فقط ساختار منطقی آرایه حذف میشود. البته اگر بعد از آن آرایه جدید ساخته شود یا اطلاعات جدید نوشته شود، شانس بازیابی کمتر میشود.