ارور 3960: رفع خطای “Snapshot Isolation Transaction Aborted Due to Update Conflict”

ارور 3960 در SQL Server: راهنمای جامع رفع خطای “Snapshot Isolation Transaction Aborted Due to Update Conflict”

خطای 3960 در SQL Server، با پیغام “Snapshot isolation transaction aborted due to update conflict” یک چالش رایج برای توسعه‌دهندگان و مدیران پایگاه داده است که از سطح ایزولیشن Snapshot Isolation یا Read Committed Snapshot Isolation استفاده می‌کنند. این خطا زمانی رخ می‌دهد که یک تراکنش در حالت Snapshot Isolation سعی دارد ردیفی را به‌روزرسانی کند که از زمان شروع این تراکنش، توسط یک تراکنش دیگر تغییر کرده و Commit شده است. درک عمیق این مکانیزم برای حفظ پایداری و عملکرد برنامه‌های کاربردی حیاتی است. این خطا نشان‌دهنده تضاد در به‌روزرسانی داده‌ها است و برخلاف سطوح ایزولیشن سنتی (مانند Read Committed یا Serializable) که ممکن است باعث بلاک شدن (Blocking) شوند، تراکنش Snapshot را به دلیل ناسازگاری داده‌ها با “اسنپ‌شات” اولیه خود، Rollback می‌کند. هدف اصلی Snapshot Isolation، کاهش بلاک شدن خوانندگان توسط نویسندگان و بالعکس است، اما این امر مستلزم مدیریت دقیق تداخل‌های به‌روزرسانی در سمت برنامه است.

علت بروز خطای 3960 در SQL Server

علت اصلی خطای 3960، تداخل در به‌روزرسانی همزمان (concurrent update) است. هنگامی که یک تراکنش در سطح ایزولیشن Snapshot Isolation شروع می‌شود، SQL Server یک “اسنپ‌شات” منطقی از داده‌های موجود در آن لحظه ایجاد می‌کند. این بدان معناست که تمام عملیات خواندن (SELECT) در طول عمر تراکنش Snapshot، از نسخه‌های داده‌ای که در زمان شروع تراکنش وجود داشته‌اند، استفاده می‌کنند. این نسخه‌ها در TempDB در بخشی به نام “Version Store” نگهداری می‌شوند. این رویکرد به خوانندگان اجازه می‌دهد بدون بلاک شدن توسط نویسندگان، به داده‌ها دسترسی پیدا کنند و در عین حال ثبات را حفظ کنند (Non-Blocking Reads).

اما زمانی که یک تراکنش Snapshot Isolation سعی می‌کند ردیفی را به‌روزرسانی کند، SQL Server بررسی می‌کند که آیا این ردیف از زمان شروع تراکنش Snapshot، توسط تراکنش دیگری تغییر کرده و Commit شده است یا خیر. اگر این ردیف توسط تراکنش دیگری تغییر کرده باشد، یعنی “اسنپ‌شات” اولیه تراکنش Snapshot دیگر برای عملیات نوشتن معتبر نیست و تداخلی در به‌روزرسانی رخ داده است. در این سناریو، SQL Server به جای بلاک کردن تراکنش Snapshot، آن را با خطای 3960 Rollback می‌کند. این مکانیزم برای جلوگیری از “Lost Update” یا خواندن داده‌های ناسازگار در حین عملیات نوشتن طراحی شده است.

سناریوهای رایجی که منجر به خطای 3960 می‌شوند عبارتند از:

تراکنش‌های Snapshot طولانی‌مدت: هرچه یک تراکنش Snapshot برای مدت طولانی‌تری باز بماند، احتمال اینکه ردیف‌هایی که قصد به‌روزرسانی آن‌ها را دارد توسط تراکنش‌های دیگر تغییر کنند، بیشتر می‌شود.
تغییرات داده‌ای با فرکانس بالا (High Concurrency on Hot Rows): اگر چندین تراکنش به‌طور همزمان سعی در به‌روزرسانی یک یا چند ردیف مشابه داشته باشند، احتمال بروز این خطا افزایش می‌یابد. این مشکل اغلب در جداولی با نرخ به‌روزرسانی بالا و “نقاط داغ” (Hot Spots) داده‌ای رخ می‌دهد.
نبود مکانیزم‌های بازتلاش (Retry Logic) در برنامه: برنامه‌هایی که از Snapshot Isolation استفاده می‌کنند، باید برای مدیریت این خطاها آماده باشند. اگر برنامه پس از دریافت خطای 3960 عملیات را مجدداً امتحان نکند، کاربر با پیغام خطا مواجه خواهد شد.
منطق تجاری پیچیده: در برخی موارد، منطق برنامه ممکن است به‌گونه‌ای باشد که داده‌ها را ابتدا بخواند، سپس محاسباتی روی آن‌ها انجام دهد و در نهایت پس از گذشت زمان قابل توجهی، همان داده‌ها را به‌روزرسانی کند. در این فاصله، تراکنش‌های دیگر ممکن است تغییرات را اعمال کرده باشند.
عدم درک صحیح از Snapshot Isolation: توسعه‌دهندگان ممکن است بدون درک کامل نحوه عملکرد Snapshot Isolation برای عملیات نوشتن، آن را فعال کنند. این سطح ایزولیشن برای کاهش بلاک شدن خوانندگان عالی است، اما نیاز به مدیریت صریح تداخلات به‌روزرسانی در سمت برنامه دارد.

راهکارهای رفع خطای 3960 در SQL Server

رفع خطای 3960 عمدتاً شامل دو رویکرد اصلی است: مدیریت تداخلات در سطح برنامه و بهینه‌سازی عملیات پایگاه داده. در ادامه به راهکارهای عملی و مرحله‌ای برای رفع این خطا می‌پردازیم:

1. پیاده‌سازی مکانیزم بازتلاش (Retry Logic) در برنامه

مهم‌ترین و مؤثرترین راهکار برای مدیریت خطای 3960، پیاده‌سازی یک مکانیزم بازتلاش در کد برنامه است. از آنجایی که Snapshot Isolation برای کاهش بلاک شدن طراحی شده است و خطای 3960 یک رفتار مورد انتظار برای حل تداخلات نوشتن است، برنامه شما باید بتواند این خطا را تشخیص داده و تراکنش را مجدداً (پس از مدت زمان کوتاهی انتظار) اجرا کند.

مراحل:

تشخیص خطا: در بلاک `TRY…CATCH` زبان برنامه‌نویسی خود، خطای SQL Server با شماره 3960 را تشخیص دهید.
تأخیر کوتاه: پس از دریافت خطا، یک تأخیر (Delay) کوتاه (مثلاً 100 تا 500 میلی‌ثانیه) ایجاد کنید. این تأخیر به تراکنش‌های دیگر فرصت می‌دهد تا عملیات خود را کامل کنند.
بازتلاش: تراکنش را مجدداً از ابتدا اجرا کنید. معمولاً یک شمارنده برای تعداد بازتلاش‌ها در نظر گرفته می‌شود (مثلاً 3 تا 5 بار) تا از حلقه‌های بی‌نهایت جلوگیری شود.

مثال شبه‌کد برای پیاده‌سازی Retry Logic:

 

DECLARE @RetryCount INT = 0;
DECLARE @MaxRetries INT = 5;
DECLARE @Success BIT = 0;

WHILE @RetryCount < @MaxRetries AND @Success = 0
BEGIN
BEGIN TRY
BEGIN TRANSACTION;

-- SQL Server update/insert operations here
-- Example:
-- UPDATE YourTable SET Value = NewValue WHERE ID = @ID;

COMMIT TRANSACTION;
SET @Success = 1;
END TRY
BEGIN CATCH
IF ERROR_NUMBER() = 3960
BEGIN
ROLLBACK TRANSACTION;
SET @RetryCount = @RetryCount + 1;
WAITFOR DELAY '00:00:00.250'; -- Wait for 250 milliseconds
END
ELSE
BEGIN
-- Handle other errors
ROLLBACK TRANSACTION;
THROW;
END
END CATCH
END

IF @Success = 0
BEGIN
-- Log error: Transaction failed after multiple retries
END

 

توضیح: این شبه‌کد نشان می‌دهد که چگونه یک برنامه می‌تواند تراکنش خود را در یک حلقه `WHILE` اجرا کند. اگر خطای 3960 رخ دهد، تراکنش Rollback شده، یک تأخیر اعمال می‌شود و شمارنده بازتلاش افزایش می‌یابد. سپس، حلقه مجدداً تلاش می‌کند تا تراکنش را اجرا کند. این فرآیند تا زمانی که تراکنش با موفقیت انجام شود یا حداکثر تعداد بازتلاش‌ها فرا رسد، ادامه می‌یابد.

2. بهینه‌سازی طول مدت تراکنش‌ها

کاهش زمان اجرای تراکنش‌های Snapshot Isolation، به شدت احتمال بروز خطای 3960 را کاهش می‌دهد. هرچه تراکنش کوتاه‌تر باشد، پنجره زمانی برای تداخل با تراکنش‌های دیگر کمتر می‌شود.

مراحل:

کوچک کردن Scope تراکنش: فقط عملیات ضروری را در یک تراکنش Snapshot قرار دهید.
انجام محاسبات سنگین خارج از تراکنش: اگر نیاز به محاسبات پیچیده یا پردازش داده دارید که نیازی به قفل کردن یا حفظ ثبات تراکنش ندارد، آن‌ها را قبل یا بعد از تراکنش اصلی انجام دهید.
استفاده از Batch Processing (با احتیاط): برای به‌روزرسانی‌های بزرگ، به جای یک تراکنش Snapshot عظیم، آن‌ها را به دسته‌های کوچک‌تر تقسیم کنید و هر دسته را در یک تراکنش جداگانه اجرا کنید. این کار می‌تواند ریسک تداخل را برای هر تراکنش جداگانه کاهش دهد.

3. بازبینی طراحی برنامه و انتخاب سطح ایزولیشن

گاهی اوقات، Snapshot Isolation بهترین انتخاب برای تمام عملیات‌ها نیست، به خصوص برای عملیات نوشتن با تداخل بالا.

مراحل:

ارزیابی نیازها:** بررسی کنید که آیا واقعاً به Snapshot Isolation برای عملیات خاصی که با خطا مواجه می‌شوند، نیاز دارید. اگر بلاک شدن خوانندگان توسط نویسندگان قابل قبول است، یا اگر تراکنش‌ها عمدتاً شامل نوشتن هستند، ممکن است سطوح ایزولیشن دیگری مانند `READ COMMITTED` (پیش‌فرض) یا حتی `SERIALIZABLE` در موارد خاص، مناسب‌تر باشند.
درک تفاوت `READ COMMITTED SNAPSHOT` و `SNAPSHOT`:
`READ COMMITTED SNAPSHOT`: یک تنظیم در سطح پایگاه داده است که رفتار پیش‌فرض `READ COMMITTED` را تغییر می‌دهد تا عملیات خواندن به جای استفاده از قفل‌ها، از نسخه‌های سطرها در Version Store استفاده کنند. تراکنش‌های نوشتن همچنان قفل می‌شوند و عملیات نوشتن در این سطح ایزولیشن معمولاً خطا 3960 را ایجاد نمی‌کند، بلکه منتظر می‌مانند تا قفل آزاد شود.
 `SNAPSHOT`: یک تنظیم در سطح تراکنش است که باید به صراحت با `SET TRANSACTION ISOLATION LEVEL SNAPSHOT` فعال شود. این سطح هم برای خواندن و هم برای نوشتن از نسخه‌ها استفاده می‌کند و مستعد خطای 3960 است.

اگر تنها هدف شما جلوگیری از بلاک شدن خوانندگان است، فعال کردن `READ_COMMITTED_SNAPSHOT` در سطح دیتابیس (با فرمان زیر) ممکن است گزینه بهتری باشد، زیرا عملیات نوشتن در سطح `READ COMMITTED` رفتار استاندارد قفل‌گذاری را خواهند داشت و معمولاً منجر به 3960 نمی‌شوند.

ALTER DATABASE YourDatabaseName SET READ_COMMITTED_SNAPSHOT ON;

توضیح: این فرمان یک بار برای هر پایگاه داده اجرا می‌شود و نیازی به تغییر کد برنامه برای خواندن‌های غیر-بلاکینگ نیست.

4. استفاده از Hintهای قفل‌گذاری (Locking Hints) با احتیاط

در موارد بسیار خاص و با درک کامل از عواقب، می‌توانید از hintهایی مانند `UPDLOCK` برای جلوگیری از خطای 3960 استفاده کنید. این hint، روی ردیف‌های انتخاب شده، قفل `Update` اعمال می‌کند که از تغییر آن ردیف توسط تراکنش‌های دیگر جلوگیری می‌کند تا زمانی که تراکنش شما آن را تغییر دهد یا Rollback کند.

مراحل:

درک عواقب: استفاده از `UPDLOCK` باعث می‌شود که تراکنش Snapshot شما در آن بخش، مانند یک تراکنش سنتی بلاک شود، که ممکن است مزیت اصلی Snapshot Isolation (کاهش بلاکینگ) را نقض کند. این رویکرد فقط در صورتی توصیه می‌شود که دقیقاً بدانید چه کاری انجام می‌دهید و بلاک شدن موقت برای شما قابل قبول است.
اعمال `UPDLOCK` در `SELECT` قبل از `UPDATE`:

 

BEGIN TRANSACTION;
SET TRANSACTION ISOLATION LEVEL SNAPSHOT;

-- Select the row(s) you intend to update with UPDLOCK
SELECT Column1, Column2
FROM YourTable WITH (UPDLOCK, ROWLOCK)
WHERE ID = @ID;

-- Perform some application logic if needed
-- ...

-- Now update the row(s)
UPDATE YourTable
SET Column1 = NewValue
WHERE ID = @ID;

 

 

توضیح: در این مثال، `WITH (UPDLOCK, ROWLOCK)` تضمین می‌کند که ردیف انتخاب شده توسط تراکنش‌های دیگر (به جز آن‌هایی که فقط می‌خوانند و Snapshot Isolation هستند) قفل می‌شود، بنابراین احتمال خطای 3960 را کاهش می‌دهد. `ROWLOCK` نیز برای اعمال قفل در سطح ردیف استفاده می‌شود تا دامنه قفل محدودتر باشد.

5. مانیتورینگ و شناسایی تراکنش‌های مشکل‌ساز

برای درک بهتر رفتار سیستم و شناسایی نقاط داغ (Hot Spots) یا تراکنش‌های طولانی‌مدت، مانیتورینگ SQL Server بسیار مهم است.

ابزارهای مانیتورینگ:

DMV (Dynamic Management Views):** این نماهای سیستمی اطلاعات دقیقی درباره وضعیت تراکنش‌ها و Version Store ارائه می‌دهند.

مثال‌های DMV:

برای مشاهده تراکنش‌های Snapshot فعال:

 

SELECT
session_id,
transaction_id,
transaction_sequence_num,
is_snapshot,
elapsed_time_seconds,
CASE is_snapshot
WHEN 1 THEN 'Snapshot Isolation'
ELSE 'Read Committed Snapshot'
END AS IsolationLevelType
FROM sys.dm_tran_active_snapshot_database_transactions;

 

توضیح: این کوئری اطلاعاتی درباره تراکنش‌های Snapshot فعال، از جمله شناسه‌های سشن و تراکنش، زمان سپری شده و نوع ایزولیشن سطح اسنپ‌شات ارائه می‌دهد. تراکنش‌هایی که `elapsed_time_seconds` بالایی دارند، ممکن است کاندیدای ایجاد مشکل باشند.

برای مشاهده محتوای Version Store:

 

SELECT
version_major_id,
version_minor_id,
record_length_bytes,
record_offset_bytes,
transaction_id,
session_id,
database_id,
file_id,
page_id,
slot_id
FROM sys.dm_tran_version_store;

 

توضیح: این DMV اطلاعاتی درباره نسخه‌های ذخیره شده در TempDB را نشان می‌دهد. رشد بیش از حد Version Store می‌تواند نشان‌دهنده تراکنش‌های Snapshot طولانی‌مدت یا فعالیت نوشتن زیاد باشد.

برای شناسایی فایل‌هایی که نسخه‌ها در آن ذخیره می‌شوند (TempDB):

 

SELECT
database_name = DB_NAME(dovs.database_id),
file_name = df.name,
total_page_count = dovs.total_page_count,
reserved_page_count = dovs.reserved_page_count,
version_store_page_count = SUM(CASE WHEN dovs.page_type = 1 THEN 1 ELSE 0 END) -- Version Store pages
FROM sys.dm_os_volume_stats(dovs.database_id, dovs.file_id) AS dovs
INNER JOIN sys.database_files AS df ON dovs.database_id = df.database_id AND dovs.file_id = df.file_id
WHERE dovs.database_id = DB_ID('tempdb')
GROUP BY DB_NAME(dovs.database_id), df.name, dovs.total_page_count, dovs.reserved_page_count;

 

توضیح: این کوئری به شما کمک می‌کند تا میزان استفاده TempDB توسط Version Store را مشاهده کنید. رشد غیرعادی در این بخش می‌تواند به مشکلات عملکردی و همچنین افزایش احتمال خطای 3960 اشاره کند.

با ترکیب این راهکارها، می‌توانید خطای 3960 را به طور موثر مدیریت کرده و پایداری و عملکرد سیستم‌های SQL Server خود را بهبود بخشید. تمرکز بر پیاده‌سازی Retry Logic در سطح برنامه و بهینه‌سازی طول مدت تراکنش‌ها، کلید اصلی برای استفاده موفقیت‌آمیز از Snapshot Isolation در محیط‌های با concurrency بالا است.

 

من علی دستجردی‌ام؛ عاشق کار با دیتا، از SQL Server تا بیگ‌دیتا و هوش مصنوعی. دغدغه‌ام کشف ارزش داده‌ها و به‌اشتراک‌گذاری تجربه‌هاست. ✦ رزومه من: alidastjerdi.com ✦

عضویت
منو باخبر کن!!!
guest
نام
ایمیل

0 دیدگاه
Inline Feedbacks
دیدن تمامی کامنتها

فوتر سایت

ورود به سایت

sqlyar

هنوز عضو نیستید؟

ورود به سایت

هنوز تبت نام نکردید ؟