بهینه‌سازی یافتن کوتاه‌ترین مسیر در SQL Server با نظریه گراف و CTEهای بازگشتی

نظریه گراف و الگوریتم‌های کوتاه‌ترین مسیر ابزارهای قدرتمندی برای حل طیف وسیعی از مسائل پیچیده در دنیای واقعی هستند. این مفاهیم بنیادی در حوزه‌های متنوعی از شبکه‌های اجتماعی و مسیریابی GPS گرفته تا لجستیک و طراحی مدارهای الکتریکی کاربرد دارند. هدف ما در اینجا بررسی چگونگی اعمال نظریه گراف و الگوریتم‌های یافتن کوتاه‌ترین مسیر برای حل مسائل پیچیده در SQL Server است. این موضوع به ویژه برای توسعه‌دهندگان و تحلیلگرانی که با داده‌های رابطه‌ای سروکار دارند و نیاز به تحلیل روابط پیچیده بین نقاط داده‌ای دارند، بسیار مفید است.

گراف‌ها مجموعه‌ای از رأس‌ها (Vertices) یا گره‌ها (Nodes) و یال‌ها (Edges) هستند که این رأس‌ها را به هم متصل می‌کنند. رأس‌ها می‌توانند نشان‌دهنده افراد، مکان‌ها، شهرها، صفحات وب یا هر موجودیت دیگری باشند، در حالی که یال‌ها روابط بین این موجودیت‌ها را نشان می‌دهند. این روابط می‌توانند شامل دوستی، فاصله، اتصال یا وابستگی باشند. یال‌ها می‌توانند جهت‌دار (Directed) یا بدون جهت (Undirected) باشند و ممکن است وزنی (Weighted) داشته باشند که نشان‌دهنده هزینه، فاصله یا زمان است.

نمایش گراف‌ها در SQL Server

برای پیاده‌سازی الگوریتم‌های گراف در SQL Server، ابتدا باید راهی برای نمایش ساختار گراف در پایگاه داده پیدا کنیم. دو روش اصلی برای نمایش گراف‌ها وجود دارد:

**لیست مجاورت (Adjacency List):** این روش از یک جدول برای ذخیره یال‌ها استفاده می‌کند، که هر ردیف نشان‌دهنده یک یال با مبدأ (Source) و مقصد (Destination) است. برای گراف‌های وزن‌دار، یک ستون اضافی برای وزن یال اضافه می‌شود. این روش برای گراف‌های پراکنده (sparse graphs) که تعداد یال‌ها به مراتب کمتر از حداکثر یال‌های ممکن است، بسیار کارآمد است.
**ماتریس مجاورت (Adjacency Matrix):** این روش از یک جدول دو بعدی (ماتریس) استفاده می‌کند که هر سلول (i, j) نشان می‌دهد که آیا یالی بین رأس i و رأس j وجود دارد یا خیر. اگر یالی وجود داشته باشد، مقدار آن سلول ممکن است وزن یال باشد، در غیر این صورت صفر یا بی‌نهایت خواهد بود. این روش برای گراف‌های چگال (dense graphs) که تعداد یال‌ها زیاد است، مناسب‌تر است اما برای گراف‌های بزرگ و پراکنده می‌تواند حافظه زیادی اشغال کند و ناکارآمد باشد.

در SQL Server، لیست مجاورت معمولاً روش بهتری برای نمایش گراف‌ها است، زیرا مقیاس‌پذیری و انعطاف‌پذیری بیشتری را ارائه می‌دهد. ما یک جدول ساده به نام `Edges` برای نمایش یال‌ها ایجاد می‌کنیم:

ساختار جدول `Edges` برای ذخیره یال‌ها و وزن‌های مربوطه:


1: CREATE TABLE Edges (
2:     SourceNode VARCHAR(50),
3:     DestinationNode VARCHAR(50),
4:     Weight INT
5: );

و داده‌های نمونه برای نمایش گره‌ها و وزن‌های بین آن‌ها:


1: INSERT INTO Edges (SourceNode, DestinationNode, Weight) VALUES
2: ('A', 'B', 10),
3: ('A', 'C', 15),
4: ('B', 'D', 12),
5: ('C', 'D', 10),
6: ('D', 'E', 5),
7: ('B', 'E', 20),
8: ('E', 'F', 8);

این داده‌ها نشان‌دهنده یک گراف وزن‌دار جهت‌دار هستند که در آن گره‌ها (مانند شهرها) و وزن‌ها (مانند مسافت یا هزینه) وجود دارند.

مثالی عملی: یافتن کوتاه‌ترین مسیر برای یک سرویس تحویل

تصور کنید که یک سرویس تحویل دارید و می‌خواهید کوتاه‌ترین مسیر را از یک مبدأ (انبار) به یک مقصد (مشتری) پیدا کنید. این مسئله یک مورد کلاسیک از یافتن کوتاه‌ترین مسیر است که می‌توان آن را با استفاده از یک CTE بازگشتی در SQL Server حل کرد.

یک CTE بازگشتی به ما امکان می‌دهد تا به صورت سلسله‌مراتبی از طریق یال‌های گراف حرکت کنیم، و در هر مرحله مسیرهای ممکن و هزینه تجمعی آن‌ها را ردیابی کنیم. با مقایسه هزینه‌های تجمعی برای رسیدن به هر گره، می‌توانیم کوتاه‌ترین مسیر را پیدا کنیم.

پیاده‌سازی در SQL Server با استفاده از CTE بازگشتی

برای یافتن کوتاه‌ترین مسیر از یک گره مبدأ به تمام گره‌های دیگر، می‌توانیم یک CTE بازگشتی بسازیم. این CTE در هر مرحله، تمام مسیرهای ممکن را گسترش می‌دهد و هزینه تجمعی هر مسیر را محاسبه می‌کند. سپس، با استفاده از توابع پنجره‌ای، کوتاه‌ترین مسیر را برای هر مقصد نهایی پیدا می‌کنیم.

CTE بازگشتی `ShortestPathFinder` برای کشف تمام مسیرها از گره مبدأ ‘A’ با ردیابی مسیر طی شده و هزینه تجمعی:


 1: WITH ShortestPathFinder AS (
 2:     -- Anchor Member: Start from 'A'
 3:     SELECT
 4:         SourceNode AS CurrentNode,
 5:         CAST(SourceNode AS VARCHAR(MAX)) AS Path,
 6:         0 AS TotalWeight,
 7:         1 AS Level
 8:     FROM Edges
 9:     WHERE SourceNode = 'A'
10:     GROUP BY SourceNode
11: 
12:     UNION ALL
13: 
14:     -- Recursive Member: Traverse to next nodes
15:     SELECT
16:         E.DestinationNode AS CurrentNode,
17:         CAST(SPF.Path + ' -> ' + E.DestinationNode AS VARCHAR(MAX)) AS Path,
18:         SPF.TotalWeight + E.Weight AS TotalWeight,
19:         SPF.Level + 1 AS Level
20:     FROM Edges E
21:     INNER JOIN ShortestPathFinder SPF
22:         ON E.SourceNode = SPF.CurrentNode
23:     -- Avoid cycles: Ensure destination node is not already in the path
24:     WHERE SPF.Path NOT LIKE '%' + E.DestinationNode + '%'
24: )
25: SELECT * FROM ShortestPathFinder;

این کوئری تمام مسیرهای ممکن از گره ‘A’ را به همراه وزن تجمعی و سطح (تعداد یال‌ها) نشان می‌دهد. برای یافتن کوتاه‌ترین مسیر به یک گره خاص، باید نتایج را فیلتر کرده و ردیفی را انتخاب کنیم که کمترین `TotalWeight` را برای آن `CurrentNode` دارد. این کار را می‌توان با استفاده از یک تابع پنجره‌ای `ROW_NUMBER()` انجام داد.

یافتن کوتاه‌ترین مسیر و وزن برای هر گره مقصد ممکن با استفاده از CTE و تابع پنجره‌ای `ROW_NUMBER()`:


 1: WITH ShortestPathFinder AS (
 2:     -- Anchor Member: Start from 'A'
 3:     SELECT
 4:         SourceNode AS CurrentNode,
 5:         CAST(SourceNode AS VARCHAR(MAX)) AS Path,
 6:         0 AS TotalWeight,
 7:         1 AS Level
 8:     FROM Edges
 9:     WHERE SourceNode = 'A'
10:     GROUP BY SourceNode
11: 
12:     UNION ALL
13: 
14:     -- Recursive Member: Traverse to next nodes
15:     SELECT
16:         E.DestinationNode AS CurrentNode,
17:         CAST(SPF.Path + ' -> ' + E.DestinationNode AS VARCHAR(MAX)) AS Path,
18:         SPF.TotalWeight + E.Weight AS TotalWeight,
19:         SPF.Level + 1 AS Level
20:     FROM Edges E
21:     INNER JOIN ShortestPathFinder SPF
22:         ON E.SourceNode = SPF.CurrentNode
23:     WHERE SPF.Path NOT LIKE '%' + E.DestinationNode + '%'
24: )
25: , RankedPaths AS (
26:     SELECT
27:         CurrentNode,
28:         Path,
29:         TotalWeight,
30:         Level,
31:         ROW_NUMBER() OVER (PARTITION BY CurrentNode ORDER BY TotalWeight) as rn
32:     FROM ShortestPathFinder
33: )
34: SELECT CurrentNode, Path, TotalWeight, Level
35: FROM RankedPaths
36: WHERE rn = 1
37: ORDER BY CurrentNode;

این کوئری نتایج نهایی را که شامل کوتاه‌ترین مسیر، وزن و گره مقصد است، ارائه می‌دهد. این پیاده‌سازی ساده و کارآمد است، اما باید توجه داشت که برای گراف‌های بسیار بزرگ یا چگال ممکن است به دلیل ماهیت بازگشتی CTE و بررسی تمامی مسیرها، عملکرد آن کاهش یابد. این رویکرد به ویژه برای یافتن “کوتاه‌ترین مسیر تنها از یک مبدأ (Single Source Shortest Path – SSSP)” در گراف‌های بدون سیکل (DAGs) یا گراف‌های کوچک و متوسط کاربرد دارد.

ملاحظات عملکرد

پیچیدگی زمانی (Time Complexity) الگوریتم‌های یافتن کوتاه‌ترین مسیر می‌تواند بسته به الگوریتم و ساختار گراف متفاوت باشد. الگوریتم دایکسترا (Dijkstra’s algorithm) برای یافتن کوتاه‌ترین مسیر از یک مبدأ در گراف‌های وزن‌دار با یال‌های مثبت، دارای پیچیدگی زمانی `O((V + E) log V)` با استفاده از صف اولویت است، که `V` تعداد گره‌ها و `E` تعداد یال‌هاست. در حالی که پیاده‌سازی با CTE بازگشتی، در بدترین حالت ممکن است تمام مسیرهای ممکن را بررسی کند که می‌تواند بسیار پرهزینه باشد.

برای گراف‌های بسیار بزرگ، استفاده از راهکارهای پیشرفته‌تر یا انتقال منطق به یک زبان برنامه‌نویسی تخصصی مانند پایتون با کتابخانه‌هایی مانند NetworkX که الگوریتم‌های گراف بهینه‌سازی شده را ارائه می‌دهند، می‌تواند مناسب‌تر باشد. با این حال، برای بسیاری از سناریوهای رایج در محیط SQL Server، CTE بازگشتی ابزاری قدرتمند و انعطاف‌پذیر برای حل مسائل کوتاه‌ترین مسیر ارائه می‌دهد.

نظریه گراف و الگوریتم‌های کوتاه‌ترین مسیر ابزارهای اساسی در تحلیل داده‌ها و بهینه‌سازی هستند. با نمایش صحیح ساختار گراف در SQL Server و استفاده از ویژگی‌هایی مانند CTEهای بازگشتی، می‌توانیم به طور موثر مسائل پیچیده را مستقیماً در پایگاه داده حل کنیم. این رویکرد به ویژه برای تحلیل ارتباطات، شبکه‌ها و مسائل لجستیکی که نیاز به کاوش روابط سلسله‌مراتبی و مسیرهای بهینه دارند، بسیار مفید است.

بهینه‌سازی یافتن کوتاه‌ترین مسیر در SQL Server با نظریه گراف و CTEهای بازگشتی