نشانی: تهران، میدان صادقیه، بلوار آیت اله کاشانی، نبش گلستان شمالی، پلاک 29، واحد 8
آموزش SSIS سرویس یکپارچه مایکروسافت بخش دوم

آموزش SSIS سرویس یکپارچه مایکروسافت بخش دوم

در مقاله قبلی ، به معرفی و بررسی وظایف (Task) و کنتینرها (Container) در SQL Server Integration Services (SSIS) پرداختیم. ما ابتدا با مفهوم پکیج‌ها در SSIS آشنا شدیم و دیدیم که چگونه این ابزارها به توسعه‌دهندگان کمک می‌کنند تا جریان کار (Workflow) و منطق تجاری خود را به صورت کارآمد پیاده‌سازی کنند. سپس به بررسی انواع مختلف Taskها پرداختیم که هر کدام وظیفه خاصی را در فرآیند ETL بر عهده دارند. از جمله Taskهایی که معرفی کردیم، می‌توان به Execute SQL Task، Data Flow Task، و FTP Task اشاره کرد که هر یک نقش مهمی در پردازش و انتقال داده‌ها ایفا می‌کنند. همچنین با مفهوم کنتینرها آشنا شدیم و دیدیم که چگونه این ابزارها با گروه‌بندی منطقی Taskها و مدیریت بهتر فرآیندها، توسعه‌دهندگان را در سازمان‌دهی و مدیریت پروژه‌های پیچیده یاری می‌کنند. در این مقاله، قصد داریم به بررسی جزئیات بیشتری از SSIS بپردازیم و کاربردهای عملی آن را در سناریوهای واقعی مورد بحث قرار دهیم تا دیدگاه جامع‌تری نسبت به این ابزار قدرتمند به دست آورید.

بررسی Data Flow در SSIS : از استخراج تا پردازش و انتقال داده ها

یکی از نقاط قوت اصلی SSIS ، توانایی آن در استخراج دیتا به حافظه سرور ، تبدیل و انتقال آن ها به مقاصد مختلف است. اگر روند کنترل (Control Flow) مغز SSIS باشد، روند داده (Data Flow) به‌عنوان قلب آن عمل می‌کند و عملکرد سریع و مقیاس پذیر این ابزار را تضمین می‌کند.

معماری درون حافظه (In-Memory Architecture) SSIS نقش حیاتی در افزایش سرعت و کارایی این ابزار دارد و آن را از روش‌های سنتی نمایش و ذخیره‌سازی داده متمایز می‌سازد. منابع داده، به عنوان ورودی‌ها و خروجی‌های این جریان داده عمل می‌کنند و از طریق ارتباطاتی که با منابع یا مقاصد تعریف شده برقرار می‌شوند، داده‌ها را به SSIS انتقال می‌دهند.

یک منبع داده می‌تواند از ارتباطات سازگار با OLE DB و ADO.NET مانند SQL Server، Oracle، DB2 و یا حتی منابع داده غیرسنتی مانند سرویس‌های Analysis و Outlook استفاده کند. این منابع داده می‌توانند در محدوده یک پکیج واحد SSIS یا به‌صورت مشترک بین چندین پکیج در یک پروژه مورد استفاده قرار گیرند. تمامی این تنظیمات ارتباطی در Connection Manager تعریف می‌شوند.

Data Flow Task یکی از مهم‌ترین وظایف در SSIS است که به شما امکان می‌دهد تا داده‌ها را از یک منبع داده واکشی کرده و آن‌ها را به مقصدی دیگر انتقال دهید. این Task نه تنها برای انتقال داده‌ها بلکه برای انجام تغییرات و پردازش‌های مختلف بر روی داده‌ها قبل از ورود به مقصد نیز به کار می‌رود.

بررسی Data Flow در SSIS : از استخراج تا پردازش و انتقال داده ها
بررسی Data Flow در SSIS : از استخراج تا پردازش و انتقال داده ها

 

کامپوننت‌های مهم Data Flow Task :

  1. Derived Column : این کامپوننت به شما اجازه می‌دهد تا ستون‌های جدیدی بر اساس داده‌های موجود در جریان داده ایجاد کنید. با استفاده از عبارت‌های SSIS، می‌توانید مقادیر را محاسبه کنید، رشته‌ها را دستکاری کنید، یا تبدیل‌هایی نظیر تبدیل نوع داده‌ها انجام دهید. این ابزار انعطاف‌پذیری بالایی دارد و برای بسیاری از سناریوهای محاسباتی و اصلاح داده‌ها به کار می‌رود.
  2. Lookup Transformation : این کامپوننت به شما اجازه می‌دهد تا داده‌های جریان را با یک مجموعه داده مرجع مقایسه کنید. این کار معمولاً برای افزودن اطلاعات بیشتر به داده‌های موجود یا بررسی صحت داده‌ها با استفاده از یک مرجع معتبر انجام می‌شود. این کامپوننت برای انطباق و بررسی داده‌های ورودی بسیار حیاتی است و در بهبود کیفیت داده‌ها نقش مهمی دارد.
  3. Aggregate Transformation : این کامپوننت به شما امکان می‌دهد تا عملیات جمع‌آوری (Aggregation) را روی داده‌ها انجام دهید، مانند جمع، میانگین، شمارش، یا یافتن مقدار ماکسیمم و مینیمم. این ابزار به خصوص در سناریوهایی که نیاز به تحلیل داده‌های بزرگ و خلاصه‌سازی اطلاعات دارید، بسیار مفید است.
  4. Conditional Split : این کامپوننت به شما اجازه می‌دهد تا جریان داده‌ها را بر اساس شرایط خاص به مسیرهای مختلف تقسیم کنید. این ابزار برای سناریوهایی که نیاز به پردازش متفاوت بر اساس مقادیر خاصی از داده‌ها دارید، بسیار کاربردی است. برای مثال، می‌توانید داده‌های فروش را بر اساس منطقه جغرافیایی تقسیم کنید و هر بخش را به طور جداگانه پردازش کنید.
  5. Multicast : این کامپوننت مشابه با Conditional Split است، اما به جای تقسیم داده‌ها بر اساس شرط، داده‌ها را به‌طور همزمان به چندین جریان داده مختلف کپی می‌کند. این ابزار زمانی مفید است که نیاز دارید داده‌ها را به چندین مقصد مختلف ارسال کنید یا چندین عملیات را به‌طور همزمان بر روی داده‌های یکسان انجام دهید.
کامپوننت‌های مهم Data Flow Task :
کامپوننت‌های مهم Data Flow Task :

 

Sourceها و Destinationها در SSIS: اجزای کلیدی برای جریان داده در فرآیندهای ETL

معرفی سورس‌ها در SSIS : اجزای کلیدی برای واکشی داده ها

در SSIS، سورس‌ها یکی از اجزای اصلی در طراحی جریان داده (Data Flow) هستند که به شما اجازه می‌دهند محل قرارگیری داده‌های ورودی را مشخص کرده و این داده‌ها را به اجزای پایین‌دستی منتقل کنید. سورس‌ها به گونه‌ای تنظیم می‌شوند که از Connection Manager استفاده کنند تا بتوانید ارتباطات خود را در پکیج‌های مختلف SSIS مجدداً استفاده کنید. SSIS هشت نوع سورس را در اختیار شما قرار می‌دهد:

  1. OLE DB Source : این سورس قابلیت اتصال به تقریباً هر منبع داده OLE DB را فراهم می‌کند. این ابزار برای واکشی داده ها از پایگاه‌های داده‌ای که از رابط OLE DB پشتیبانی می‌کنند، بسیار کارآمد است.
  2. Excel Source : برای استخراج داده‌ها از صفحات Excel به کار می‌رود. این سورس نه تنها به شما اجازه می‌دهد داده‌ها را از فایل‌های Excel دریافت کنید، بلکه امکان اجرای کوئری‌های SQL بر روی این صفحات را نیز فراهم می‌کند، که می‌تواند حجم داده‌های مورد پردازش را کاهش دهد.
  3. Flat File Source : این سورس برای خواندن و استخراج اطلاعات از فایل‌های متنی با طول ثابت یا محدود (Delimited) طراحی شده است. ابزار Flat File Source برای پردازش داده‌های ذخیره‌شده در فایل‌های متنی کاربرد دارد.
  4. Raw File Source : این سورس داده ها را از فایل‌های باینری خاصی که در SSIS تولید می‌شوند، استخراج می‌کند. این سورس به دلیل عدم نیاز به Connection Manager و عملکرد بالا، یکی از سریع‌ترین گزینه‌ها برای انتقال داده‌ها در SSIS است.
  5. XML Source : برای استخراج داده‌ها از فایل‌های XML استفاده می‌شود. این سورس به دلیل ساختار پیچیده XML، معمولاً برای پروژه‌هایی که به پردازش داده‌های ساختاریافته نیاز دارند، استفاده می‌شود.
  6. ADO.NET Source : این سورس برای واکشی داده‌ها از منابع ADO.NET به کار می‌رود و مشابه با OLE DB Source است، اما فقط برای منابع مبتنی بر ADO.NET استفاده می‌شود. این ابزار از ADO.NET DataReader برای استخراج داده‌ها بهره می‌برد و ارتباط آن با پایگاه داده‌ها از طریق ADO.NET Connection Manager انجام می‌شود.
  7. CDC Source : این سورس برای خواندن داده‌ها از جدول‌هایی که قابلیت Change Data Capture (CDC) در آن‌ها فعال شده است، استفاده می‌شود. این ویژگی به شما امکان می‌دهد تا فقط داده‌هایی را که در یک بازه زمانی مشخص تغییر کرده‌اند، بازیابی کنید.
  8. ODBC Source : این سورس داده‌ها را از طریق ODBC به جای OLE DB واکشی می‌کند. در حالی که OLE DB همچنان گزینه برتر برای پکیج‌های SSIS است، ODBC Source زمانی مفید است که با منابع داده‌ای که فقط از ODBC پشتیبانی می‌کنند، کار می‌کنید.
معرفی سورس‌ها در SSIS : اجزای کلیدی برای واکشی داده ها
معرفی سورس‌ها در SSIS : اجزای کلیدی برای واکشی داده ها

 

اگر سورس‌های موجود در SSIS نتوانند تمام نیازهای شما را برآورده کنند، می‌توانید از Script Component استفاده کنید تا با نوشتن کد .NET به هر منبع داده‌ای که دسترسی دارید، متصل شوید. این روش برای پروژه‌های یک‌بار مصرف مناسب است. اما اگر نیاز به استفاده مکرر از یک سورس سفارشی دارید، می‌توانید یکی را با استفاده از SSIS .NET API و Object Model توسعه دهید.

معرفی Destinationها در SSIS : اجزای کلیدی برای نوشتن داده‌ها

همان‌طور که سورس‌ها مسئول واکشی داده‌ها از منابع مختلف هستند، Destinationها در SSIS نقش اصلی را در نوشتن و ذخیره‌سازی داده‌ها در مقصدهای مختلف ایفا می‌کنند. این ابزارها به شما اجازه می‌دهند تا داده‌های پردازش‌شده را به پایگاه‌های داده، فایل‌ها و منابع دیگر ارسال کنید. SSIS چندین نوع Destination را فراهم می‌کند که در زیر به آن‌ها اشاره می‌کنیم:

  1. OLE DB Destination : این Destination برای نوشتن داده‌ها به منابع OLE DB استفاده می‌شود. معمولاً برای ذخیره‌سازی داده‌ها در پایگاه‌های داده رابطه‌ای مانند SQL Server، Oracle و DB2 کاربرد دارد.
  2. Excel Destination : این ابزار برای ذخیره داده‌ها در فایل‌های Excel استفاده می‌شود. این گزینه برای گزارش‌گیری و ارائه داده‌ها در قالبی قابل خواندن برای کاربران نهایی مناسب است.
  3. Flat File Destination : این Destination داده‌ها را در فایل‌های متنی (مانند CSV) ذخیره می‌کند. این روش ساده و کارآمد برای ذخیره‌سازی داده‌ها به‌صورت فایل‌های متنی است که می‌تواند به راحتی توسط سایر سیستم‌ها یا برنامه‌ها استفاده شود.
  4. Raw File Destination : این Destination داده‌ها را به‌صورت خام و با فرمت باینری در فایل‌ها ذخیره می‌کند. این روش معمولاً برای ذخیره‌سازی موقت داده‌ها استفاده می‌شود که بعداً در فرآیندهای دیگر مورد نیاز خواهند بود.
  5. ADO.NET Destination : این Destination مشابه با OLE DB Destination است اما برای نوشتن داده‌ها به منابع ADO.NET استفاده می‌شود. این گزینه زمانی مفید است که نیاز به ذخیره‌سازی داده‌ها در منابعی دارید که از ADO.NET پشتیبانی می‌کنند.
  6. Recordset Destination : این Destination داده‌ها را در یک متغیر نوع Recordset ذخیره می‌کند. این روش به شما اجازه می‌دهد تا داده‌ها را در حافظه نگه دارید و در طول اجرای پکیج از آن‌ها استفاده کنید، به عنوان مثال برای پردازش‌های بعدی یا انتقال داده‌ها به یک فرآیند دیگر.
  7. SQL Server Destination : این Destination برای نوشتن داده‌ها به SQL Server به‌صورت مستقیم و بهینه طراحی شده است. این ابزار مخصوص SSIS است و از بالاترین سطح بهینه‌سازی برای نوشتن داده‌ها در SQL Server برخوردار است.
  8. ODBC Destination : این Destination داده‌ها را به منابع داده‌ای که از ODBC پشتیبانی می‌کنند، ارسال می‌کند. این گزینه زمانی استفاده می‌شود که منابع داده‌ای شما فقط از ODBC پشتیبانی کنند و نیاز به نوشتن داده‌ها در آن‌ها داشته باشید.

همانند سورس‌ها، اگر Destinationهای پیش‌فرض SSIS نیازهای شما را برآورده نمی‌کنند، می‌توانید از Script Component برای نوشتن داده‌ها به یک مقصد سفارشی استفاده کنید. این روش به شما امکان می‌دهد تا با استفاده از کتابخانه‌های .NET داده‌ها را به هر مقصدی که مورد نظر دارید، ارسال کنید.

معرفی Destinationها در SSIS : اجزای کلیدی برای نوشتن داده‌ها
معرفی Destinationها در SSIS : اجزای کلیدی برای نوشتن داده‌ها

 

متغیرها و پارامترها در SSIS

در SSIS، متغیرها یکی از اجزای اساسی و مهم معماری هستند که به شما این امکان را می‌دهند تا داده‌ها را بین تسک‌ها و تبدیل‌ها انتقال دهید. متغیرهای SSIS می‌توانند در حین اجرای پکیج، بر اساس ارزیابی در یک عبارت (Expression) تنظیم شوند. این متغیرها در بسیاری از سناریوها کاربرد دارند، از جمله در تنظیمات اولیه، پردازش‌های میان‌راهی و انتقال اطلاعات بین تسک‌ها.

متغیرها در SSIS

متغیرها می‌توانند برای انجام عملیات پیچیده‌تر در پکیج‌ها مورد استفاده قرار گیرند. به طور مثال، می‌توانید متغیرها را در Script Task یا Expression Task استفاده کنید تا مقادیر دلخواهی را در جریان داده تنظیم کنید. یکی از ویژگی‌های کلیدی متغیرها در SSIS این است که می‌توانند به سطح‌های مختلف در یک پکیج محدود شوند. به طور پیش‌فرض، متغیرها در سطح پکیج تعریف می‌شوند، اما می‌توان آن‌ها را به سطوح مختلف دیگری نیز محدود کرد، همان‌طور که در بخش Containers توضیح داده شد.

انواع متغیرها در SSIS

  1. System Variables: این متغیرها از پیش توسط SSIS تعریف شده‌اند و اطلاعات سیستمی مانند نام پکیج، زمان اجرا و مسیر فایل‌ها را در اختیار شما قرار می‌دهند. این متغیرها قابل ویرایش نیستند و فقط خواندنی هستند.
  2. User Variables: این متغیرها توسط کاربر تعریف می‌شوند و می‌توانند در حین اجرای پکیج تنظیم یا تغییر داده شوند. این متغیرها بسیار انعطاف‌پذیر هستند و می‌توانند در محدوده‌های مختلفی از جمله Package Level، Container Level، یا Task Level استفاده شوند.

پارامترها در SSIS

پارامترها در SSIS شباهت زیادی به متغیرها دارند، اما با چند تفاوت مهم. پارامترها نیز مانند متغیرها می‌توانند پکیج‌ها را پویا و انعطاف‌پذیر کنند. با این حال، پارامترها می‌توانند از خارج از پکیج تنظیم شوند و به‌عنوان ورودی‌های ضروری برای شروع اجرای پکیج تعریف شوند. این ویژگی باعث می‌شود که پارامترها برای استفاده در سناریوهایی که نیاز به تغییرات مداوم در داده‌ها یا تنظیمات پکیج دارید، بسیار مفید باشند.

پارامترها در SSIS
پارامترها در SSIS

 

انواع پارامترها در SSIS

  1. Package Parameters: این پارامترها به‌صورت جهانی در سطح پکیج تعریف می‌شوند و می‌توانند از خارج پکیج تنظیم شوند. این پارامترها برای تنظیمات پویای پکیج، مانند آدرس‌های فایل‌ها یا مقادیر مورد نیاز برای فرآیندهای خاص، بسیار مفید هستند.
  2. Project Parameters: این پارامترها در سطح پروژه تعریف می‌شوند و می‌توانند بین پکیج‌های مختلف به اشتراک گذاشته شوند. این نوع پارامترها برای تنظیمات مشترک میان پکیج‌های مختلف یک پروژه مناسب هستند.

تفاوت‌های کلیدی بین متغیرها و پارامترها

  1. Scope یا محدوده: متغیرها می‌توانند به سطوح مختلف در یک پکیج محدود شوند (مانند سطح پکیج یا سطح Task)، در حالی که پارامترها معمولاً در سطح پکیج تعریف می‌شوند.
  2. دسترسی از خارج پکیج: پارامترها به راحتی می‌توانند از خارج پکیج تنظیم شوند و به عنوان ورودی‌های ضروری عمل کنند، در حالی که متغیرها معمولاً در داخل پکیج و در طول اجرای آن تنظیم می‌شوند.
  3. Read-Only و Read/Write: پارامترها معمولاً فقط خواندنی (Read-Only) هستند، به این معنا که پس از تنظیم اولیه نمی‌توان آن‌ها را در طول اجرای پکیج تغییر داد. اما متغیرها می‌توانند در طول اجرای پکیج تغییر داده شوند و قابل نوشتن (Read/Write) هستند.

در نسخه‌های جدیدتر SQL Server، پارامترها جایگزین قابلیت Configurations شده‌اند و امکانات بیشتری را برای پیکربندی و اجرای پکیج‌ها ارائه می‌دهند.

سخن پایانی

در این دو بخش، با اصول و مفاهیم کلیدی SSIS آشنا شدیم. امیدوارم این آموزش ها برای شما مفید بوده باشد و به درک بهتر این ابزار قدرتمند کمک کرده باشد. خوشحال می‌شوم نظرات و سوالات خود را در کامنت ها با ما به اشتراک بگذارید!

میزان رضایت شما از این مطلب

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

درخواست مشاوره رایگان