تابع REGEXP_EXTRACT در Tableau برای استخراج بخشهای خاصی از رشتهها با استفاده از عبارات منظم (Regular Expressions) کاربرد دارد. این تابع به شما این امکان را میدهد که بخشهای مشخصی از دادههای متنی، مانند آدرسهای ایمیل، شناسهها، یا هر نوع دادهی ساختاریافته دیگری را استخراج کنید. برای استفاده از این تابع، شما یک الگوی خاص را تعریف میکنید که دادهها باید مطابق با آن الگو باشند و سپس Tableau بخشهایی از رشته که با این الگو تطابق دارند را استخراج میکند.
راهنمای جامع برای استفاده حرفهای از عبارات منظم (Regex) در تحلیل دادهها
- 1. تعریف تابع REGEXP_EXTRACT
- 2. عبارات منظم (Regex) چیست؟
- 3. سناریوهای واقعی و مثالهای کاربردی
- 4. مقایسه REGEXP_EXTRACT با دیگر توابع متنی در Tableau
- 5. عملکرد و بهینهسازی
- 6. خطاهای رایج در استفاده از REGEXP_EXTRACT
- 7. توصیههایی برای استفاده حرفهای
1. تعریف تابع REGEXP_EXTRACT
تابع REGEXP_EXTRACT در Tableau برای استخراج بخشی از یک رشته متنی (string) که با الگوی خاصی از عبارات منظم (Regex) تطابق دارد، استفاده میشود.
REGEXP_EXTRACT(string, pattern, capture_group)
`string` | متنی که قصد پردازش آن را دارید
`pattern` | الگوی عبارت منظم (Regex) که بخش موردنظر را مشخص میکند
`capture_group` (اختیاری) | شماره گروهی که باید استخراج شود (پیشفرض 1)
2. عبارات منظم (Regex) چیست؟
عبارات منظم زبان کوچکیست برای تعریف الگوهای متنی. این الگوها برای جستجو، جایگزینی یا استخراج بخشهایی خاص از داده بهکار میروند.
چند نمونه الگوی پرکاربرد:
`\d` یک رقم (0 تا 9)
`\w` یک کاراکتر حرف یا عدد
`.` هر کاراکتری بهجز خط جدید
`+` یک یا چند بار تکرار
`*` صفر یا چند بار تکرار
`()` تعریف گروه (برای استخراج)
`^` شروع رشته
`$` پایان رشته
3. سناریوهای واقعی و مثالهای کاربردی
1. استخراج نام دامنه از ایمیل
REGEXP_EXTRACT([Email], “@(.+)$”)
2. جدا کردن کد کشور از شماره تماس بینالمللی
REGEXP_EXTRACT([Phone], “\\+(\\d+)”)
3. استخراج سال از رشتهی متنی
REGEXP_EXTRACT([TextDate], “(\\d{4})”)
4. دریافت کد محصول از URL
REGEXP_EXTRACT([URL], “/product/(\\d+)”)
5. استخراج پیششماره از کد ملی یا کد ثبتنام
REGEXP_EXTRACT([ID], “^(\\d{3})”)
4. مقایسه REGEXP_EXTRACT با دیگر توابع متنی در Tableau

5. عملکرد و بهینهسازی
- برای مجموعه دادههای بزرگ، استفاده از REGEXP_EXTRACT ممکن است روی عملکرد تاثیر بگذارد. استفاده از این تابع همراه با Context Filter میتواند مفید باشد.
- اگر الگوی استخراج ساده است، استفاده از SPLIT یا LEFT ممکن است سریعتر باشد.
- برای جلوگیری از خطا، همیشه بررسی کنید که NULL برگردانده نشده باشد (در صورت عدم تطابق الگو).
6. خطاهای رایج در استفاده از REGEXP_EXTRACT
- قرار ندادن درست کاراکترها: مثل \d که باید در Tableau نوشته شود: “\\d”
- نداشتن گروه استخراج (capture group): اگر از () استفاده نکنید، هیچ دادهای استخراج نمیشود.
- نوشتن الگوی بیشازحد خاص یا مبهم: باعث عدم تطابق یا برگرداندن null میشود.
7. توصیههایی برای استفاده حرفهای
- از ابزارهای آنلاین تست Regex مثل regex101.com برای بررسی الگوها استفاده کنید.
- الگوها را ابتدا در یک Visualization ساده امتحان کنید.
- اگر نیاز به استخراج چند مقدار دارید، چند بار تابع را با Capture Groupهای مختلف اجرا کنید.
- همیشه خروجی را بررسی و Validate کنید؛ Regex اشتباه ممکن است داده نادرست تحویل دهد.
8. نتیجه گیری
تابع REGEXP_EXTRACT یکی از ابزارهای پیشرفته اما حیاتی در Tableau برای تحلیل دادههای متنی غیرساختاریافته است. با استفاده صحیح از این تابع، میتوانید اطلاعات پنهان در رشتههای پیچیده را بهسادگی استخراج کرده و داشبوردهای هوشمند و حرفهای طراحی کنید.
در تحلیل دادههای واقعی، تسلط بر Regex تفاوت بین یک تحلیلگر معمولی و یک تحلیلگر حرفهای را رقم میزند. پس اگر میخواهید در Tableau حرفهای شوید، یادگیری عبارات منظم و کار با REGEXP_EXTRACT یک گام اساسی است.
دیدگاهتان را بنویسید