עושים קצת סדר בבלגן הנתונים עם Data Engineering
בין אם אתם אנליסטים, מתכננים או מפתחים, כולם עוסקים בנתונים – ולכן חשוב לעבוד עם נתונים תקינים.
לכולנו מוכרות הסיטואציות, בהן אנו מקבלים נתונים גולמיים ולא מסודרים, שדות בפורמטים לא מתאימים, כפילות בנתונים וערכים חסרים. או כאשר אנחנו מקבלים שכבות מידע חדשות, עם רשומות רבות שלא ברור מה מהן רלוונטי לנו. במקרים בהם לא יודעים מה טיב המידע ומה רמת האמינות שלו, מבט מהיר על הנתונים מאפשר לנו להעריך האם הם תקינים ומתאימים לנו להמשך העבודה.
החל מגרסה 2.8 של ArcGIS Pro נוסף סרגל הכלים של data engineering. הסרגל מביא עימו אפשרות סידור נתונים רבות, לצד פאנל תצוגה נוח לעבודה, שיכול לשפר תהליכי עיבוד נתונים. בבלוג זה נסקור את האפשרויות השונות, שמציע הסרגל ואיך הוא יכול לסייע למשתמשי ArcGIS Pro בעבודתם היום יומית. תצוגת Data engineering כוללת פאנל עבודה, שבו אנו יכולים לבחון את הנתונים הטבלאיים, וסרגל כלים דינמי.
נתחיל מפאנל העבודה:
פאנל העבודה יוצר למשתמש תצוגה על מאפייני השכבה – כמה שדות היא כוללת ומאיזה סוג, כמה ישויות קיימות בה, והאם יש ישויות נבחרות (selected). בנוסף, מתוך הפאנל יש גישה מהירה ל Attribute table ול-Fields.
מתוך פאנל העבודה, לצד כל שדה יש אפשרות ליצור סימבולוגיה, גרפים וגישה מהירה (נוספת) לטבלת המאפיינים.
הסימבולוגיה המהירה מותאמת לפי סוג השדה- שדות נומריים יקבלו סימבולוגיה הדרגתית (Graduated colors) ערכים טקסטואליים יקבלו סימבולוגיה לפי קטגוריות (unique values).
כפתור ליצירה מהירה של גרפים יצור עבור אותו שדה גרף עמודות ,ויפתח את חלון עריכת הגרפים.
במידה ואתם מעוניינים בסוגי גרפים נוספים ניתן ע"י לחיצה על מקש ימני בשדה, תחת האפשרות של "Create chart" , לראות המלצות לסוגי גרפים המתאימים לסוג השדה. גם הבחירה באחד הגרפים האחרים תפתח את חלון עריכת הגרפים. החלון מאפשר לעצב את הגרף, ליצור תבניות עיצוב ולערוך את שמות התגיות בגרפים שלכם – ממליצה לכם בחום לחקור את החלון, ולשחק עם האפשרויות השונות בעיצוב הגרפים. את הגרפים ניתן לייצא כקובץ תמונה ובכך לשלב אותם במצגות ובדוחות.
המשתמש יכול לבצע ניתוח סטטיסטי על השדות. בלחיצת כפתור אחת אפשר ליצור ניתוח על כלל השדות ע"י לחיצה על הכפתור "add all fields and calculate", אשר נמצא במרכז פאנל העבודה, או אם רוצים חישוב לשדות ספציפיים ניתן להוסיף אותם ע"י לחיצה על מקש ימני על השדה ובחירה באפשרות " add to statistics and calculate”. חישוב טבלאות עם כמות גדולה של שדות ורשומות עשוי לקחת זמן, ולכן מומלץ לקחת זאת בחשבון אם בוחרים בהצגת כל השדות.
המידע הסטטיסטי בפאנל כולל כמות ערכים חסרים, היסטוגרמה של הערכים, ערכי מינימום, מקסימום, ממוצע, סטיית תקן, וחציון. כמו כן, כמה ערכים ייחודיים קיימים בשדה ומי הם הערכים השכיחים והלא נפוצים בשדה. אם קיימת בחירה של מספר ישויות, זה יגרום לניתוח סטטיסטי רק של המידע הנבחר.
Geoprocessing tools
לצד הפאנל ישנם גם כלי Geoprocessing שיכולים לסייע לנו בניהול הנתונים. כל הכלים שנמצאים בסרגל הכלים של data engineering הינם כלים קיימים, שיכול מאד להיות שיצא לכם להיתקל בהם בעבר. ESRI ריכזו לסרגל אחד, בחלוקה לקטגוריות, את כל הכלים שיכולים להיות רלוונטיים לניקוי, סידור, ופיתוח המידע הטבלאי שלנו.
כעת נסקור את הקטגוריות בסרגל הכלים הדינמי של data engineering:
Clean –
קטגוריה המכילה כלים לסידור ראשוני של סט הנתונים. הכלים מאפשרים ניקוי של מידע מיותר והתאמה של הנתונים להמשך עבודה.
Construct –
קטגוריה המכילה כלים לשיפור והתאמת הנתונים לטובת המשך העבודה. הכלים מאפשרים הוספה של שדות חדשים ושינוי ערכים.
Integrate –
קטגוריה המכילה כלים המאפשרים שילוב של מידע ממקומות נוספים על בסיס קשרים מרחביים או חיבורים טבלאיים.
Format –
קטגוריה המכילה כלים לשינוי מבנה הנתונים או הגדרת ערך מספרי חדש לשדה. חלק מהכלים יוצרים טבלת נתונים חדשה.
אל הכלים אפשר להגיע מתוך הסרגל הדינמי בלשונית data engineering, או מתוך הפאנל ע"י לחיצה על מקש ימני כאשר עומדים על אחד השדות
כאמור, כל קטגוריה מכילה מספר כלים, חלקם מוכרים יותר וחלקם מוכרים יותר. בבלוג זה לא נסקור את כל הכלים הזמינים, אלא נתמקד במספר דוגמאות. ליד כל כלי יש אפשרות לרחף עם העכבר (מבלי ללחוץ) ואז יופיע תקציר על הכלי, או לחילופין ע"י לחיצה על סימן השאלה בתוך הכלי יתאפשר להגיע לתיעוד בו יש פירוט על הכלי. כל הכלים בחלק זה של הבלוג מתאימים לרמת רישוי basic ומעלה ולא דורשים הרחבות.
Delete Field – Clean –
כלי המאפשר לנו למחוק מספר שדות בפעולה אחת. שימו לב מחיקה של שדות תגרום למחיקתם בטבלה עצמה ולאחר המחיקה לא יתאפשר ביטול של הפעולה לכן מומלץ לוודא שאתם מוחקים רק את השדות שאין בהם צורך.
Transform Field – Construct –
כלי המאפשר שינוי של התפלגות ערכים נומריים רציפים. הכלי מוסיף לנו שדה חדש, עם טווח ערכים חדשים המבוססים על שדה המקור. הכלי מתאים לשימוש כשאנחנו רוצה לשמור על הקשר בין הערכים אבל הערך המספרי עצמו (אם זה 1 או 10) לא רלוונטי.
לדוגמה: אם יצרתי שדה של ציון והרבה ערכים הם מספרים נמוכים ויש לי מעט מספרים גבוהים ההיסטוגרמה תראה כמו בדוגמה. אני ארצה לגרום לערכים להתפלג נורמאלית כדי לראות את השונות בניהם בצורה טובה יותר- הכלי transform field יאפשר לי להפוך את השדה להתפלגות נורמאלית. הכלי מציע מספר שיטות מתמטיות להתפלגויות. בדוגמה שלנו בחרתי באפשרות של Box – Cox . בדוקומנטציה של הכלי ניתן לקרוא על כל סוגי הפונקציות הזמינות וכיצד הן פועלות.
התוצאה- שדה חדש בו הערכים מתפלגים נורמאלית.
טיפ: אם טווח הערכים החדש אינו נוח למשתמש (אם נסתכל בדוגמה, ערך המינימום החדש הוא 5.038- ולרוב המשתמשים הוא לא יהיה ברור כערך הנמוך ביותר…) ניתן לשמור על התפלגות הערכים אבל להגדיר להם טווח ערכים חדש בעזרת הכלי standardize field
Summarize within – Integrate –
אם אתם מכירים ואוהבים את הכלי summarize אז אתם ממש תאהבו את הבן דוד המשודרג שלו- summarize within, המייצר שכבת מידע חדש המסכמת שדות משכבת נתונים אחת בהתאם לשכבת נתונים אחרת. הכלי הזה נוח כאשר אני רוצה לסכם ערכים של מספר נקודות או קווים הנמצאים בתוך אותו הפוליגון או בתוך מספר פוליגונים שונים.
Transpose Fields – Format –
כלי אשר לוקח שורות בטבלה והופך אותן לשדות בטבלה חדשה (standalone table). כלי זה שימושי כאשר הטבלה או feature class מאחסנת ערכים בשמות שדות. כלי זה מאפשר לסדר את שמות השדות בהתאם לנתונים (data values) המתאימים להם בשורה.
לסיכום…
עבודה עם סט נתונים מסודר יכולה להביא ליתרונות רבים, מבחינת יעילות, דיוק ותובנות. חישוב סטטיסטיקות ראשוניות על סט הנתונים עוזר לקבל מסקנות על תקינות הנתונים. כלי ה data engineer בפרו מרכזים כלים קיימים למקום אחד ומקלים על העבודה (ואפילו יכולים להפוך אותה למהנה!).
מעוניינים לחקור עוד על data engineering ב- ArcGIS Pro?
וובינר קצר שיעזור לכם להתמצא: https://www.bigmarker.com/systematics/Data-Engineering
פוסט בבלוג How to get started with Data Engineering (esri.com)