התמודדות עם Big Data באמצעות MATLAB
Big Data הוא מונח המתייחס למאגר מידע כה גדול, שבשל גודלו הרב קשה לנו לעבד אותו בשיטות מסורתיות. בסביבת העבודה של MATLAB, big data הוא מידע שיהיה לנו קשה לעבד אותו בפונקציות הרגילות של MATLAB, המניחות שכל המידע נמצא בזיכרון בזמן העיבוד.
נתונים במאגר המידע אלו מגיעים ממקורות מידע רבים, בכמויות גדולות, בפורמטים מגוונים ובאיכויות שונות. בשנים האחרונות כמות המידע הדיגיטלי שנוצר ונשמר הולכת וגדלה, ולמעשה גדלה בקצב אקספוננציאלי, עם כניסת המכשירים החכמים ויצירה של מידע נוסף.
בין מקורות הנתונים הפזורים כיום ניתן למצוא חיישני מדידה, מידע המגיע מלויינים, מידע רפואי, סרטי וידאו, נתוני מסחר, נתוני רכישות וקניות אונליין, אתרי אינטרנט ועוד. מאגרי הנתונים ממקורות אלו יכולים להכיל גיגהבייטים וטרהבייטים של מידע, וגדלים בקצב של מגהבייט או גיגהבייט כל יום.
הגישה למאגר בלתי נדלה של מידע מייצרת הזדמנות של ממש למדענים וחוקרים לקבל תובנות משמעותיות יותר ולמעשה להיות מסוגלים לקבל החלטות מבוססות יותר. עם זאת, האתגר המרכזי בעיבוד נתונים בהיקפים גדולים הוא שמשאבי המחשוב הקיימים לא תמיד מותאמים לכך. לא ניתן תמיד לטעון את כמויות המידע הללו לתוך הזיכרון הקיים, זמן העיבוד יכול להיות ארוך למכביר, או שקצב השמירה שלו איטי מדי בהשוואה לקצב המדידות עצמן. מעבר לכך, האלגוריתמים הקיימים לא תמיד מותאמים לפעולה עם מאגרי מידע גדולים מבחינת זמן חישוב או עיבוד – לא תמיד ניתן להפוך מטריצה, והחוקר נדרש למצוא פתרון טוב יותר לכתיבת האלגוריתם במידע מסוג זה.
בסביבת MATLAB קיימים מגוון פתרונות ויכולות המאפשרים עבודה וניתוח מידע מסוג זה: