אייל בירן

על Data Mining, מתמטיקה ומה שביניהם

אייל בירן
חוק בסיסי במתמטיקה אומר באופן ברור: כשאתה פותר שאלה תשתמש בכל הנתונים שקיימים, אין נתון מיותר.

חוק בסיסי במתמטיקה אומר באופן ברור: כשאתה פותר שאלה תשתמש בכל הנתונים שקיימים, אין נתון מיותר. לא השתמשת בכל הנתונים? כנראה שאתה טועה בכיוון החשיבה שלך.
עולם ה Big Data פוגש את המתמטיקה.
שעת ערב מאוחרת. ישבתי לעזור לבני ולחבר שלו בשיעורי מתמטיקה, הם התכוננו לבוחן שהיה להם למחרת. עבדו על דף תרגילים שהכין המורה. בכל שאלה כמה סעיפים. אתם יודעים איך זה.בהתחלה הבטתי מהצד. לראות במה הם מתקשים. מהר מאד עליתי על תופעה שחזרה על עצמה. השניים לא התקשו עם הסעיף הראשון בשאלה שלרוב היה קל יותר. כשהגיעו לסעיף השני ברוב המקרים נתקעו. בנוסף הם ניסו להגיע לפתרון במהירות על ידי שימוש בחלק מהנתונים לרוב אלו הראשונים שקפצו להם לעין.

וכאן הם הסתבכו. חוק בסיסי במתמטיקה אומר באופן ברור: כשאתה פותר שאלה תשתמש בכל הנתונים שקיימים. אין נתון מיותר. לא השתמשת בכל הנתונים? כנראה שאתה טועה בכיוון החשיבה שלך. לא סתם כתוב לך שמדובר במשולש ישר זווית, זה בשביל משפט פיתגורס למשל. לא סתם כתוב שישר הוא תיכון, זה בשביל שתדע ששני חלקי הצלע שמולו שווים באורכם. בקיצור אין נתון מיותר. הכל נועד להקל על החשיבה ולהגיע לתשובה.

ברם, זה לא הכל. חוק שני במתמטיקה מלמד שכל סעיף בשאלה רבת סעיפים, מוביל בעצמו לפתרון ולא רק שמותר להשתמש בתוצאת הסעיף עצמו לפתרון הסעיף הבא אלא פשוט חובה לעשות זאת. יותר נכון לומר שבלי שימוש בתוצאת הסעיף שרק פתרת כנתון חדש לסעיף הבא לא תצליח לפתור את המשך השאלה.

חוקים ברורים. כללים פשוטים שמקלים על לימוד המתמטיקה. כל הנתונים נמצאים שם לא במקרה ובכולם יש להשתמש. וכל נתון חדש שמתגלה בסעיף אחד חובה שיהווה בסיס מידע לפתרון הסעיף הבא. אז נזכרתי שיש עוד עולם מידע בו החוקים הללו תופסים וחשוב שנתייחס אליהם. זהו עולם ה Data Mining  כפי שמתוחזק על ידי Data Scientists בארגון שמיישם ומפעיל פלטפורמות שלBig Data.

בהמון סיטואציות של חקר ביצועים ואנליזת מידע מגיעים למידע ראשוני. מידע בסיסי שהופק ונוצר מהפעלת האלגוריתמים ההתחלתיים הפשוטים. שתי השאלות מעולם המספרים שהוצגו למעלה רלבנטיות למינוף גם כאן:

1. האם השתמשנו ברוב המידע שברשותנו לצורך פתרון הסוגיה העסקית?

2. מה ניתן ללמוד מהמידע שנתקבל לצורך יצירת ופתרון שאלה עסקית חדשה ?
אמחיש זאת על ידי דוגמא מהעולם העסקי הפיננסי: נניח שבעולם ה Big Data העסקי עליו הרחבתי בטורים קודמים, אנו מנסים ליצור פרופיל עסקי לגבי קבוצות של לקוחות לפי מרכיבי פעילותם. כלומר Clusters שיוכלו לשמש אותנו לצורכי שיפור שירות/ מקסום הצעת ערך ללקוח ועוד.

יישום הכלל הראשון של שימוש במירב המידע מתבטא בכך שהמידענים שנגשים לפצח את השאלה משתמשים בשני סוגי המידע שברשות הארגון: המידע המובנה והמידע הלא מובנה. משמע לא מסיקים מסקנות ויוצרים פרופיל רק ממה שידוע לבנק כגון: מחזור בחשבון/ גיל/ וותק/ משכורת / רמת הוצאות/ דירוג סיכון ועוד, אלא מרחיבים ומכניסים לקדרת המידע גם תוצאות של הפעלת כלי מידע לא מובנה כגון: ניתוח טקסט/ ניתוח קולי/ ניטור פעילות באינטרנט ועוד.

יישום הכלל השני של למידה מהמידע שנוצר לצורך יצירת שאלה חדשה יכול לבוא לידי ביטוי על ידי קבלת הנתונים הראשונים של הרצת הפרופילים ואז תחקור עומק לגבי פרופיל בודד מתוך הממצאים אותו פרופיל שהתקבל כמורכב ביותר או המסקרן ביותר ומינופו עד כדי יצירת מסע לקוח ואפילו הגדרת סגמנט חדש עם אסטרטגיה עסקית שירותית ומכירתית.

העיקר שנזכור שאין סביבנו מידע מיותר. יש סביבנו מידע שעוד לא גילינו מה לעשות איתו.

תגובות הקוראים (3)

  1. טל

    יש הבדל עצום בין חידה מתימטית שנוסחה בקפידה ובתמציתיות, ולכן היא נקיה ממידע מיותר, ובין שאלה אינפורמטיבית על העולם האמיתי, שלא תמיד יש לה פתרון, וגם אם יש, לא תמיד הנתונים נמצאים בידיך, וגם אם הם כן, הם רועשים ובנוסף, הם מסתתרים בין נתונים אחרים שאינם רלוונטיים.

    הגב
  2. ספקן

    “העיקר שנזכור שאין סביבנו מידע מיותר” ??!!

    משפט סיום קצת כוללני ובומבסטי.
    יש סביבנו הרבה מידע מיותר.
    הרבה טכניקות כגון Dimensionality reduction
    מיועדות בין השאר על מנת לסנן מידע מיותר.
    לדוגמא – ישנן הרבה כתבות שמכילות מידע מיותר …
    מציע מסר אלטרנטיבי –
    “העיקר לדעת להפריד בין המידע החשוב לתפל”

    הגב
  3. Big Data

    Great article.
    one comment.
    The second to last paragraph is too long and very hard to follow. You should break it to sentences.

    הגב

שדות חובה מסומנים בכוכבית

תגובתך הועברה לצוות לאומי בלוג ותפורסם לאחר אישורה.

האם אתה מסכים?