הפצת ידיעות עסקיות ברחבי העולם
שירות של
מ.ג.מ. פרסומים בינלאומיים בע"מ
נציגים של BusinessWire

לראות את העולם דרך העיניים של Wikipedia

מה ניתן לעשות תוך יום אחד עם המערכת החדשהSGI® UV™ 2000 - המערכת הגדולה בעולם לכריית מידע בפעולה בזיכרון?

19/6/2012 01:10
הוועידה הבינלאומית למחשבי על 2012

המבורג, גרמניה --(BUSINESS WIRE)-- חברת SGI (NASDAQ:SGI), המובילה המהימנה במיחשוב טכני, שיתפה פעולה עם כלב ה. ליטרו מאוניברסיטת אילינוי במיפוי ומחקר של כל התוכן הטקסטואלי של המהדורה בשפה האנגלית של Wikipedia, בזמן ובמרחב. התוצאות כוללות המחשות חזותיות של ההיסטוריה המודרנית, אשר נלכדו במהלך שימוש בן יום אחד בשיטות של כריית נתונים בפעולה בזיכרון (in-memory data-mining). טעינת המהדורה המלאה של Wikipedia בשפה האנגלית למערכת SGI® UV™ 2000 איפשרה למר ליטרו להמחיש את תמונת העולם על פי Wikipedia, כפי שהיא נפרשת על פני שתי המאות האחרונות. נקודות הייחוס כוללות מקום, שנה והתייחסות חיובית או שלילית.

למרות שבוצעו כבר בעבר פרויקטים למיפוי הערכים של Wikipedia על ידי הקצאה ידנית של מקומות בנתוני המטה על ידי עורך אנושי, הרי שהניסיונות שבוצעו בעבר התייחסו לחלק קטן בלבד מכלל המידע על המקומות שב-Wikipedia. בפרויקט זה מומחשים התכנים של המאמרים עצמם, תוך זיהוי של כל מקום וכל תאריך בכל ארבעה מיליון הדפים, וכן של הקשרים ביניהם, על מנת ליצור רשת בהיקף ענק.

"לראות" את Wikipedia בדרך חדשה לחלוטין (“Seeing” Wikipedia in a brand new way)

"הניתוח (analysis) מאפשר לאנשים ברחבי העולם לצעוד צעד אחד לאחור, להתרחק מהכתבות הנפרדות והטקסטים ולראות את היער במקום את העצים - על מנת ליהנות מהידע העצום שמגלמת Wikipedia, במקום מדפים בודדים. אנו יכולים לראות כיצד אחד מהמאגרים הגדולים ביותר של הידע האנושי התפתח, בצורה שלא הייתה אפשרית עד כה, ולגלות מה חשו בעולם בנקודה מסוימת בזמן ובמרחב, או היכן קיימים עדיין פערים בידע העולמי" אמר פרנץ אמן, מנהל שיווק ראשי ומנהל אסטרטגיה בחברת SGI. "אנו אוהבים להשתמש בשירות Google Earth הודות ליכולת להתרחק (Zoom out) ולראות את התמונה הכוללת. בעזרת מערכת SGI UV 2, אנו יכולים ליישם תפיסה דומה על היקפי ענק של נתונים (Big Data) ולראות את התמונה הכוללת, אשר מבוססת על כלל הנתונים".

מהניתוח עולה כי Wikipedia ידעה ארבע תקופות של צמיחה בכיסוי ההיסטורי: בשנים 1001 - 1500 (ימי הביניים), 1501 - 1729 (התקופה המודרנית המוקדמת), 1730 - 2003 (עידן ההשכלה), 2004 - 2011 (עידן Wikipedia). נראה שבהמשך תתמקד הצמיחה בהרחבת הכיסוי של אירועים היסטוריים, ולאו דווקא בהגברת התיעוד מוגבר של ההווה. ההתייחסות הכללית לכל שנה ב-Wikipedia תואמת במידה רבה את האירועים בעולם באותה שנה, כאשר ההתייחסות השלילית ביותר באלף השנים האחרונות היא למלחמת האזרחים באמריקה, ולאחר מכן מלחמת העולם השנייה. עוד עולה מהניתוח כי "פער זכויות היוצרים", אשר מעכב את תהליך הדיגיטציה של תכנים מהמאה העשרים, אינו מהווה בעיה עבור Wikipedia, נוכח הגידול המערכי הקבוע בכיסוי של התקופה שמשנת 1924 ועד היום.

סיוע לחוקרים לכרות נתונים ממאגרים בהיקפי ענק (Big Data) ובקצב מהיר

"האופי החד-כיווני של הקשרים ב-Wikipedia, היעדר הקישורים והחלוקה הבלתי-שווה של תיבות המידע ממחישים את המגבלות של כריית הנתונים על בסיס נתוני מטה במאגרים דוגמת Wikipedia" ציין מר ליטרו. "במערכת SGI UV 2 איפשר לי הזיכרון הגדול והמשותף לבצע שאילתות לגבי כלל מערך הנתונים בזמן אמת כמעט. הנפח הגדול של הזיכרון המשותף שעמד לרשותי איפשר לי לכתוב שורות ספורות של קוד ולהפעיל אותו על כלל מערך הנתונים, על מנת לבצע כל שאילתה שרק אפשר להעלות על הדעת. יכולות אלה אינן אפשריות בגישות מיחשוב רגילות. זה מזכיר מאוד שימוש במעבד תמלילים במקום במכונת כתיבה - אפשר לבצע את המחקר בצורה שונה לחלוטין ולהתמקד בתוצאות במקום באלגוריתמים".

הגישה האנליטית

לאחר הטעינה למערכת SGI® UV™ 2000, מחשב Big Brain, עבר מערך הנתונים הענק קידוד גיאוגרפי (Geocoding) של כל הטקסט, וכן קידוד מלא של תאריכים, בעזרת אלגוריתמים שמזהים כל אזכור של מקום כלשהו וכל תאריך בכל הטקסט של כל המאמרים ב-Wikipedia. בסך הכל חולצו למעלה מ-80 מיליון מקומות ו-42 מיליון תאריכים, בין השנים 1000 לספירה ו-2012, כאשר מכל מאמר חולצו 19 מקומות ו-11 תאריכים בממוצע (כל 44 מלים וכל 75 מלים, בהתאמה). הקשרים בין התאריכים למקומות נלכדו ושולבו ברשת ענקית שמייצגת את ההיסטוריה מנקודת המבט של Wikipedia. כלי זה מאפשר למר ליטרו לבצע ניתוחים בזמן אמת כמעט על כל מערך הנתונים שבמערכת SGI UV 2, על מנת ליצור מפות חזותיות במרחב ובזמן ולראות לא רק את ההיסטוריה כפי שהיא, אלא גם את התחושה הכוללת בעולם בכל שנה במהלך אלף השנים האחרונות, וכן לבחון בצורה אינטראקטיבית מערך נרחב של תאוריות ושאלות מחקריות, הכל תוך פחות מיום אחד של עבודה.

מערכת SGI UV החדשה: מחשב Big Brain

משפחת המוצריםSGI UV 2  מאפשרת למשתמשים למצוא תשובות לכמה מהבעיות הקשות בעולם, במערכת שקל לנהל כעמדת עבודה. עם מעבדי Intel® Xeon®  ממשפחת E5, מערכת הפעלה Linux סטנדרטית ותמיכה במגוון רחב של אפשרויות אחסון, מציעה מערכת SGI UV 2 פיתרון מלא וסטנדרטי למיחשוב ללא מגבלות.

עם 16 ליבות וזיכרון בנפח של 32 ג"ב בלבד, ניתן להתחיל במערכת SGI UV 2 קטנה ולהרחיב אותה בהמשך בצורה חלקה. בהשוואה לפלטפורמה מהדור הקודם, מציעה הפלטפורמה מהדור הבא מספר כפול של ליבות (עד 4096 ליבות) וזיכרון ראשי בנפח גדול פי ארבעה (עד 64 ט"ב) למיחשוב בפעולה בזיכרון ומערכת בתצלום בודד (single-image system). אפשר להרחיב את מערכת SGI UV 2 לזיכרון משותף בנפח של עד שמונה פטה-בתים וקצב קלט/פלט בשיא של ארבע טרה-בתים בשנייה (14 PB/hour). לשם המחשה: את כל אוסף הספרים המודפסים של ספריית הקונגרס של ארצות הברית אפשר לקלוט תוך שלוש שניות.

מערכת SGI UV 2000 כבר זמינה. את מערכת SGI UV 20 אפשר להזמין היום ולקבל החל מאוגוסט 2012. המחיר: החל מ-30,000 דולרים של ארה"ב.

אודות SGI

חברת SGI, המובילה המהימנה במיחשוב טכני, מסייעת ללקוחות לפתור את האתגרים העסקיים והטכנולוגיים התובעניים ביותר שניצבים בפניהם. פרטים נוספים בכתובת sgi.com.

צרו קשר עם SGI בשירות Twitter (@sgi_corp), רשת Facebook (facebook.com/sgiglobal), אתר  YouTube(youtube.com/sgicorp) ורשת LinkedIn.

תמונות וסרטונים אפשר למצוא בכתובת http://www.sgi.com/go/wikipedia

 כל הזכויות שמורות ל-© 2012 Silicon Graphics International Corporation. השם SGI והלוגו של SGI הם סימני מסחר או סימני מסחר רשומים של Silicon Graphics International Corp.  או חברות בנות בארצות הברית ו/או במדינות נוספות. השמות Intel ו-Xeon הם סימני מסחר רשומים של Intel Corporation. כל שאר השמות וסימני המסחר שייכים לבעלים המתאימים.

התמונות מסופקות באדיבותו של כלב ליטרו.

גלריית תמונות/מולטימדיה אפשר למצוא בכתובת  http://www.businesswire.com/cgi-bin/mmg.cgi?eid=50313303&lang=en

המקור: חברתSilicon Graphics International
תוכן הודעה זו בשפת המקור מהווה את הגרסה הרשמית והמהימנה היחידה של מסמך זה. תרגומים מסופקים למטרות נוחיות בלבד ויש להצליבם מול המסמך בשפת המקור, המהווה את הגרסה היחידה של טקסט זה שהינה בעלת תוקף משפטי.
פרטי קשר
Ogilvy Public Relations
מגאן פינטלנד, 415-677-2704
SGImedia@ogilvy.com