ในหลายธุรกิจปฏิเสธไม่ได้ว่าข้อมูลมีความสำคัญ แต่ข้อมูลดังกล่าวอาจมีจำนวนมหาศาลหากไม่สามารถจัดการได้อย่างถูกต้อง ปัญหาคือ การจัดการและแยกข้อมูลเชิงลึกที่มีค่าออกจากข้อมูลทั้งหมดที่ต้องการการรวบรวม ซึ่งทำให้การส่งผ่านข้อมูลมีความสำคัญ ต่อไปนี้จะเน้น 7 ประโยชน์หลักของการใช้ data lake ที่เหมาะสม
1.ขนาดที่เหมาะสม (scalability)
ความหมายที่เข้าใจง่ายที่สุด คือ ธุรกิจเล็กก็สามารถจัดการข้อมูลจำนวนมหาศาลได้ ในความเป็นจริงธุรกิจมีการเก็บรวบรวมข้อมูลในหลายระดับ อาทิเช่น การรวบรวมข้อมูลจากธุรกิจพันธมิตร จากบัญชีโซเชียลมีเดียและแหล่งข้อมูลอื่น ๆ การมีความสามารถในการปรับขยายที่เหมาะสมหมายความว่า ธุรกิจสามารถรับมือกับข้อมูลที่เพิ่มขึ้นได้
2.มีประเภทข้อมูลที่ครอบคลุม (data type)
การมีความสามารถในการนำเข้าข้อมูลจากหลาย ๆ แหล่งเป็นเรื่องสำคัญ แต่ธุรกิจของคุณจะต้องสามารถรวบรวมข้อมูลประเภทต่าง ๆ ได้ คุณจะประหลาดใจกับจำนวนข้อมูลในรูปแบบต่าง ๆ เช่น log, XML, ข้อมูลเซ็นเซอร์, ข้อมูลโซเชียล และข้อมูลจากการแชท ข้อมูลทั้งหมดนี้จะต้องมีการรวบรวมอย่างถูกต้อง และสามารถทำได้ด้วยการส่งข้อมูลที่มีคุณภาพ การเลือกไม่ดีอาจทำให้คุณนำเข้าข้อมูลไม่ถูกต้อง และนั่นจะสร้างความล่าช้า และการสูญเสียที่อาจเกิดขึ้นซึ่งไม่มีใครต้องการ
3.บันทึกข้อมูลความเร็วสูง (high-velocity data)
มีหลายวิธีในการจัดเก็บข้อมูลที่ถูกบันทึกแล้ว แต่หนึ่งในวิธีที่ได้รับความนิยมมากที่สุด คือ ระบบคลังข้อมูล ปัญหาของวิธีการจัดเก็บข้อมูลชนิดนี้ คือ ไม่เหมาะกับการรวบรวมข้อมูลที่ต้องการความเร็วสูง ธุรกิจในทุกวันนี้กำลังเก็บข้อมูลประเภทที่ต้องการความเร็วสูงอยู่ตลอดเวลา โดยปกติจะมาจากบัญชีโซเชียลมีเดียที่มีการอัพโหลดข้อมูลด้วยความเร็วสูง การมีเครื่องมืออย่าง Data Lake สามารถช่วยเก็บข้อมูลประเภทนี้ได้อย่างมีประสิทธิภาพมากขึ้น ทำให้แน่ใจว่าคุณจะไม่พลาดจากข้อมูลต่าง ๆ Data Lake ใช้เครื่องมือ เช่น Kafka และ Scribe เพื่อรวบรวมข้อมูลที่ต้องการความเร็วเหล่านี้
4.การทำความสะอาดข้อมูล (Sanitizing Data)
เมื่อได้ข้อมูลมาแล้ว ข้อมูลนั้นต้องสะอาด มันค่อนข้างซับซ้อน แต่ข้อมูลที่ได้มาต้องแน่ใจว่าได้ผ่านกระบวนการทำความสะอาดข้อมูลมาแล้วอย่างดี สิ่งที่เกิดขึ้นคือ ข้อมูลทั้งหมดที่ถูกทำความสะอาดแล้วควรช่วยลดปัญหาการซ้ำ และการจัดการ หากคุณมีผู้เชี่ยวชาญด้านข้อมูลมาแนะนำ หรือช่วยสร้างสคริปต์ ทำให้ประสิทธิภาพการทำความสะอาดข้อมูลมีมากขึ้น และไม่ว่าคุณจะพยายามมากเพียงใด คุณยังจะพบกับข้อผิดพลาดเล็ก ๆ น้อย ๆ ในการเก็บรวบรวมข้อมูล แต่ตอนนี้คุณกำลังแก้ไขปัญหาเหล่านั้นอยู่
5.วิเคราะห์ข้อมูลให้ง่ายขึ้น
ส่วนหนึ่งของเหตุผลที่คุณต้องการเครื่องมือในการดำเนินการเพื่อช่วยในการรวบรวมและทำความสะอาดข้อมูลจำนวนนี้เพื่อให้เครื่องวิเคราะห์ข้อมูลของคุณสามารถช่วยถอดรหัสข้อมูลทั้งหมดที่รวบรวมได้ ซึ่งเป็นเวลาที่จะได้สำรวจ และถอดความหมายเชิงลึกของข้อมูล การวิเคราะห์ที่ได้นี้สามารถใช้เพื่อทราบสถานะการณ์โดยรวมของบริษัท หรืออาจฉายภาพปัญหาที่บริษัทกำลังเผชิญอยู่ เมื่อมีข้อมูลเชิงลึกที่ขัดเจน เจ้าของบริษัทสามารถสร้างแผนการปรับปรุงบริษัทให้ได้เปรียบเหนือคู่แข่ง
6.จัดเก็บแบบข้อมูลดิบ
เมื่อข้อมูลถูกประมวลผลและวิเคราะห์แล้ว คุณก็จะคิดไปว่าข้อมูลนั้นต้องถูกจัดเก็บในรูปแบบที่กำหนดไว้ล่วงหน้า การมี data lake ที่ทำงานไม่เหมือนการใช้งาน data warehouse ความสามารถในการจัดเก็บข้อมูลของ data lake ข้อมูลทั้งหมดจะจัดเก็บในแบบข้อมูลดิบ ช่วยให้คุณสามารถเข้าถึงได้ในภายหลังโดยไม่ต้องกังวลว่าจะมีข้อมูลใดถูกแก้ไข ณ จุดนี้ข้อมูลจะถูกติดแท็กและจัดระเบียบอย่างเหมาะสม เพื่อให้เข้าถึงได้ง่าย แต่ความสามารถในการเก็บทุกอย่างทำให้การใช้งาน data lake มีประสิทธิภาพมาก นักวิเคราะห์ธุรกิจสามารถถามคำถามที่ซับซ้อนมากขึ้นเกี่ยวกับข้อมูลภายหลังจากการวิเคราะห์เบื้องต้นได้
7.ใช้อัลกอริทึมที่มีประสิทธิภาพ
ข้อดีของการทำ data lake คือ นักวิเคราะห์สามารถใช้อัลกอริทึมที่ทรงพลังเพื่อช่วยให้เข้าใจข้อมูลที่รวบรวมได้
การกำหนดหมวดหมู่ แท็ก pattern และวิธีอื่นที่คล้ายกัน สามารถช่วยให้อัลกอริทึมการเรียนรู้เชิงลึกมีประสิทธิภาพมาก ซึ่งเป็นสาเหตุที่สำคัญในการทำ data ingestion และเหตุผลอีกส่วนในการใช้สภาพแวดล้อมเช่นนี้ คือ ทำให้งานวิเคราะห์ข้อมูลจำนวนมากสำเร็จลุล่วงได้ง่ายขึ้น
หวังว่าข้อมูลนี้จะช่วยให้คุณเข้าใจมากขึ้นว่าทำไมการใช้ data lake ingestion จึงมีความสำคัญ และควรพิจารณา เพราะมันไม่ได้มีไว้เพียงเพื่อตรวจสอบความเป็นไปได้ของข้อมูลเท่านั้น
Cr : Smartdatacollective.com
Thursday, April 30, 2020
7 ประโยชน์สำคัญ การใช้ data lake ให้เหมาะ
ในหลายธุรกิจปฏิเสธไม่ได้ว่าข้อมูลมีความสำคัญ แต่ข้อมูลดังกล่าวอาจมีจำนวนมหาศาลหากไม่สามารถจัดการได้อย่างถูกต้อง ปัญหาคือ การจัดการและแยกข้อม...
-
ETL คือ อักษรที่ย่อมาจากคำว่า Extract, Transform, Load ซึ่งทำหน้าที่ 3 อย่าง เกี่ยวข้องกับข้อมูล Extract คือ กระบวนการอ่านข้อมูล ...
-
ETL คือ อะไร ETL ย่อมาจาก Extract, Transformation, และ Load พูดง่ายๆ คือ การคัดลอกข้อมูลจากที่หนึ่งไปยังอีกที่หนึ่ง Extract : ขั้นตอน...
-
บริษัทอีคอมเมิร์ซทั้งหลายมักเป็นด่านหน้าของการปรับเปลี่ยนเทคโนโลยี และนวัตกรรมเสมอ แต่บริษัทเหล่านี้ก็ยังไม่อาจลอดพ้นจากการถูก Disruption จา...