ชื่นชอบในเทคโนโลยีเกี่ยวกับการจัดการข้อมูล: April 2020

Thursday, April 30, 2020

7 ประโยชน์สำคัญ การใช้ data lake ให้เหมาะ

ในหลายธุรกิจปฏิเสธไม่ได้ว่าข้อมูลมีความสำคัญ แต่ข้อมูลดังกล่าวอาจมีจำนวนมหาศาลหากไม่สามารถจัดการได้อย่างถูกต้อง ปัญหาคือ การจัดการและแยกข้อมูลเชิงลึกที่มีค่าออกจากข้อมูลทั้งหมดที่ต้องการการรวบรวม ซึ่งทำให้การส่งผ่านข้อมูลมีความสำคัญ ต่อไปนี้จะเน้น 7 ประโยชน์หลักของการใช้ data lake ที่เหมาะสม

1.ขนาดที่เหมาะสม (scalability)
ความหมายที่เข้าใจง่ายที่สุด คือ ธุรกิจเล็กก็สามารถจัดการข้อมูลจำนวนมหาศาลได้ ในความเป็นจริงธุรกิจมีการเก็บรวบรวมข้อมูลในหลายระดับ อาทิเช่น การรวบรวมข้อมูลจากธุรกิจพันธมิตร จากบัญชีโซเชียลมีเดียและแหล่งข้อมูลอื่น ๆ การมีความสามารถในการปรับขยายที่เหมาะสมหมายความว่า ธุรกิจสามารถรับมือกับข้อมูลที่เพิ่มขึ้นได้

2.มีประเภทข้อมูลที่ครอบคลุม (data type)
การมีความสามารถในการนำเข้าข้อมูลจากหลาย ๆ แหล่งเป็นเรื่องสำคัญ แต่ธุรกิจของคุณจะต้องสามารถรวบรวมข้อมูลประเภทต่าง ๆ ได้ คุณจะประหลาดใจกับจำนวนข้อมูลในรูปแบบต่าง ๆ เช่น log, XML, ข้อมูลเซ็นเซอร์, ข้อมูลโซเชียล และข้อมูลจากการแชท ข้อมูลทั้งหมดนี้จะต้องมีการรวบรวมอย่างถูกต้อง และสามารถทำได้ด้วยการส่งข้อมูลที่มีคุณภาพ การเลือกไม่ดีอาจทำให้คุณนำเข้าข้อมูลไม่ถูกต้อง และนั่นจะสร้างความล่าช้า และการสูญเสียที่อาจเกิดขึ้นซึ่งไม่มีใครต้องการ

3.บันทึกข้อมูลความเร็วสูง (high-velocity data)
มีหลายวิธีในการจัดเก็บข้อมูลที่ถูกบันทึกแล้ว แต่หนึ่งในวิธีที่ได้รับความนิยมมากที่สุด คือ ระบบคลังข้อมูล ปัญหาของวิธีการจัดเก็บข้อมูลชนิดนี้ คือ ไม่เหมาะกับการรวบรวมข้อมูลที่ต้องการความเร็วสูง ธุรกิจในทุกวันนี้กำลังเก็บข้อมูลประเภทที่ต้องการความเร็วสูงอยู่ตลอดเวลา โดยปกติจะมาจากบัญชีโซเชียลมีเดียที่มีการอัพโหลดข้อมูลด้วยความเร็วสูง การมีเครื่องมืออย่าง Data Lake สามารถช่วยเก็บข้อมูลประเภทนี้ได้อย่างมีประสิทธิภาพมากขึ้น ทำให้แน่ใจว่าคุณจะไม่พลาดจากข้อมูลต่าง ๆ Data Lake ใช้เครื่องมือ เช่น Kafka และ Scribe เพื่อรวบรวมข้อมูลที่ต้องการความเร็วเหล่านี้

4.การทำความสะอาดข้อมูล (Sanitizing Data)
เมื่อได้ข้อมูลมาแล้ว ข้อมูลนั้นต้องสะอาด มันค่อนข้างซับซ้อน แต่ข้อมูลที่ได้มาต้องแน่ใจว่าได้ผ่านกระบวนการทำความสะอาดข้อมูลมาแล้วอย่างดี สิ่งที่เกิดขึ้นคือ ข้อมูลทั้งหมดที่ถูกทำความสะอาดแล้วควรช่วยลดปัญหาการซ้ำ และการจัดการ หากคุณมีผู้เชี่ยวชาญด้านข้อมูลมาแนะนำ หรือช่วยสร้างสคริปต์ ทำให้ประสิทธิภาพการทำความสะอาดข้อมูลมีมากขึ้น และไม่ว่าคุณจะพยายามมากเพียงใด คุณยังจะพบกับข้อผิดพลาดเล็ก ๆ น้อย ๆ ในการเก็บรวบรวมข้อมูล แต่ตอนนี้คุณกำลังแก้ไขปัญหาเหล่านั้นอยู่

5.วิเคราะห์ข้อมูลให้ง่ายขึ้น
ส่วนหนึ่งของเหตุผลที่คุณต้องการเครื่องมือในการดำเนินการเพื่อช่วยในการรวบรวมและทำความสะอาดข้อมูลจำนวนนี้เพื่อให้เครื่องวิเคราะห์ข้อมูลของคุณสามารถช่วยถอดรหัสข้อมูลทั้งหมดที่รวบรวมได้ ซึ่งเป็นเวลาที่จะได้สำรวจ และถอดความหมายเชิงลึกของข้อมูล การวิเคราะห์ที่ได้นี้สามารถใช้เพื่อทราบสถานะการณ์โดยรวมของบริษัท หรืออาจฉายภาพปัญหาที่บริษัทกำลังเผชิญอยู่ เมื่อมีข้อมูลเชิงลึกที่ขัดเจน เจ้าของบริษัทสามารถสร้างแผนการปรับปรุงบริษัทให้ได้เปรียบเหนือคู่แข่ง

6.จัดเก็บแบบข้อมูลดิบ
เมื่อข้อมูลถูกประมวลผลและวิเคราะห์แล้ว คุณก็จะคิดไปว่าข้อมูลนั้นต้องถูกจัดเก็บในรูปแบบที่กำหนดไว้ล่วงหน้า การมี data lake ที่ทำงานไม่เหมือนการใช้งาน data warehouse ความสามารถในการจัดเก็บข้อมูลของ data lake ข้อมูลทั้งหมดจะจัดเก็บในแบบข้อมูลดิบ ช่วยให้คุณสามารถเข้าถึงได้ในภายหลังโดยไม่ต้องกังวลว่าจะมีข้อมูลใดถูกแก้ไข ณ จุดนี้ข้อมูลจะถูกติดแท็กและจัดระเบียบอย่างเหมาะสม เพื่อให้เข้าถึงได้ง่าย แต่ความสามารถในการเก็บทุกอย่างทำให้การใช้งาน data lake มีประสิทธิภาพมาก นักวิเคราะห์ธุรกิจสามารถถามคำถามที่ซับซ้อนมากขึ้นเกี่ยวกับข้อมูลภายหลังจากการวิเคราะห์เบื้องต้นได้

7.ใช้อัลกอริทึมที่มีประสิทธิภาพ
ข้อดีของการทำ data lake คือ นักวิเคราะห์สามารถใช้อัลกอริทึมที่ทรงพลังเพื่อช่วยให้เข้าใจข้อมูลที่รวบรวมได้ การกำหนดหมวดหมู่ แท็ก pattern และวิธีอื่นที่คล้ายกัน สามารถช่วยให้อัลกอริทึมการเรียนรู้เชิงลึกมีประสิทธิภาพมาก ซึ่งเป็นสาเหตุที่สำคัญในการทำ data ingestion และเหตุผลอีกส่วนในการใช้สภาพแวดล้อมเช่นนี้ คือ ทำให้งานวิเคราะห์ข้อมูลจำนวนมากสำเร็จลุล่วงได้ง่ายขึ้น

หวังว่าข้อมูลนี้จะช่วยให้คุณเข้าใจมากขึ้นว่าทำไมการใช้ data lake ingestion จึงมีความสำคัญ และควรพิจารณา เพราะมันไม่ได้มีไว้เพียงเพื่อตรวจสอบความเป็นไปได้ของข้อมูลเท่านั้น

Cr : Smartdatacollective.com

Sunday, April 19, 2020

5 แนวโน้ม AI ที่จะเข้ามาเปลี่ยนอุตสาหกรรมอีคอมเมิร์ซ

บริษัทอีคอมเมิร์ซทั้งหลายมักเป็นด่านหน้าของการปรับเปลี่ยนเทคโนโลยี และนวัตกรรมเสมอ แต่บริษัทเหล่านี้ก็ยังไม่อาจลอดพ้นจากการถูก Disruption จาก Big Data ไปได้

ปัญญาประดิษฐ์ หรือ Artificial Intelligence อักษรย่อ คือ AI เป็นหนทางที่บริษัทอีคอมเมิร์ซใช้ทำธุรกิจ

AI ในอีคอมเมิร์ซ คือ แนวทางขับเคลื่อนข้อมูล ที่ช่วยให้บริษัทต่าง ๆ จัดการ และวิเคราะห์ข้อมูลของลูกค้าได้ง่ายขึ้น การใช้ระบบอัตโนมัติ (automated systems) และ AI robot machines ทำให้บริษัทสามารถบรรลุเป้าหมายการขายได้ดียิ่งขึ้น นี้คือแนวโน้มของปัญญาประดิษฐ์ (artificial intelligence) ที่เข้ามาเปลี่ยนแปลงอุตสาหกรรมอีคอมเมิร์ซ

การคาดการณ์ (Prediction) ยอดขายอย่างชาญฉลาด
ธุรกิจอีคอมเมิร์ซใช้ประโยชน์จากเงื่อนไขเชิงลึก และความต้องการของผลิตภัณฑ์เพื่อพัฒนากลยุทธิ์ทางการตลาดที่มีประสิทธิภาพมากขึ้น "อัลกอริทึมการคาดการณ์ยอดขาย คือ การใช้ AI ในการเปลี่ยนแปลงอุตสาหกรรม"

AI กำลังถูกใช้งานไปทั่วทุกระบบในธุรกิจอีคอมเมิร์ซ สำหรับสร้าง และรวบรวมข้อมูล

AI ยังถูกนำมาปรับปรุงอุตสาหกรรมในอีกหลายแง่มุม และยังมีอัลกอริทึมบอทที่เข้ามาปฏิวัติการให้บริการลูกค้า ระบบอัตโนมัติ (automated system) ที่คอยทำงานอยู่เบื้องหลังซึ่งผลักดันให้เกิดการปรับปรุงระบบซอฟต์แวร์หลังบ้านของระบบอีคอมเมิร์ซ
ทางเดียวที่ปัญญาประดิษฐ์กำลังเปลี่ยนแปลงอุตสาหกรรมด้วยการคาดการณ์ยอดขายอย่างชาญฉลาด การคาดการณ์ยอดขายอัจฉริยะเหล่านี้ใช้ AI เพื่อรักษาความมั่นคงให้กับซัพพลายเชนของธุรกิจ อัลกอรึทึม AI วิเคราะห์ผลิตภัณฑ์อีคอมเมิร์ซ ช่วยคาดการณ์ปริมาณการขายเพื่อการส่งมอบที่แม่นยำ การคาดการณ์ยอดขายที่ชาญฉลาดนี้ช่วยให้ผู้ประกอบการเข้าใจวิธีการขายผลิตภัณฑ์ของตนเองได้ดีขึ้น ช่วยให้ผู้ขายสามารถสร้างสมดุลระหว่างความต้องการซื้อ และความต้องการขาย ข้อมูลนี้ถูกนำมาใช้เพื่อระบุตัวแปรในการแบ่งกลุ่มผู้ซื้อ ระบบ AI สร้างกลุ่มผู้ซื้อตามความเป็นจริง (fact-based) ด้วยการระบุคุณสมบัติที่แตกต่างของผู้ซื้อโดยใช้ AI ผู้ขายจะสามารถคาดการณ์แนวโน้มการขายได้ดีขึ้น

ปรับปรุงความสามารถในการค้นหาลูกค้า
บริษัทต่าง ๆ ยังใช้ AI ในการปรับปรุงความสามารถในการค้นหาลูกค้าในเว็บไซต์อีคอมเมิร์ซของบริษัท เครื่องมือค้นหาเหล่านี้สามารถคิดเลียนแบบมนุษย์

โซลูชั่นอีคอมเมิร์ซบนคลาวด์ใช้ข้อมูลลูกค้าฉายภาพผลิตภัณฑ์ที่เกี่ยวข้องได้มากขึ้น นี่คือความสำเร็จผ่านการประมวลผลภาษาธรรมชาติ (natural language processing : NLP) ระบบ AI จะเรียนรู้บริบทต่าง ๆ ของลูกค้า เพื่อปรับปรุงผลการค้นหา แบบจำลองปัญญาประดิษฐ์ยังปรับปรุงองค์ประกอบด้านภาพของผลการค้นหาเหล่านี้ ซอฟต์แวร์อีคอมเมิร์ซที่มีแท็ก AI อัตโนมัติ การจัดระเบียบ และค้นหาเนื้อหาโดยใช้คุณลักษณะ labeling ขั้นสูง สิ่งนี้เชื่อมโยงลูกค้ากับผลิตภัณฑ์ที่ตรงกับภาพความต้องการของตนเอง "ปัญญาประดิษฐ์กำลังปรับปรุงเครื่องมือค้นหาลูกค้าในเว็บไซต์อีคอมเมิร์ซ"

การซิงค์อีเมล์ลูกค้า
นอกจากนี้เหล่าบริษัทอีคอมเมิร์ซยังมีการใช้ AI ช่วยทำให้การตลาดผ่านอีเมลเป็นกลยุทธ์ที่มีประสิทธิภาพ เมื่อลูกค้าทำการสั่งซื้อที่อยู่อีเมลจะถูกซิงค์กับรายการอีเมลการตลาดโดยอัตโนมัติ
โซลูชันบนคลาวด์ใช้ความเกี่ยวข้องของข้อมูลแบ่งลูกค้าออกเป็นกลุ่มข้อมูล สร้างแคมเปญการตลาดผ่านอีเมลช่วยเพิ่มประสิทธิภาพของแพลตฟอร์มอีคอมเมิร์ซได้อย่างมาก ซอฟต์แวร์อีคอมเมิร์ซใช้ AI เพื่อวิเคราะห์ข้อมูลที่ซับซ้อนนี้ ซึ่งรวมถึงการวิเคราะห์พฤติกรรมการคลิกของลูกค้า ปัญญาประดิษฐ์ช่วยจับคู่ที่อยู่อีเมลของลูกค้ากับรายการทางการตลาดเฉพาะบุคคล ทีมการตลาดจึงสามารถดำเนินการแคมเปญการตลาดผ่านอีเมลได้อย่างมีประสิทธิภาพยิ่งขึ้น "การซิงค์รายชื่ออีเมลเป็นอีกแนวโน้มหนึ่งในระบบอัตโนมัติของ AI"

Automated Logistics
แนวโน้มการใช้ AI ไม่ได้มีแค่ในระบบที่เกี่ยวข้องกับลูกค้าเท่านั้น ยังมีอีกหนึ่งอุตสาหกรรมใหญ่ที่ใช้ AI คือ กระบวนการโลจิสติกส์อัตโนมัติ ซอฟต์แวร์อีคอมเมิร์ซใช้ระบบอัตโนมัติในการ fulfill และจัดส่งคำสั่งซื้อสินค้า AI robots ถูกพบอยู่ในคลังสินค้าทั่วโลก การปรับปรุงประสิทธิภาพของ robot และความเร็วในการปฏิบัติการของคลังสินค้า การจัดวาง การแพ็ค และจัดส่งสินค้าทำได้อย่างมีประสิทธิภาพ AI ยังถูกนำมาใช้ขนส่งสินค้าด้วยโดรน แนวโน้ม AI เหล่านี้ช่วยลดต้นทุน และเพิ่มรายได้ให้แก่บริษัทอีคอมเมิร์ซทั้งหลาย "ปัญญาประดิษฐ์ถูกนำมาใช้กับกระบวนการ automate logistical ในธุรกิจอีคอมเมิร์ซ"

Cart Abandonment
ร้านอีคอมเมิร์ซใช้เทคโนโลยี AI ลดการทิ้งสินค้าค้างไว้ในรถเข็น ไม่ว่าเว็บไซต์ไหนก็มีเปอร์เซ็นต์ที่ลูกค้าทิ้งรถเข็น ทำให้ร้านอีคอมเมิร์ซสูญเสียยอดขาย หลายบริษัทใช้ AI เข้ามาจัดการกับปัญหานี้ และลดอัตราการทิ้งรถเข็นให้เป็นยอดขาย การตลาดอีเมลเป็นวิธีหนึ่งที่นำมาใช้ การส่งอีเมลแจ้งเตือนลูกค้าว่ามีสินค้าค้างอยู่ในรถเข็นแบบอัตโนมัติ และยังกำหนดเป็น red flags ให้ลูกค้าทราบด้วย นอกจากนี้ AI ยังเรียนรู้ภาษากายดิจิทัลของนักช้อปเพื่อรู้ว่าเมื่อไรที่นักช้อปอาจจะละทิ้งรถเข็น ด้วยระบบวิเคราะห์ที่ซับซ้อนจะตีความข้อมูลนับร้อยจุดแบบเรียลไทม์ เมื่อร้านค้ารู้ว่าขั้นตอนไหนที่จะนำไปสู่การละทิ้งรถเข็น ร้านค้าจะส่งข้อความที่เหมาะสมไปยังนักช็อปเพื่อติดตามพวกเขาไว้
แนวโน้ม AI ที่มุ่งการละทิ้งรถเข็น คือ การปรับปรุงในอุตสาหกรรมอีคอมเมิร์ซ แนวโน้มปัญญาประดิษฐ์กำลังเปลี่ยนอุตสาหกรรมอีคอมเมิร์ซให้ดีขึ้น การคาดการณ์ยอดขายที่ชาญฉลาดทำให้ผู้ขายสามารถสร้างความสมดุลที่สมบูรณ์แบบระหว่างความต้องการซื้อ และความต้องการขาย โมเดล AI ทำให้เครื่องมือค้นหาลูกค้าใช้งานง่ายขึ้น ระบบโลจิสติกส์อัตโนมัติช่วยปรับปรุงประสิทธิภาพคลังสินค้า การซิงค์อีเมลลูกค้าจะวิเคราะห์ข้อมูลผู้บริโภคสำหรับแคมเปญการตลาดผ่านอีเมลได้ดียิ่งขึ้น ระบบวิเคราะห์ตีความจุดข้อมูลจำนวนมากเพื่อลดอัตราการละทิ้งรถเข็น ทั้งหมดนี้คือบางแนวโน้มของปัญญาประดิษฐ์ที่กำลังเปลี่ยนอุตสาหกรรมอีคอมเมิร์ซ

Cr : smartdatacollective.com

Monday, April 13, 2020

ETL ปะทะ ELT

ETL คือ อักษรที่ย่อมาจากคำว่า Extract, Transform, Load ซึ่งทำหน้าที่ 3 อย่าง เกี่ยวข้องกับข้อมูล

Extract คือ กระบวนการอ่านข้อมูล ซึ่งถูกจัดให้มีความสำคัญ ซึ่งถูกจัดเก็บไว้ในหลากหลายรูปแบบ หรืออยู่ในหลายฐานข้อมูล

Transform คือ กระบวนการแปลงข้อมูลที่อ่านออกมาให้อยู่ในรูปแบบที่ต้องการ โดยการเปลี่ยนแปลงนี้จะมีการใช้กฎ หรือเปรียบเทียบข้อมูลกับตารางอื่น หรือการรวมข้อมูลมากกว่า 1 คอลัมน์เข้าด้วยกัน เป็นต้น

Load คือ กระบวนการเขียนข้อมูลไปยังฐานข้อมูลเป้าหมาย คลังข้อมูล หรือระบบอื่นตามต้องการ

"บทบาทที่สำคัญของ ETL คือ การนำข้อมูลจากแหล่งต่าง ๆ ให้สามารถทำงานผสานกันได้"

ETL ปะทะ ELT

แนวคิด ETL ถูกใช้กับคลังข้อมูล (Data Warehousing) ส่วน Big Data มีลำดับกระบวนการที่แตกต่างไป ใน Big Data ข้อมูลจะถูกเข้าถึง และถูกส่งไปยังพื้นที่จัดเก็บข้อมูล เช่น Data Lake และเก็บอยู่ในรูปแบบเดิม ข้อมูลจะถูกแปลงระหว่างถูกนำไปใช้ โดยนักวิทยาศาสตร์ได้สร้างกระบวนการของ ELT หรือ Extract, Load, Transform ขึ้น

ข้อดีที่สำคัญอันหนึ่งของ ELT คือ เวลาการเขียนข้อมูลที่สั้นกว่า (shorter load time) เราสามารถใช้ประโยชน์จากความสามารถที่อยู่ในการประมวลผลของคลังข้อมูล เราจึงลดเวลาที่ใช้ในการส่งข้อมูล ความสามารถนี้เป็นประโยชน์สุดๆ เมื่อต้องประมวลผลข้อมูลที่มีขนาดใหญ่ สำหรับ BI และการวิเคราะห์ Big Data

อย่างไรก็ตามในทางปฏิบัติสิ่งต่าง ๆ ไม่มีวิธีการใดที่ถูกต้องทั้งหมด ตัวอย่างเช่น ในหลาย Data Lakes มีการทำงานทั้งการผสาน (merged) และการแปลง (transform) โครงสร้างข้อมูล เพื่อให้มั่นใจว่านักวิทยาศาสตร์ด้านข้อมูล (Data Scientist) แต่ละคนไม่ต้องทำงานเดียวกันซ้ำ ๆ หรือดำเนินการในลักษณะที่แตกต่างออกไป

เราจะรู้ได้อย่างไรว่าควรใช้ ETL หรือ ELT

ETL ไม่ใช่เทคโนโลยีใหม่ ภาคธุรกิจมีการใช้งานมาหลายปีแล้ว เพื่อดูภาพรวมของข้อมูล การใช้งาน ETL ทั่วไปประกอบด้วย

การใช้ ETL แบบดั้งเดิม (traditional uses)

เป็นการรวบรวม จัดเก็บ และรวมข้อมูลจากภายนอก หรือย้ายข้อมูลจากระบบแบบเก่าไปยังระบบใหม่ด้วยรูปแบบที่แตกต่างกัน เครื่องมือ ETL แสดงข้อมูลจากแหล่งข้อมูลในรูปแบบที่นักธุรกิจเข้าใจ ทำให้ง่ายต่อการวิเคราะห์ และรายงาน ธุรกิจที่ใช้ประโยชน์ของแอพพลิเคชั่นเหล่านี้ ได้แก่ ผู้ค้าปลีก และผู้ให้บริการด้านข้อมูลสุขภาพ เป็นต้น

ETL และ metadata

ETL ได้จัดการข้อมูลประวัติเชิงลึก และรวบรวมมุมมองสำหรับธุรกิจโดยการเพิ่ม metadata เมื่อสถาปัตยกรรมข้อมูลมีความซับซ้อนมากขึ้น สิ่งสำคัญคือ การติดตามว่ามีการใช้องค์ประกอบข้อมูลที่แตกต่างกัน และเกี่ยวข้องกันอย่างไรภายในองค์กรเดียวกัน metadata ช่วยให้เข้าใจความเชื่อมโยงของข้อมูล และผลกระทบต่อสินทรัพย์ข้อมูล (data asset) อื่น ๆ ในองค์กร

ETL และคุณภาพข้อมูล

ETL และ ELT ถูกใช้อย่างกว้างขวางในการ cleansing ข้อมูล ทำโปรไฟล์ (profiling) และตรวจสอบ (auditing) เพื่อให้มั่นใจว่าข้อมูลมีความน่าเชื่อถือ เครื่องมือ ETL สามารถทำงานร่วมกับเครื่องมือจัดการคุณภาพข้อมูล เช่น เครื่องมือที่ใช้สำหรับการทำโปรไฟล์ข้อมูล (data profiling) การขจัดข้อมูลซ้ำซ้อน (deduplication) หรือการตรวจสอบความถูกต้อง (validation)

ETL และการเข้าถึงข้อมูลด้วยตนเอง

การจัดเตรียมข้อมูลด้วยตนเองเป็นส่วนงานที่เติบโตอย่างรวดเร็ว ต้องใช้พลังการเข้าถึง การผสมผสาน และการแปลงข้อมูลให้อยู่ในรูปแบบที่ผู้ใช้ทางธุรกิจ และผู้เชี่ยวชาญที่ไม่รู้เรื่องเทคนิคเข้าใจได้ กระบวนการย้ายข้อมูลสามารถนำมาใช้ซ้ำ โดยไม่ต้องมีการแก้ไข ETL ไม่ต้องมีทักษะในการเขียน code หรือ script ใด ๆ ช่วยให้ใช้เวลาในการเตรียมข้อมูลน้อยลง งานที่ต้องใช้ความเชี่ยวชาญเป็นพิเศษได้รับการปรับปรุงประสิทธิภาพให้ดียิ่งขึ้น

ETL/ELT สำหรับ Big Data

ปัจจุบันความต้องการเรื่อง Big Data เพิ่มขึ้นมาก ผู้ให้บริการ ETL ได้เพิ่ม transformation และ adapter ใหม่ๆ เพื่อรองรับความต้องการในการจัดการปริมาณข้อมูลขนาดใหญ่ และเชื่อมต่อกับแหล่งข้อมูลใหม่ๆ ไม่ว่าจะเป็นจากวีดีโอ, social media, IoT, server log, ข้อมูล spatial, สตรีม เป็นต้น เครื่องมือ Data integration ที่ทำงานกับ adapter เพื่อ extract และ load ข้อมูลได้ประสิทธิภาพ

ETL for Hadoop

เครื่องมือ ETL ยังถูกพัฒนาให้ load และแปลง (transfer) ข้อมูลที่มีโครงสร้าง และไม่มีโครงสร้างใน Hadoop อีกทั้งยังสามารถอ่าน และเขียนไฟล์แบบขนาน (parallel) การรวมข้อมูล (merged data) ให้กลายเป็นเรื่องง่ายใน transformation

ETL ยังสามารถทำงานข้ามกันระหว่างระบบทั้งการเข้าถึงข้อมูล operation, แพลตฟอร์ม BI, ศูนย์ข้อมูลการจัดการหลัก (Master Data Management : MDM) และคลาวน์

มันเกิดขึ้นได้ยังไง?

การสร้างสถาปัตยกรรม ETL คุณต้องทำงานร่วมกับแหล่งข้อมูล และวางแผน ทดสอบอย่างระมัดระวังเพื่อให้แน่ใจว่าการ transform ข้อมูลนั้นถูกต้อง โดยมีหลักการพื้นฐาน 3 เรื่อง ที่แสดงให้เห็นถึงวิวัฒนาการของ ETL คือ

การทำงาน ETL แบบ batch ดั้งเดิม

วิธีการนี้ต้องมีการเตรียม และตรวจสอบความถูกต้องของข้อมูลอย่างดี ก่อนกระบวนการแปลงข้อมูล (transforming) ข้อมูลจะถูกถ่ายโอน และประมวลผลแบบ batch จากฐานข้อมูลต้นทางไปยังคลังข้อมูล ETL แบบดั้งเดิมยังใช้งานได้ แต่มันมีความซับซ้อนในการสร้าง และไม่รองรับกับความต้องการใหม่ ๆ การสร้าง ETL ให้กับองค์กรตั้งแต่ต้นเป็นเรื่องที่ยากลำบาก จึงมีการนำ Stitch หรือ Blendo ที่เป็นเครื่องมือ ETL มาใช้เป็นกระบวนการอัติโนมัติ

ETL กับกระบวนการสตรีมมิ่ง

กระบวนการข้อมูลสมัยใหม่มักจะรวมถึงข้อมูลเรียลไทม์ ในกรณีนี้คุณไม่สามารถทำ extract และ transform ข้อมูลที่เป็น bath ขนาดใหญ่ได้ ดังนั้นคุณต้องใช้ ETL แบบข้อมูลสตรีม ซึ่งมีเฟรมเวิร์ค เช่น Kafka หรือ Spark ทำหน้าที่ดึงข้อมูลแบบเรียลไทม์จากแหล่งข้อมูล และจัดการทันที ก่อนโหลดไปยังระบบปลายทาง เช่น Amazon Redshift เป็นต้น

Serverless ETL

การเกิดขึ้นของสถาปัตยกรรมไร้เซิร์ฟเวอร์ได้สร้างความเป็นไปได้ใหม่ ๆ ให้กระบวนการ ETL ทำได้ง่ายขึ้น การไม่มีโครงสร้างพื้นฐานที่เฉพาะเจาะจง ทำให้การจัดการทรัพยากรให้ ETL ทำงาน สามารถกำหนดให้ขยายขึ้นได้ตามความต้องการ เช่น การขยายทรัพยากรให้ Apache Spark บริการใหม่ที่น่าสนใจ เช่น AWS Glue ที่มีความสามารถในการรวบรวม ระบุรูปแบบ แนะนำ schema และ transformation ให้แก่ผู้ใช้แบบอัตโนมัติกับงานเกือบทั้งหมด

การทำ data pipeline แบบอัตโนมัติ โดยไม่มี ETL

ด้วยเทคโนโลยีคลังข้อมูลใหม่ที่อยู่บนคลาวน์ ทำให้การสร้างการจัดการคลังข้อมูลแบบ end-to-end เกิดขึ้นได้ อีกทั้งการทำงานบนสถาปัตยกรรมนี้ ในระบบหลักยังสามารถปรับปรุงตัวเองในการ extract และ transform ข้อมูลให้วิเคราะห์ได้ตรงกับความต้องการด้วย machine learning และ natural language processing (NLP) แบบอัตโนมัติ

องค์กรต้องการ ETL และ ELT ที่นำข้อมูลมารวม ดูแลความถูกต้อง และตรวจสอบข้อมูลสำหรับคลังข้อมูล การทำรายงาน และการวิเคราะห์ เครื่องมือ ETL และ ELT ทำงานร่วมกับเครื่องมือ data integration อื่น และยังเกี่ยวข้องกับการจัดการข้อมูลอื่น ๆ เช่น คุณภาพข้อมูล ข้อมูลธรรมาภิบาล ข้อมูลเสมือน และ metadata นอกจากนี้ ปัจจุบันยังมีการต่อยอดที่สำคัญเพื่อขยายมุมมองข้อมูล นำขั้นตอนการทำสตรีมมิ่งมาปรับใช้ หรือการทำคลังข้อมูลอัตโนมัติอย่างเต็มรูปแบบ ทำให้การสร้าง data pipeline ทำได้มีประสิทธิภาพมากขึ้น

Cr : Medium > Sciforce

Saturday, April 4, 2020

ETL กับการเปลี่ยนแปลงที่ไฉไลกว่าเดิม

ETL คือ อะไร

ETL ย่อมาจาก Extract, Transformation, และ Load พูดง่ายๆ คือ การคัดลอกข้อมูลจากที่หนึ่งไปยังอีกที่หนึ่ง

Extract : ขั้นตอนการอ่านข้อมูลจากแหล่งข้อมูลประเภทต่าง ๆ
Transform : เป็นการแปลงข้อมูลเป็นรูปแบบ หรือเพิ่มเติมข้อมูลที่ต้องการ
Load : ขั้นตอนการเขียนข้อมูลไปยังฐานข้อมูล หรือ data warehouse หรือระบบอื่น ๆ

ETL สามารถแบ่งได้เป็น 2 ประเภท ขึ้นกับโครงสร้างที่วางไว้

Traditional ETL
เมื่อคิดย้อนกลับไป ข้อมูลต่าง ๆ นิยมเก็บไว้ที่ operational databases , ไฟล์ และคลังข้อมูล โดยข้อมูลถูกย้ายระหว่างที่เก็บข้อมูลวันละ 2-3 ครั้ง เครื่องมือ ETL และสคริปต์ ถูกเชื่อมต่อกับแหล่งข้อมูลแบบชั่วคราว ขณะที่ ETL ทำงาน

Traditional ETL workflow

โครงสร้างของเครื่องมือ ETL นี้ซับซ้อน และจัดการได้ยาก ข้อเสียของสถาปัตยกรรม traditional ETL

กระบวนการระหว่างฐานข้อมูล ไฟล์ และคลังข้อมูลทำงานในแบบ batch
ปัจจุบันบริษัทส่วนใหญ่มักจะวิเคราะห์ และดำเนินการกับข้อมูลแบบ real-time อย่างไรก็ตามเครื่องมือแบบดั้งเดิมไม่ได้ถูกออกแบบมาเพื่อประมวลผล log ข้อมูลเซ็นเซอร์ ข้อมูลเมทริก ฯลฯ
การสร้างแบบจำลองข้อมูลสำหรับโดเมนที่มีขนาดใหญ่มาก ต้องการ global schema
กระบวนการ ETL แบบดั้งเดิมทำงานช้า กินเวลานาน และใช้ทรัพยากรจำนวนมหาศาล
สถาปัตยกรรมแบบดั้งเดิมมุ่งเน้นที่เทคโนโลยีเท่านั้น ดังนั้นเทคโนโลยีใหม่จึงถูกแนะนำการใช้งาน และเครื่องมือที่ต้องเขียนขึ้นตั้งแต่เริ่มต้นเพื่อเชื่อมต่อ

เมื่อเวลาผ่านไปข้อมูลขนาดใหญ่ก็เปลี่ยนลำดับของกระบวนการ ข้อมูลถูกอ่าน (Extract) และนำเข้า (Load) ไปจัดเก็บในแบบดั้งเดิม ข้อมูลถูกแปลง (transform) เมื่อนักวิเคราะห์ข้อมูล หรือระบบอื่นต้องการ โดยถูกเรียกว่า ELT อย่างไรก็ตาม รูปแบบนี้เหมาะกับการประมวลผลข้อมูลในคลังสินค้า ระบบ เช่น oracle data integration platform cloud นำเสนอวิธีการนี้

สถานะปัจจุบันของ ETL
โลกข้อมูลสมัยใหม่ และการใช้งานมีการเปลี่ยนแปลงไปอย่างมากเมื่อเทียบกับทศวรรษที่ผ่านมา มีช่องว่างที่เกิดจากกระบวนการ ETL แบบดั้งเดิม เมื่อประมวลผลข้อมูลที่ทันสมัย เหตุผลหลักบางประการ คือ

กระบวนการของข้อมูลสมัยใหม่ มักจะรวมถึงข้อมูลการสตรีมแบบเรียลไทม์ และองค์กรต้องการกระบวนการข้อมูลเชิงลึกแบบเรียลไทม์
ระบบต้องรองรับการทำงาน ETL แบบเรียลไทม์ที่ไม่มีการทำงานแบบ batch และรับมือกับข้อมูลปริมาณมากในระบบที่ขยายได้
ขณะนี้ฐานข้อมูลเซิร์ฟเวอร์เดียวบางส่วนจะถูกแทนที่ด้วยแพลตฟอร์มข้อมูลแบบกระจาย (เช่น Cassandra, MongoDB, Elasticsearch, แอป SSAS), message brokers (เช่น Kafka, ActiveMQ ฯลฯ) และ endpoint ประเภทอื่น ๆ

ระบบควรมีความสามารถในการปลั๊กอินแหล่งที่มาเพิ่มเติม หรือจัดการวิธีการเชื่อมต่อได้
การประมวลผลข้อมูลซ้ำ เนื่องจากต้องลดสถาปัตยกรรมเฉพาะกิจ
เปลี่ยนเทคโนโลยีการจับข้อมูลที่ใช้กับ ETL แบบดั้งเดิมจะต้องมีการเชื่อมต่อที่ เพื่อสนับสนุนการทำงานแบบดั้งเดิม

มีแหล่งข้อมูลต่างกัน และควรดูการบำรุงรักษาตามข้อกำหนดใหม่

แหล่งที่มา และ endpoint เป้าหมายควรถูกแยกออกจากขั้นตอนทางธุรกิจ ชั้นข้อมูล mapper ควรอนุญาตให้แหล่งที่มา และ endpoint สามารถเชื่อมต่อโดยไม่กระทบต่อการเปลี่ยนแปลง

Data mapping layer

การรับข้อมูลควรมีมาตรฐานก่อนเปลี่ยนแปลง (หรือดำเนินการตามกฎเกณฑ์ทางธุรกิจ)
ข้อมูลควรถูกแปลงเป็นรูปแบบเฉพาะหลังจากการแปลง และก่อนที่จะเผยแพร่ไปยัง endpoint

Data cleansing ไม่ใช่กระบวนการเดียวที่กำหนดไว้ในการเปลี่ยนแปลงในโลกสมัยใหม่ มีข้อกำหนดทางธุรกิจมากมายที่องค์การต้องปฏิบัติตาม

การประมวลผลข้อมูลปัจจุบันควรใช้ตัวกรอง การรวม ลำดับ รูปแบบและกลไกที่สมบูรณ์ เพื่อดำเนินการตามกฎเกณฑ์ทางธุรกิจที่ซับซ้อน

Data processing workflow

Streaming ETL to the Rescue
ข้อมูล คือ เชื้อเพลิงที่ขับเคลื่อนองค์กร เนื่องจากความต้องการข้อมูลใหม่ ระบบดั้งเดิมส่วนใหญ่ยังคงใช้งานได้ในองค์กรส่วนใหญ่ และใช้ฐานข้อมูลและระบบไฟล์ องค์กรเดียวกันกำลังพยายามที่จะย้ายไปสู่ระบบใหม่ และเทคโนโลยีใหม่ เทคโนโลยีเหล่านี้มีความสามารถในการรองรับการเติบโตของข้อมูลขนาดใหญ่ และอัตราการส่งข้อมูลสูง อาทิเช่น 10,000 รายการต่อวินาที เช่น Kafka, ActiveMQ เป็นต้น

การทำงานร่วมกับสถาปัตยกรรมสตรีมมิ่ง ETL องค์กรไม่ต้องออกแบบ และใช้สถาปัตยกรรมที่ซับซ้อนเพื่อเติมเต็มช่องว่างระหว่างระบบดั้งเดิม และระบบปัจจุบัน สถาปัตยกรรมสตรีมมิ่ง ETL สามารถขยายและจัดการได้ในขณะที่ปริมาณข้อมูลเพิ่มมากขึ้นแบบเรียลไทม์ รวมถึงความหลากหลายของโครงสร้างที่พัฒนาขึ้นด้วย
Source sink โมเดล ได้นำเสนอโดยการแยก extract และ loading ออกจาก transform ทำให้ระบบสามารถทำงานร่วมกับเทคโนโลยี และฟังก์ชันใหม่ได้ การทำงานนี้สามารถทำได้ผ่านหลายระบบ เช่น Apache Kafka (กับ KSQL), Talend, Hazelcast, Striim และ WSO2 Streaming Integrator (กับ Siddhi IO)

Model ETL function
อย่างที่เขียนไว้ก่อนหน้านี้ ระบบดังเดิมมักจะถ่ายโอนข้อมูลทั้งหมด ไปยังฐานข้อมูล และระบบไฟล์ที่พร้อมใช้งานสำหรับการประมวลผลเป็นชุด (batch) สถานการณ์นี้บอกได้ว่าแหล่งที่มาของเหตุการณ์แบบดังเดิม เช่น ไฟล์ และ Change Data Capture (CDC) ได้ถูกรวมเข้ากับแพลตฟอร์มสตรีมมิ่งแบบใหม่อย่างไร
ลองมาพิจารณาสถานการณ์จริงในโรงงานผลิตที่มีฟังก์ชันต่อไปนี้

ระบบแบบดั้งเดิม

ถ่ายโอนข้อมูลการผลิตทั้งหมดลงในระบบไฟล์ และฐานข้อมูลที่มี schema ที่แตกต่างกัน
กระบวนการถ่ายโอนข้อมูลแบบรายชั่วโมง หรือรายวัน
ประมวลผลเหตุการณ์ที่ได้รับจาก CDC
ประมวลผลศูนย์กลางข้อมูลเหตุการณ์ (event-centric data) ที่ได้จากระบบใหม่ (ผ่าน HTTP)
ส่งข้อมูลเหตุการณ์ที่ประมวลผลไปยังหลายปลายทาง
ตรวจสอบสต็อกปัจจุบัน และส่งการแจ้งเตือนเมื่อมีต้องการสต็อกเพิ่ม
ดูการวิเคราะห์โดยใช้หมายเลขสต็อก

ในเครื่องมือ ETL แบบดั้งเดิม

ตรรกะการประมวลผล ETL ถูกดำเนินการซ้ำ ในเหตุการณ์ต่อไปนี้

สำหรับแต่ละไฟล์ และฐานข้อมูลที่มี schema แตกต่างกัน
เมื่อจำนวนของเป้าหมาย หรือปลายทางเพิ่มขึ้น

ตรรกะทางธุรกิจซ้ำ ๆ ทำให้ยากต่อการจัดการ และขยาย
การคำนวณกระบวนการซ้ำ ๆ ที่ต้องดึงข้อมูลมาวิเคราะห์ และตรวจสอบ

แฟลตฟอร์มสถาปัตยกรรมสตรีมมิ่งได้เข้ามาแก้ไขปัญหา ETL สมัยใหม่ได้อย่างไร

Modern streaming platform workflow

แหล่งที่มา (เช่น ไฟล์, CDC, HTTP) และเป้าหมายปลายทาง (เช่น Kafka, Elasticsearch, อีเมล) ถูกแยกออกจากการประมวลผล :

Sink, Source และ Store APIs เชื่อมต่อกับแหล่งข้อมูลจำนวนมาก
แม้ว่าจะมีความแตกต่างของ schema ข้อมูล ทั้งต้นทาง ชั้นเก็บข้อมูล (เช่น data mapper) และสตรีมมิ่ง SQL (เช่น Query1) จะแปลงเหตุการณ์ที่ได้รับผ่านหลากหลายแหล่งที่เป็นข้อกำหนดสตรีมทั่วไป (Stream1) เพื่อการประมวลเพิ่มเติม

สถาปัตยกรรมสตรีมมิ่งแพลตฟอร์มเชื่อมต่อแหล่งที่มาแบบดั้งเดิม เช่น ไฟล์ และ CDC รวมถึงแหล่งที่มาสมัยใหม่อีกหลายประเภทด้วย อย่างเช่น HTTP

เหตุการณ์ที่เกิดขึ้นจากระบบดั้งเดิม และระบบสมัยใหม่จะได้รับการวิเคราะห์ในขั้นตอนเดียวกัน

การรวม (aggregation) (เช่น การรวม1) ถูกประมวลผลสำหรับส่วนที่สำคัญภายในไม่กี่นาที ไม่กี่ชั่วโมง ฯลฯ

ข้อมูลถูกสรุปโดยไม่ต้องประมวลผล และสรุปชุดข้อมูลทั้งหมดได้เมื่อต้องการ แอพพลิเคชั่น และเครื่องมือการแสดงผล และตรวจสอบสามารถเข้าถึงข้อมูลสรุปได้ผ่านทาง APIs

จะหนึ่งหรือหลายตรรกะทางธุรกิจ (เช่น BusinessRule1) สามารถเพิ่ม และเปลี่ยนแปลงได้อย่างไม่สะดุด

การเพิ่มตรรกะสามารถทำได้โดยไม่กระทบกับการทำงานเดิมที่มีอยู่แล้ว ดังเช่นตัวอย่างนี้ ข้อความอีเมลจะถูกกระตุ้น (trigger) เมื่อระดับความรุนแรงถึงจุดวิกฤตตามที่กำหนดไว้ใน BusinessRule1

ด้วยสถาปัตยกรรมนี้ ทำให้เรารู้ว่าสตรีมมิ่งแพลตฟอร์ม รวมกับระบบดั้งเดิม เช่น ไฟล์ และ CDC กับระบบสมัยใหม่ที่ใช้ Kafka และ HTTP ในการประมวลผล ETL ได้อย่างไร

คุณสามารถอ้างถึงสตรีมมิ่ง ETL นี้ด้วยหัวข้อ WSO2 Streaming Integrator ถึงวิธีที่ WOS2 Streaming Integrator ได้เตรียมแนวทางการทำงานสำหรับ ETL ที่ซับซ้อนเอาไว้

Cr: DZone

ชื่นชอบในเทคโนโลยีเกี่ยวกับการจัดการข้อมูล

Thursday, April 30, 2020

7 ประโยชน์สำคัญ การใช้ data lake ให้เหมาะ

Sunday, April 19, 2020

5 แนวโน้ม AI ที่จะเข้ามาเปลี่ยนอุตสาหกรรมอีคอมเมิร์ซ

Monday, April 13, 2020

ETL ปะทะ ELT

Saturday, April 4, 2020

ETL กับการเปลี่ยนแปลงที่ไฉไลกว่าเดิม

7 ประโยชน์สำคัญ การใช้ data lake ให้เหมาะ

Labels

Blog Archive

Total Pageviews

ช่องทางการติดตามอื่นๆ