การขยายตัวของโลกดิจิทัลกำลังเปลี่ยนวิถีการทำงานและการใช้ชีวิตของเรา หน่วยงานและองค์กรต่างๆ ก็เริ่มปรับเปลี่ยนกระบวนการ รูปแบบการทำงานเพื่อให้เท่าทันเทคโนโลยี อีกทั้งใช้เทคโนโลยีและสื่อดิจิทัลมาเอื้อประโยชน์และอำนวยความสะดวกในการทำงานให้มากที่สุด ซึ่งเทคโนโลยีเหล่านี้นำมาซึ่งการผลิตข้อมูลดิจิทัลจำนวนมากมายมหาศาล เอกสารที่เกิดจากการทำงาน การบันทึกและเก็บข้อมูลบนแผ่นกระดาษ จัดหมวดหมู่ไว้ในแฟ้มเอกสาร เก็บเข้าตู้ ก็เปลี่ยนมาเป็นการสร้างงานบนคอมพิวเตอร์ ออกมาในรูปแบบไฟล์เวิร์ด ภาพดิจิทัล ไฟล์วิดีโอ จัดหมวดหมู่ไว้ในโฟลเดอร์คอมพิวเตอร์ และเก็บเข้าเซิฟเวอร์ขนาดใหญ่

          การเติบโตของข้อมูลดิจิทัล นำไปสู่การเติบโตของคลังข้อมูลดิจิทัลที่เป็นแหล่งค้นคว้าความรู้ โดยเฉพาะในแวดวงวิชาการและการศึกษา ข้อมูลดิจิทัลเหล่านี้มีจำนวนเพิ่มมากขึ้นเรื่อยๆ อย่างมีนัยสำคัญ อย่างไรก็ตาม ข้อมูลที่เพิ่มขึ้นมากมายเหล่านี้ก็ดำรงอยู่บนความเสี่ยงด้วยปัจจัยหลายอย่าง เช่น การล้าสมัยของเทคโนโลยี การเปลี่ยนแปลงของเทคโนโลยีที่ส่งผลต่อการเข้าถึงข้อมูล โครงสร้างพื้นฐานสำหรับการจัดการข้อมูลไม่มีความแน่นอน แหล่งข้อมูลไม่เพียงพอ ขาดแนวทางที่ดีในการปฏิบัติงาน โดยเฉพาะเรื่องการจัดการข้อมูลดิจิทัลเป็นองค์ความรู้ใหม่สำหรับองค์กรที่ทำหน้าที่เป็นคลังข้อมูล เช่น ห้องสมุด หอจดหมายเหตุ และพิพิธภัณฑ์ ด้วยเหตุนี้ ก่อนที่เราจะสร้างข้อมูลขึ้นมากสักชิ้น จนนำไปสู่การเป็นคลังข้อมูลเพื่อการสืบค้น สิ่งที่เราต้องคำนึงถึงเป็นอันดับแรกคือ “การจัดการข้อมูล” หรือที่เรียกว่า data curation

Data curation คืออะไร?

          Data หรือ ข้อมูล (ในที่นี่จะเน้นกล่าวถึงข้อมูลดิจิทัล) หมายถึง ข้อมูลอะไรก็ได้ที่อยู่ในรูปแบบไบนารี (binary form) ประกอบไปด้วย วัสดุดิจิทัล (digital object) ซึ่งมีทั้งแบบที่ไม่ซับซ้อนและซับซ้อน แบบไม่ซับซ้อนคือวัสดุดิจิทัลที่เป็นชิ้นๆ เช่น ไฟล์ภาพ ไฟล์เสียง ไฟล์อักษร รวมถึงองค์ประกอบที่เป็นส่วนขยายข้อมูล เช่น เมทาดาทา (metadata) ส่วนแบบที่ซับซ้อนก็คือ วัสดุดิจิทัลจำนวนหลายๆ ชิ้นที่นำมาประกอบกันเป็นชุดข้อมูลที่มีโครงสร้าง เช่น เวบไซต์ ฐานข้อมูล ส่วนเนื้อหา (content) คือ เรื่องราวที่ถูกสื่อสารออกมาในรูปแบบต่าง ๆ ไม่ว่าจะเป็น ข้อความ รูปภาพ ภาพวาด อินโฟกราฟฟิก (Infographic) ภาพยนตร์ เป็นต้น

          Data curation บ้างก็เรียกว่า digital curation ถูกใช้ทั้งในแวดวงวิทยาศาสตร์และมนุษยศาสตร์ ในบริบทของเทคโนโลยีสารสนเทศ คำนี้มีความหมายแบบเดียวกับคำว่า “การจัดการวงจรชีวิตข้อมูล” Data Lifecycle Management (DLM) กล่าวคือ การจัดการข้อมูลนี้จะเริ่มตั้งแต่กระบวนการก่อนสร้างข้อมูล เมื่อสร้างมาแล้วจะจัดเก็บในระบบไหน รูปแบบของไฟล์เป็นอย่างไร และข้อมูลจะถูกสร้างบนมาตรฐานอะไร มีข้อมูลอื่นๆ ที่เป็นข้อมูลบริบทที่สัมพันธ์กับข้อมูลชุดนั้นหรือไม่ ตลอดจนถึงขั้นตอนการนำเข้าข้อมูล การจัดเก็บเข้าคลังข้อมูลหรือกำจัดข้อมูลที่ล้าสมัยไปแล้ว

          การจัดการข้อมูลนั้น มีวัตถุประสงค์หลักคือ เพื่อสงวนรักษาข้อมูลให้มีอายุยืนยาว ป้องกันการสูญหาย รักษาคุณภาพของข้อมูล และทำให้ข้อมูลสามารถเข้าถึงและนำกลับมาใช้ได้อยู่เสมอ  ตัวอย่างเช่น มีการถ่ายโอนข้อมูลดิจิทัลไปยังสื่อบันทึกใหม่เสมอๆ เนื่องจากอาจเกิดกรณีที่เทคโนโลยีของอุปกรณ์ในการอ่านเปลี่ยนไป คอมพิวเตอร์ที่เคยสามารถอ่านสื่อบันทึกในรุ่นก่อนอาจจะล้าสมัย หรือเริ่มจะไม่มีการผลิตอุปกรณ์ในการอ่านแล้ว จึงต้องมีการถ่ายโอนข้อมูลไปยังสื่อบันทึกที่มีเทคโนโลยีหรืออุปกรณ์ในการอ่านอยู่ในปัจจุบัน กระบวนการจัดการข้อมูลดิจิทัลจะนำไปสู่การเข้าถึงข้อมูลที่มีความต่อเนื่อง รวดเร็ว ช่วยพัฒนาคุณภาพข้อมูลให้เป็นข้อมูลที่เชื่อถือได้ เนื่องจากการจัดการข้อมูลดิจิทัลจะยืนยันให้เห็นว่าข้อมูลชิ้นใดเป็นข้อมูลต้นฉบับ ซึ่งความเป็นต้นฉบับจะมีประโยชน์ในกรณีที่เป็นเอกสารเกี่ยวกับกฎหมาย นอกจากนี้ยังกระตุ้นให้เกิดการแบ่งปันข้อมูลและนำข้อมูลกลับมาใช้ใหม่อยู่เสมอๆ

          กระบวนการจัดการข้อมูลหรือจัดการวงจรชีวิตข้อมูลนั้นมีหลายรูปแบบหรือหลายโมเดล ในทีนี้ขอยกตัวอย่างโมเดลของ The Digital Curation Centre (DCC) ที่เรียกว่า DCC Curation Lifecycle Model[i]  ซึ่งมี 8 กระบวนการหลัก ได้แก่  

 

 

Conceptualise – การวางกรอบแนวคิด

          ประการแรกต้องพัฒนากรอบแนวคิดขั้นตอนการทำงาน (workflow) และกระบวนการจัดการเอกสาร คัดเลือกมาตรฐานข้อมูลที่เหมาะสม หากอนาคตจะมีการแลกเปลี่ยนข้อมูลจะใช้มาตรฐานข้อมูลอะไร ออกแบบการเก็บและสงวนรักษาข้อมูลในรูปแบบที่เป็นมิตรต่อการจัดการ เช่น ใช้ open source ข้อมูลที่ได้รับการจัดเก็บควรมีข้อมูลที่มากเพียงพอที่จะนำมาจัดการและใช้ ระบุเอกสารอย่างระมัดระวัง เลือกสื่อที่เหมาะสมในการจัดเก็บข้อมูล เลือกสถานที่หรือคลังข้อมูลที่เหมาะสมในการเก็บข้อมูล ระบุเครื่องมือหรือวิธีเข้าถึงข้อมูล และระบุกรอบทางด้านกฎหมายในการเข้าถึงและใช้ข้อมูลให้ชัดเจน

Create or receive – การสร้างและรับมอบข้อมูล

          ขั้นต่อมาเป็นขั้นตอนของการพัฒนาและกำหนดนโยบายในการสร้างและรับข้อมูล โดยควรแนะนำให้ผู้สร้างข้อมูลสร้างข้อมูลในสภาพแวดล้อมที่เป็นมิตรกับการจัดการช้อมูล กล่าวคือ มีการกำหนดมาตรฐานในการสร้างข้อมูล มีการให้เมทาดาทา (metadata)[ii] เช่น รูปแบบข้อมูล ประเภทของไฟล์ ซอฟแวร์ที่ใช้ การใช้ แหล่งที่มาของข้อมูล และกระบวนการรับมอบข้อมูล

Appraise and Select – การประเมินและคัดเลือก

          ก่อนการเก็บข้อมูลระยะยาว มีคำถามสำคัญ 2 ข้อ คือ เราจะเก็บข้อมูลไว้นานแค่ไหน และมีความจำเป็นต้องเก็บไว้นานเท่าไหร่ ดังนั้นกระบวนการนี้จึงต้องพัฒนานโยบายในการประเมินและคัดเลือกข้อมูลและปรับใช้เข้ากับกระบวนการทำงาน ควรระบุว่าข้อมูลลักษณะใดที่ควรได้รับการอนุรักษ์ สงวนรักษา และมีระยะเวลาในการรักษาไว้นานเท่าไร ขั้นตอนนี้รวมไปถึงการประเมินและคัดเลือกเนื้อหาที่จะนำเสนอด้วย

Ingest – การนำเข้าข้อมูล

          พัฒนานโยบายเกี่ยวกับการนำเข้าและแนวปฏิบัติในการนำเข้าข้อมูล เช่น ระบุเครื่องมือที่ใช้นำเข้าข้อมูล เตรียมข้อมูลที่ได้รับการประเมินแล้วว่าควรค่าแก่การจัดเก็บ ตรวจสอบว่าข้อมูลมีการให้เมทาดาทาครบถ้วน เหมาะสมหรือไม่ ตรวจทานข้อมูลว่ามีไวรัสหรือไม่ รวมถึงลองใส่ข้อมูลดิจิทัลตัวอย่างเพื่อตรวจสอบว่ามีจุดผิดพลาดในระหว่างโอนถ่ายข้อมูลไปยังคลังข้อมูลหรือไม่

Preservation action – การอนุรักษ์และสงวนรักษา

          กระบวนการนี้ข้อมูลจะได้รับสงวนรักษาในระยะยาวและมีการตรวจสอบการทำงานอย่างเหมาะสม เพื่อให้แน่ใจว่าข้อมูลมีความเป็นของแท้ เชื่อถือได้ และใช้งานได้ กระบวนการนี้จะคอยตรวจสอบความสมบูรณ์ของข้อมูล เช่น มีคำอธิบายข้อมูลครบถ้วนหรือไม่ โครงสร้างข้อมูลหรือรูปแบบของไฟล์ยังได้รับการยอมรับหรือไม่ ข้อมูลยังใช้ได้จริงหรือไม่ ซึ่งวิธีการสงวนรักษาข้อมูลสามารถทำได้โดย อพยพข้อมูลไปสู่แหล่งจัดเก็บที่เหมาะสมและทันสมัย ทำสำเนา นอกจากนี้ยังมีกระบวนการที่เรียกว่าการขุดค้นทางดิจิทัล (Digital archaeology) ซึ่งหมายถึง การกู้ข้อมูลดิจิทัลคืนจากสื่อหรือสื่อบันทึกที่ล้าสมัยแล้ว

Store - การจัดเก็บ

          พัฒนานโยบายเกี่ยวกับการจัดเก็บข้อมูล คัดเลือกสื่อที่มีประสิทธิภาพในการจัดเก็บ มีการตรวจสอบข้อมูลว่ายังใช้งานได้ ข้อมูลได้รับการจัดเก็บพร้อมคำอธิบายที่เป็นมาตรฐาน คัดเลือกคลังเก็บข้อมูลที่เชื่อถือได้ คอยสอดส่องดูแลเพื่อป้องกันข้อมูลจากภัยคุกคามต่างๆ ตรวจสอบความสมบูรณ์ของแหล่งจัดเก็บข้อมูล ตรวจสอบระบบความปลอดภัยด้านกายภาพ เตรียมพร้อมโครงสร้างพื้นฐานอยู่เสมอเพื่อสำหรับทดแทนในกรณีฉุกเฉิน

Access, Use, and Reuse – การเข้าถึง การใช้ และการนำกลับมาใช้ใหม่

          กำหนดเมทาดาทาที่เหมาะสมและมีมาตรฐาน เพื่ออำนวยความสะดวกให้ผู้ใช้เข้าถึงข้อมูลได้ถูกต้องแม่นยำ นอกจากนี้ควรมีการระบุขอบเขตการเข้าถึงและใช้ข้อมูลให้ชัดเจน โดยเฉพาะชุดข้อมูลที่มีกรอบของกฎหมายกำกับอยู่ จัดเตรียมเครื่องมือรองรับการแลกเปลี่ยนข้อมูลที่อาจเกิดขึ้นในอนาคต จัดเตรียมเครื่องมือที่เกี่ยวกับการใช้ข้อมูลและนำข้อมูลกลับมาใช้ใหม่

Transform – การเปลี่ยนแปลง

          ในอนาคตหากมีการเปลี่ยนรูปแบบควรเปลี่ยนไปในรูปแบบไหน ข้อมูลต้นฉบับสามารถถูกสร้างให้เป็นข้อมูลใหม่ได้ โดยสามารถอพยพข้อมูลต้นฉบับไปสู่รูปแบบอื่นๆ ที่แตกต่าง หรือคัดเลือกข้อมูลไปสร้างข้อมูลรูปแบบใหม่ๆ เช่น นำข้อมูลภาพไปทำสื่อสิ่งพิมพ์ หรือนำข้อมูลภาพไปทำนิทรรศการออนไลน์

          ในการสร้างคลังข้อมูลดิจิทัลนั้น การมีข้อมูลครบถ้วน สมบูรณ์ ถูกต้อง เชื่อถือได้นับเป็นเรื่องที่ดี แต่การจัดการข้อมูลที่ดีเป็นเรื่องสำคัญไม่แพ้กัน ทั้งสองสิ่งนี้ทั้งข้อมูลและการจัดการจึงเป็นสิ่งที่ต้องพึ่งพาอาศัยกัน ข้อมูลมากมายมหาศาลจะไม่มีความหมายเลยหากเป็นข้อมูลที่ล้าสมัย ผู้ใช้เข้าถึงไม่ได้ เมื่อไม่มีการนำไปใช้ ก็เท่ากับข้อมูลนั้นกำลังตายไปอย่างช้าๆ กระบวนการจัดการข้อมูลรวมไปถึงการจัดการเนื้อหาจึงต้องอาศัยผู้เชี่ยวชาญและองค์ความรู้ในการจัดการข้อมูล หรือที่เรียกว่านักจัดการข้อมูล (data curator) คราวหน้าเราจะมาทำความรู้จักกันว่า นักจัดการข้อมูลคือใคร มีหน้าที่อะไร และทำไมจึงมีความสำคัญ



[i] อ่านเพิ่มเติม http://www.dcc.ac.uk/resources/curation-lifecycle-model

[ii] เมทาเดตา (metadata) หมายถึง ข้อมูลใช้กำกับและอธิบายข้อมูลหลักหรือกลุ่มของข้อมูลอื่น อ่านเพิ่มเติม http://links.stks.or.th/stksthai/Dublin/metadata.htm