数据质量管理:数据可靠性与数据质量问题解决之道
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

译者序

在这个数字化飞速发展的时代,我们所生活的社会已经深深沉浸在大数据的潮流之中。无论是社交平台的推荐系统、网络商城的物流调动还是打车软件的司乘匹配,这些为生活提供全方位便利的复杂程序背后,都有海量的数据作为驱动。而2023年火爆全球的基于转换器的生成式预训练模型(Generative Pre-trained Transformer,GPT)等大语言模型(LLM),更是推动“大数据”和“人工智能”走向深度交融。

现在的机器学习软件已经能够实现端对端的数据应用,也就是说,从初始数据的导入到最终结果的输出或生成,都可以全自动完成。这种高度智能的黑箱系统固然十分强大,但其终端结果的可靠性却高度依赖于输入端数据的可靠性。数据科学界有一句俗语:“garbage in,garbage out。”这意味着,无论模型有多么智能和强大,数据的糟糕必然导致结果的谬误。

这也意味着,在确保模型、算法、代码质量的同时,也必须同样重视“数据质量”。随着数据规模不断飞速扩张,仅依赖人工和经验的、打补丁式的数据质量保障措施早已跟不上时代的发展。我们迫切需要的是关于数据质量和数据可靠性的方法论,以及一整套确保数据质量、修复数据故障、自动完成检测及质保的工业化流程。

本书深度剖析了这一关键问题。三位作者从实际工作经验出发,结合资深从业人员的访谈,对“数据可靠性”的基础问题进行了全面而深刻的剖析。令人欣慰的是,这本书不仅包含了相对抽象的概念性介绍,更通过若干真实案例演示了各类数据质量问题的实际解决方法,甚至还提供了代码和图表。作为数据领域的从业人员,在翻译这本书的过程中,我们时常对书中的具体案例颇有共鸣,在读到作者提出的自动化、大规模工业级别解决方案时,也深受启发。

本书由三位译者共同合作完成。其中李晗玥负责第1~5章的内容翻译,步凡负责第6~8章的内容翻译,陈天皓负责第9~10章及其他内容的翻译及全书的统稿工作。作为翻译团队,我们深刻理解这本书的重要性以及其中所蕴含的实践价值。在翻译过程中,我们非常注重保持原著的精髓和思想,确保准确理解书中的领域知识,保持术语的一致性,以提高整本书的可读性和专业性。我们努力让翻译既符合原文的形式,又适应国内广大受众的语言习惯,以保障信息传达的清晰准确。这是一本充满专业术语和技术细节的著作,如果读者已经翻阅了这本书中的某些章节,或许会和我们一样,感受到这本书的信息密度。坦诚地讲,在翻译过程中,我们常常面临找不到对应词汇的挑战,甚至有些技术和知识对于从业人员来说仍然较为新颖。通过查阅大量的资料和团队讨论,我们斟酌用词、反复修改,尽最大的努力还原原意。我们还积极对译稿进行了互相校对,以便让各章节和整体内容的准确性及一致性更有保障。相互间的默契和合作精神是成功翻译本书的关键,每位译者都为项目的顺利进行付出了辛勤努力,我们也深感荣幸并由衷感谢彼此间的协作与支持。在这个充满挑战的翻译过程中,我们分享经验、密切配合、共同成长、彼此启发,携手完成了这项富有意义的任务。

当然,我们深知本书的翻译难免存在瑕疵,因此对于可能存在的不足,我们诚恳地期待读者不吝赐教,提出宝贵的意见和建议,帮助我们进一步提升翻译的质量。

最后,我们由衷感谢出版社、专家老师、编辑以及父母亲友的支持。编辑的耐心指导和专业建议为这本书的翻译提供了宝贵的意见,使其更为准确和通顺。出版社的大力支持使得这本书能够顺利问世,对此我们深表感激。感谢那些愿意分享经验和见解的专家老师,正是他们的慷慨奉献让这本书更具深度和实用性。最后,要特别感谢我们的父母—李健和郑玉华、陈宏和徐彤、步道远和高晓芬——在翻译过程中的理解和坚定支持。此外,还要感谢李晗玥的爱人唐庆烜无论何时都坚定支持她的一切选择,在低谷至暗时期彼此鼓励与依靠,以及陈天皓女朋友查查在每个艰难时刻对他温暖的支持和持久的鼓励,成为他不断前行的力量源泉。他们的陪伴不仅是翻译工作中的温馨庇护,更是每一次艰难时刻的坚实依靠。在这个充满挑战和收获的过程中,是他们的陪伴成就了我们的努力,给予我们勇气与力量,让这段翻译之旅充满温馨和动人的回忆。

有趣的是,我们通过ChatGPT对上述文字进行了巧妙的润色和修饰——就像是在原本美味的料理上轻轻撒上了一些特别的调味料,为这段译者序注入了一份独特的魅力,使它变得更加引人入胜,仿佛一场味蕾的奇妙冒险。

希望这本书能够成为读者深入了解和应用数据质量的得力工具,引领大家走向数据管理与应用的前沿。

李晗玥、陈天皓、步凡