注重隐私的人士——公开分享前请删除姓名
公开上传PDF文件(例如简历、社区文档或论坛附件)时,您的全名和计算机用户名会被嵌入到文件属性中。如果您不希望文件上显示您的个人信息,请在上传前删除文件属性中的Info和XMP信息。
当你分享PDF文件时,你可能分享的远不止是可见的内容。文件中嵌入了一些你从未主动填写过的字段:你的姓名(来自你的操作系统用户帐户)、你使用的应用程序及其版本号、文档的创建和修改的确切日期和时间,以及在某些情况下,文档经历了多少次修订。如果是与朋友分享的个人文档,这无伤大雅。但如果是投标书、匿名举报、法庭文件或受GDPR保护的敏感文档,对外分享时,这些信息的泄露就成了真正的问题。
容易被忽视的复杂之处在于,PDF 文件包含两层元数据:所有阅读器都能访问的传统 Info 字典,以及现代工具嵌入的更详细的 XMP 数据包。大多数在线元数据清除工具只会清除 Info 字典(可在“文件”>“属性”中查看),而完全保留 XMP 数据包。任何运行 exiftool 或打开 Acrobat 的“高级元数据”面板查看“已清理”PDF 文件的人都会看到完整的元数据。LuraPDF 可以直接在浏览器中清除这两层元数据,无需将文件发送到任何服务器。
元数据移除并非安全研究人员的专属职责。以下列举六个真实的专业场景,在这些场景中,意外泄露的元数据会造成切实的风险。
公开上传PDF文件(例如简历、社区文档或论坛附件)时,您的全名和计算机用户名会被嵌入到文件属性中。如果您不希望文件上显示您的个人信息,请在上传前删除文件属性中的Info和XMP信息。
提交给法院的PDF文件,如果包含律师事务所元数据、律师姓名和内部文档管理系统标签,则可能被公开。提交前务必清理元数据层,以控制对方当事人及公共记录中关于您工作流程和人员的信息。
泄露或敏感的PDF文档会携带所有经手者的元数据。记者在发表前清理文档,或者消息来源在泄露信息前清理信息,都需要同时清除Info和XMP元数据。XMP数据包通常包含Info工具完全无法识别的字段。
发送给客户、合作伙伴或用于公开招标的PDF文件通常会泄露文件的创建软件、内部创建者姓名和修改历史。为了确保文件呈现专业且符合品牌规范的形象,请在对外发布前清除内部元数据。
盲选流程要求评估人员只能看到文档内容,而不能看到文档的创建者或编辑者。在将评分表和评估表分发给评审小组成员之前,请移除其中的作者、创建者和修改时间戳。
根据信息自由法案公开的文件可能包含嵌入式元数据,揭示内部作者身份、系统名称和编辑历史等信息,而这些信息超出了传统编辑工具的处理范围。完整的元数据清理(包括 Info 和 XMP 格式)是发布前完善的清理工作流程的一部分。
大多数工具只能完成一半的工作。以下是为什么要真正有效地删除元数据,需要清除两层数据的原因。
Info 字典是一个字典对象,存储在 PDF 文件的尾部(PDF 阅读器首先解析的文件末尾部分)。它包含以下标准字段:标题 (Title)、作者 (Author)、主题 (Subject)、关键词 (Keywords)、创建者 (Creator)、制作者 (Producer)、创建日期 (CreationDate) 和修改日期 (ModDate)。LuraPDF 使用 pdf-lib 直接访问此尾部字典,清除选定的键,并写入一个更新或删除了该字典的新 PDF 文件。这相当于标准 PDF 阅读器中“文件”>“属性”选项卡所显示的层。
XMP 数据包更为复杂:它是一个嵌入在 PDF 中的流对象,其中包含一个遵循可扩展元数据平台 (EMP) 规范的 XML 文档。LuraPDF 会遍历 PDF 的对象树以找到元数据流,解析 XMP XML,并移除或替换所有相关命名空间中的字段,包括 Dublin Core 命名空间(dc:creator、dc:title、dc:description)、PDF 命名空间(pdf:Author、pdf:Keywords)以及 XMPRights。由 InDesign 或 Acrobat 等工具添加的自定义应用程序命名空间也会被清除。最终生成的 PDF 文档的两个元数据层都已清理干净。
| 特征 | LuraPDF | Sejda / ilovepdf | Adobe Acrobat |
|---|---|---|---|
| 清除信息字典字段 | 是的——所有字段 | 是的 | 是的 |
| 清除 XMP 元数据包 | 是的——所有命名空间 | 部分——通常仅供参考 | 是的 |
| 在浏览器中处理文件(无需上传) | 是的——完全本地化 | 否——需要服务器上传 | 是的——已安装软件 |
| 免费无水印 | 是的——永远免费 | 有限功能——付费即可享受全部功能 | 付费订阅 |
删除元数据很简单——但养成一些习惯可以确保不会遗漏任何信息,尤其是在专业或敏感环境中。
分享前请移除元数据,不要在分享后移除——一旦接收者获得了带有元数据的文件,你就无法撤销他们已经查看或缓存的内容。
结合使用 Redact PDF 进行完整的文档清理——元数据移除功能可清除文件属性;编辑功能可从可见页面中移除敏感内容。
在专业语境中设置替换值——“匿名”作者和“文档编辑”创建者看起来是刻意为之;空白字段在经验丰富的审阅者看来可能是人为修改过的。
之后使用 exiftool 或 Acrobat 进行验证——打开清理后的 PDF 文件,运行 exiftool,并确认 Info 和 XMP 部分都只显示您想要保留的内容。
每次编辑后都要重新清理——像 Acrobat、Word(另存为 PDF)和 LibreOffice 这样的 PDF 编辑器每次保存都会重新添加元数据;每次修订周期结束后都要再次运行删除操作。
配合 Flatten PDF 工具使用,可以移除注释作者元数据——扁平化操作会将注释转换为静态内容,从而移除文档级元数据移除功能无法触及的注释作者字段。
上传您的 PDF 文件,检查其中嵌入的内容,并删除不应共享的字段。信息字典和 XMP 数据包——均已在您的浏览器中清除,无需上传任何内容。无需帐户,也无水印。