Linearização: O LuraPDF usa a biblioteca pdf-lib para escrever um novo fluxo de bytes PDF com os objetos da primeira página no início do arquivo, seguido por um dicionário de linearização que fornece aos leitores de download progressivo um mapa para o restante do conteúdo. Isso não altera o conteúdo do PDF — altera a ordem em que os bytes são dispostos no disco, permitindo a renderização parcial antes da conclusão do download completo. Deduplicação: O mecanismo calcula um hash de conteúdo para cada XObject de imagem incorporada. Objetos com hashes correspondentes são consolidados — a primeira instância é mantida e cada referência subsequente no fluxo de conteúdo da página é reescrita para apontar para o mesmo objeto compartilhado. A economia é proporcional ao número de vezes que uma determinada imagem foi incorporada separadamente.
Subconjunto de fontes: Para cada fonte incorporada, o LuraPDF analisa quais pontos de código Unicode são realmente referenciados nos fluxos de texto do documento. Em seguida, reconstrói a tabela de glifos da fonte para conter apenas esses pontos de código, descartando o restante do conjunto de caracteres. Para fontes CJK (chinês, japonês e coreano) que incorporam milhares de glifos em documentos que usam apenas algumas centenas, a redução de tamanho é drástica. Remoção de objetos não utilizados: Após a desduplicação e o subconjunto, o mecanismo percorre a tabela de referências cruzadas do PDF e marca todos os objetos acessíveis a partir do catálogo do documento. Objetos inacessíveis — páginas excluídas, campos de formulário removidos, snapshots de revisões antigas — são excluídos da tabela de referências cruzadas do novo arquivo, removendo-os efetivamente da saída.