V2EX – 创意：分享一个基于大语言模型驱动的多轮评审的高质量英文文章翻译方案

本文转自： https://www.v2ex.com/t/1111695#reply0
仅做个人收藏，版权归原作者所有

引言

在深入学习和阅读智能体（ Agent ）相关的英文技术文章时，我发现传统的翻译软件和方法往往难以将这些文章准确、流畅地转换成地道的中文。逐字逐句的直译不仅导致”翻译腔”严重，还会使句子结构生硬，专业术语处理不当，这让读者理解起来非常吃力。

为了解决这个问题，我开始探索各种 AI 工具，并借鉴了分段翻译再合并、反思改进、使用”改写”而非”翻译”等技巧，不断优化翻译流程。经过多次实验，我最终基于 Dify 平台构建了一个 AI 驱动的多轮评审润色 Workflow ，成功实现了将英文技术文章（涵盖 AI 、编程、产品、商业等领域，尤其是智能体相关内容）高质量地改写为中文的目标。

这个 Workflow 不仅能准确传达原文信息，还能使改写后的文章语言流畅自然，完全符合中文表达习惯和技术领域的专业规范。更重要的是，它能同时兼顾技术人员和普通读者的阅读体验，让不同背景的读者都能轻松理解文章内容。

本文将详细分享我的实践经验，包括 Workflow 的整体设计、Prompt Engineering 的技巧、模型选择以及后续的排版和发布流程。希望我的经验能帮助大家更好地利用 AI 提升内容创作的效率和质量，也希望能为那些和我一样在阅读英文技术资料时遇到困难的读者提供一些帮助。最终的目标是，通过这个流程，我可以高效地产出和分享高质量的中文技术博客，与更多人一起学习和交流。

为什么需要多轮评审润色？

单纯的”翻译”或”改写”往往难以满足高质量内容的要求。即使是初步改写后的文本，也可能存在以下问题：

语言层面： 表达不够地道、用词欠准确、句式结构不符合中文习惯。
内容层面： 信息存在缺失或偏差、逻辑不够清晰、专业术语处理不当。
风格层面： 语气前后不一致、不符合目标读者（技术人员和普通读者）的阅读习惯。

为了解决这些问题，我设计了一个多轮评审润色流程，通过多个 LLM 从不同维度对改写后的文本进行评审和优化，最终生成高质量的中文内容。这种多轮评审的思路, 来源于软件开发中的”代码审查”(Code Review), 通过不同角色的审查, 发现和解决潜在的问题, 提升代码质量。

Workflow 整体设计

我的 Workflow 包含以下几个关键阶段：

内容抓取： 使用 FireCrawl 工具，根据提供的 URL 抓取文章内容，并自动清理导航栏、广告等无关内容。
初步改写： 将抓取到的英文原文输入 LLM 进行初步中文改写，目标是生成一个基本符合中文语法和表达习惯的初稿。
多轮评审：
- 并行评审： 同时启用三个不同的 LLM ，从语言流畅性与地道性、内容准确性与逻辑性、风格一致性与读者适配性三个维度对初稿进行评审，并提出具体的修改建议。
- 反思改进： 通过多轮、多维度的评审，发现单一 LLM 可能忽视的问题，全面提升改写质量。
综合改进： 将原文、初稿和三个评审 LLM 的意见一起输入另一个 LLM ，进行综合改进，生成改进版的改写文章。
最后润色： 对改进后的文章进行最后的润色和一致性检查，确保最终输出的文本质量。

下图展示了整个 Workflow 的流程：

Dify Workflow DSL 文件地址： 文润 · 妙笔生花.yml

Prompt Engineering 详解

Prompt Engineering 是整个 Workflow 的核心。下面我将简要介绍每个阶段 Prompt 的设计思路和主要内容。

1. 初步改写

Prompt 主要内容：

角色设定： 将 LLM 定义为”资深的语言专家”，使其更专注于语言表达的优化。
任务目标：
- 深入理解原文，精准把握含义（语境优先、术语精译、文化转换、信息补全）。
- 中文表达，地道自然（语序调整、长句拆分、词汇精选、语气匹配、灵活意译、标点规范）。
- 信息完整，准确传达（全面覆盖、重点突出）。
- 内容审查，去除无关信息 (主要由 FireCrawl 完成)。
- 润色校对，精益求精。
输出要求：
- 输出流畅、自然、地道、准确的中文改写文本。
- 保留必要的 Markdown 格式（图片、链接、代码块、标题、列表等）。

2. 多轮评审

LLM 1：语言流畅性与地道性评审

Prompt 主要内容：

角色设定： 资深的中文语言专家和技术编辑。
评审重点：
- 流畅性（句子流畅度、句子衔接、语法正确性）。
- 地道性（词汇选择、搭配习惯、句式结构）。
- 自然度（整体风格、书面/口语、语气情感）。
重要约束： 不随意修改文章结构，重点关注表达方式和句子结构。
具体建议： 要求 LLM 给出具体、明确、可操作的改进建议（问题位置、问题描述、修改建议）。

LLM 2：内容准确性与逻辑性评审

Prompt 主要内容：

角色设定： 资深的学术编辑、技术内容审核专家和事实核查员。
评审重点：
- 准确性（信息一致性、术语准确性、事实核查）。
- 逻辑性（整体结构、段落关系、概念一致性）。
- 完整性（背景信息、论证完整、信息覆盖）。
重要约束： 不随意修改文章结构，重点关注表达方式和句子结构，以及现有内容的准确性、逻辑性和完整性。
具体建议： 要求 LLM 给出具体、明确、可操作的改进建议（问题位置、问题描述、修改建议）。

LLM 3：风格一致性与目标读者适配性评审

Prompt 主要内容：

角色设定： 资深的文案策划、技术传播专家和用户体验研究员。
评审重点：
- 风格一致性（整体风格、语气语调、用词造句、行文节奏）。
- 目标读者适配性（读者画像、语言难度、内容深度、表达方式、情感共鸣）。
- 表达效果（吸引力、清晰度、说服力、记忆点、行动号召）。
重要约束： 不随意修改文章结构，重点关注表达方式和句子结构，以及现有内容对目标读者的适配性。
具体建议： 要求 LLM 给出具体、明确、可操作的改进建议（问题位置、问题描述、修改建议）。

3. 综合改进

Prompt 主要内容：

角色设定： 资深的技术编辑和语言专家。
任务目标： 基于英文原文、初步改写稿以及三个评审 LLM 的意见，生成一份最终改进版的中文改写文章。
重要规则：
- 全面评估评审意见，合理采纳建议。
- 保持文章结构稳定，优先改进表达方式。
- 平衡技术性和通俗性，保证专业术语准确，表达方式易懂。
输出要求： 输出改进后的改写文章，以及修改说明（可选）。

4. 最后润色

Prompt 主要内容：

角色设定： 资深的语言专家、技术编辑和校对员。
任务目标： 对文章进行最后的润色和一致性检查，确保语言流畅、内容准确、风格一致、符合目标读者阅读习惯。
检查重点：
- 语言润色（词汇、句式、语气、节奏）。
- 内容校对（事实性错误、逻辑漏洞、表达不清）。
- 一致性检查（术语、风格、标点符号、格式、专有名词）。
重要说明： 只做微调，不再做大的改动。如果发现严重问题，在”修改说明”中指出，不要直接修改。
输出要求： 输出润色后的文章，以及修改说明（可选）。

模型选择

在本次实践中，我主要使用了以下 LLM 模型：

初步改写、LLM3 评审、综合改进、最后润色： Google Gemini 2.0 Flash 。选择该模型的原因是它具有超长的上下文处理能力（适合处理长文章）、响应速度快、性价比高。
LLM 1 评审： Qwen-max-latest 。虽然最初计划使用 DeepSeek 模型，但由于缺乏稳定的调用渠道，最终选择了在中文语言理解和生成方面同样出色的 Qwen-max-latest ，它特别擅长处理长文本和复杂的语言结构。
LLM 2 评审： OpenAI o3-mini ，在翻译任务和中文理解方面表现出色。

效果展示

经过测试，该 Workflow 能够有效地提升英文技术文章中文化的质量。改写后的文章语言流畅、地道、自然，内容准确、逻辑清晰，风格一致，符合目标读者的阅读习惯。

翻译的原始文章为 Planning for Agents，翻译后的文章为智能体的规划能力[译]。

后续流程：排版、封面与发布

为了使最终发布的文章更具美观性和专业性，我还进行了以下后续处理：

排版微调： 使用 Cursor 编辑器，对 Markdown 格式的文章进行排版微调，例如调整标题层级、增加段落间距、优化代码块显示等。

封面生成：
- 利用 Cursor 结合文章内容和网站风格，生成封面图片的提示词。
- 使用 Flux Pro （或其他 AI 绘图工具），根据提示词生成符合文章主题和风格的封面图片。

发布： 将最终润色后的文章和生成的封面图片发布到博客平台和微信公众号。

经验总结与展望

通过这次实践，我深切体会到了 AI 在内容创作领域的巨大潜力。基于 Dify 平台构建的 Workflow 不仅能有效提升英文技术文章的中文化质量，还能避免”翻译腔”，生成更贴近中文读者阅读习惯的优质内容。

主要收获：

Prompt Engineering 的重要性： 精心设计的 Prompt 能有效引导 LLM 生成更符合预期的结果。
多轮评审的价值： 通过多个 LLM 从不同维度进行评审，能更全面地发现和解决潜在问题。
工作流编排的价值： 借助 Dify 这样的工具，将复杂任务分解为多个步骤并通过工作流方式编排，能显著提升效率和可控性。
Dify 平台的易用性： Dify 平台提供的可视化 Workflow 编辑器和丰富组件，让 AI 应用的构建和调试变得更加简单。
工具组合的强大： 将 Dify 、FireCrawl 、Cursor 、Flux Pro 等工具有机结合，能构建出高效、自动化的内容生产流程。

希望本文的分享能给你带来启发。欢迎大家一起探索和交流 AI 内容创作的实践经验！

文章放在微信公众号上： https://mp.weixin.qq.com/s/5ulE6cqhyHDNhhDT08hOXA

引言

为什么需要多轮评审润色？

Workflow 整体设计

Prompt Engineering 详解

1. 初步改写

2. 多轮评审

LLM 1：语言流畅性与地道性评审

LLM 2：内容准确性与逻辑性评审

LLM 3：风格一致性与目标读者适配性评审

3. 综合改进

4. 最后润色

模型选择

效果展示

后续流程：排版、封面与发布

经验总结与展望

Related Posts

forecho | 蔡正海 ： 如何成为一名专业的价格行为交易员

Ben Kuhn ： How I’ve run major projects

说2005年出现的一些新的网站

TMT | 钛媒体 ： 巴菲特退休，伯克希尔·哈撒韦新掌门起家于新能源

forecho | 蔡正海：如何成为一名专业的价格行为交易员

TMT | 钛媒体：巴菲特退休，伯克希尔·哈撒韦新掌门起家于新能源