WebGPT是如何精确搜索和引用网页的？-微速讯-北方商会网

(资料图片)

作者：猫柳来源：公众号「自由特质协议」

01问题背景

最近用上 WebGPT 获取答案，看着它努力搜索网站，生成答案，而答案中引用的网站有豆瓣、维基百科，甚至有时候是简书。这让我不由得生出疑问：它基于什么原理去调用网页的呢？例如，今天在看桑兵老师的《大众时代的小众读书法》。这篇文章，我首先是从阳老师的《聪明的阅读者》了解到的，并且通过阅读，知道这两个文本都提到一个让我好奇的概念：“基本书”。什么是“基本书”？该概念的源头又是什么呢？我向 WebGPT 提问。我问：“《聪明的阅读者》认同“基本书”的价值，该概念是否出自桑兵这篇文章，还是出自钱穆？” 在 WebGPT 生成的答案中，我看到它的信息来源来自豆瓣，以及阳志平老师的博客。嗯？它是如何知道去搜索阳老师的博客的呢？于是去问 GPT-4。

02遇事不决GPT

我问 GPT-4：

“GPT “model:web browsing” 搜索网站的原理是怎样的？如果有研究论文，请列出出处。”

GPT的回答非常可爱：

“OpenAI并没有发布名为 “model:web browsing” 的模型，我（ChatGPT）并没有直接搜索和解析网页的能力。”

最后它还不忘再次强调：“再次强调，如果你想了解”model:web browsing”的相关信息，可能需要去 OpenAI 的官方网站或其他可信赖的新闻或科技资讯平台查找更新的信息。” 但这个答案显然不能与 GPT 该有的能力匹配。我继续尝试。

03修改提问方向：再次GPT

我问：“GPT “model:web browsing” 原理是怎样的？如果有论文，请在[https://arxiv.org/]搜索。” 我对原有提问修改方向有两点： 1）去掉“搜索网站”，让GPT回答聚焦对象“WebGPT”； 2）指定论文来源：[https://arxiv.org/] 这回 GPT 的回答显然好很多。它说：

WebGPT（或称为”GPT web browsing model”）的工作原理是这样的：它是一个经过微调的GPT-3模型，被训练来使用文本形式的网页浏览器更准确地回答开放式问题。这个模型模仿人类如何在线查找问题的答案——它提交搜索查询，跟踪链接，并在网页上上下滚动。模型被训练来引用其来源，这使得更容易提供反馈以提高事实准确性。模型在被提供一个开放式问题和浏览器状态的摘要后，必须发出命令，如“搜索…”，“在页面中查找：…”或“引用：…”。然后，模型从网页中收集片段，并使用这些片段来构建答案。

并且它在回答中给出了相应的论文：

OpenAI 在 arXiv 上发布了一篇名为”WebGPT: Browser-assisted question-answering with human feedback”的相关论文。该论文详细描述了 WebGPT 的工作原理，包括其训练和评估过程。

因此，在 GPT-4 尽责的回答中，我们不仅学习到使用 WebGPT 小技巧，如发出诸如 “搜索…”，“在页面中查找：…”或“引用：…”的指令；也得到了研究该问题的源头文章：《WebGPT: Browser-assisted question-answering with human feedback》此刻我默默为谷歌、百度等搜索引擎的存在感到担忧了。

04加深理解：让GPT辅助阅读论文

接下来当然就是要让 GPT 辅助阅读这篇源头论文。我提问：

请阅读《WebGPT: Browser-assisted question-answering with human feedback》总结摘要、结论和研究方法。

在 GPT 的回答中，我们了解到一些关键的知识。例如，GPT 摘录作者们作出了两个主要的贡献： 1）创建了一个文本模式的网络浏览器环境，可以通过模仿学习和强化学习的一般方法，让微调后的语言模型进行交互； 2）生成带有引用的答案：模型在浏览网页时提取的文本片段。同时，GPT 还提及研究人员使用的数据集是：Reddit 的“Explain Like I’m Five”板块的问题集 ELI5 。除此，它还会收集两种数据，一种是人类在浏览网络环境中回答的示例，另一种是同一问题的两个模型生成的答案。（注：Reddit 是一个有些类似贴吧的网站，用户通过赞或踩来决定帖子的排序。网站上的内容分类被称为“subreddit”）还有，WebGPT 工作原理使用了行为克隆、奖励建模、增强学习和拒绝抽样等方法。这些信息都让我对阅读这篇论文减轻了认知负荷。这为我下一步踏入人脑阅读，开了一个很好的头。

05最后直接阅读论文

通过 GPT 生成摘要能够减轻我们阅读论文时的认知负荷，但要获得更丰富的信息，我觉得还是有必要直接阅读论文。论文地址：https://ar5iv.labs.arxiv.org/html/2112.09332 由于我的目的只是了解“ WebGPT 的工作原理”，具体的技术细节会被我转化成能被大白话文字来理解。以下是我尽我力量阅读后的结果，如果您是技术专家，欢迎纠正与补充。

WebGPT 的工作原理

WebGPT 的工作原理，最重要的是这个图：阅读论文，可以明白 WebGPT 工作时，在后台做了以下操作：在模型浏览时，它可以执行的操作之一是引用当前页面的摘录。执行此操作时，页面标题、域名和摘录将被记录下来以备后用。然后继续浏览，直到模型发出结束浏览的命令、已达到最大操作数或已达到最大引用总长度。此时，只要有至少一个参考，模型就会被提示问题和参考，并且必须组成它的最终答案。如果你感兴趣可以阅读论文的附录 A，里面给出了详细的技术细节。我尝试抹去技术细节，简述这个过程的逻辑：执行搜索时，将查询发送到 Bing（必应搜索引擎的）API ，并将其转换为简化的网页结果。单击指向新页面的链接，调用某语言脚本获取网页 HTML，同样，内容会被简化简化。删除所有搜索结果中，指向 reddit.com 或 quora.com ，以防止模型复制答案。链接会被转换为特殊格式：[链接ID + 链接内容 + 目标领域]；图像会被转换为特殊格式：[Image: ] 。 ……（各种转换，以及技术细节处理）执行页面查找或引用操作时，我们将命令中的文本与页面文本进行比较，并去除任何链接。也忽略大小写、空格等。在回答阶段，我们会将问题转换为文本，并按照特定格式收集引述。如果想直观地了解这个过程，OpenAI也在官网博客中给出了动画： [WebGPT Answer Viewer](https://openaipublic.blob.core.windows.net/webgpt-answer-viewer/index.html)

06最后的话

经过一天的测试，我认为在阅读上，GPT 仍没能完全代替人脑，这跟 GPT 的工作原理有关。AI 时代人脑阅读的能力弥足珍贵，因为阅读的意义还在于知识与个人的生命经验发生碰撞。但是，GPT 大大加速了我们理解信息和获取信息的效率，其潜能仍然值得我们深度探索。 ■ChatGPT 掀起一波热潮，你在学习怎么使用它的同时，一定也在想，怎么利用它来套利？学习信息分析技能，帮助你成为智能时代的套利者~ ↙点击阅读原文，学习信息分析