Latest Twitter Threads by @seclink on Thread Reader App

May 31, 2024 • 4 tweets • 1 min read

OpenAI分享他们在RAG技术的最佳实践：

客户需求：他们有大量文档（比如10万份），希望模型只基于这些文档进行知识检索。

解决方案：
1. 直接将PDF和docx文件嵌入，准确率是45%。

2. 经过20次调优迭代，解决细节小Bug - 准确率到65%

3. 基于规则进行优化，譬如先判断问题属于什么领域（退一步思考），然后再回答，效果提升到85%

4. 发现数据里有一些是结构化数据（如表格），为此定制提取解决，准确率提升到98%。

视频地址：

OpenAI分享他们在RAG技术的最佳实践 - 2：

客户需求：文本生成SQL（利用自然语言问题和数据库模式生成语法正确的SQL查询，比如给定一个数据库模式和一个问题，能否生成相应的SQL查询）。

解决方案：
1. 首先，我们用最简单的方法，比如余弦相似性，寻找类似问题的SQL查询，进行问题相似性搜索。

我们测试了不同的嵌入和提示工程，但结果不太好。

后来，我们意识到不同的数据库模式对问题的答案可能完全不同。

2. 所以针对一个问题进行相似性搜索意义不大，但用预设答案进行搜索可能效果更好。

我们使用预设的文档嵌入，生成一个假设的SQL查询进行相似性搜索，性能大大提升。

对于这个特定问题，我们尝试了上下文检索，通过简单过滤将问题按难度排名，只带回同等难度的例子，这带来了改进。

我们还尝试了一些先进技术，比如链式推理，让系统识别列、表，最后构建查询。

但我们决定采用更简单的方法进行自我一致性检查，让系统构建查询并运行，出错时给出提示，再次尝试。

3. 我们从69%开始，然后添加了一些示例，得到了几个改进点，这表明RAG可以进一步改进。

我们尝试这个问题，看到性能提升了3%，然后使用答案，假设的文档嵌入使我们进一步提升了5%。

4. 我们决定试试微调，看能否更进一步。先建立了我们的基线，与上一张幻灯片里的69%基线一样，使用简单的提示工程技术。

然后，用简单的提示工程对GBT 4进行微调，结果模型准确率提升到接近82%。

再稍微调整模型使用um rag技术，把一些示例动态注入上下文窗口，准确率达到83.5%。

这些都很简单，没有复杂的数据预处理或后处理。

结果显示简单的微调和提示工程也能接近最先进的技术。

Apr 8, 2024 • 7 tweets • 1 min read

1/n 有没有发现，我们的很多行为模式，都在反复踏入心理学/社会学家总结出来的概念巢穴。
我们都是一些基因预设好、随时犯同样错误的可怜人。
这里随便举几个例子。

简单化归因(Causal Reductionism)：
事情的发生基本上不会只有一个原因，往往是许多原因共同作用的结果。但我们的大脑无法处理复杂的信息，因此我们一般喜欢将结果归因于单一原因，把因果关系简化为一条容易理解的线索。显然这种做法就把事物复杂的本来面目给简单化了。 2/n 邓宁-克鲁格效应(Dunning-Kruger Effect)：
能力欠缺的人做出错误的结论和决定，但无法正确认识到自身的不足，辨别错误行为。这是一种认知偏差。

能力欠缺者们沉浸在自我营造的虚幻优势中，常常高估自己，无法客观评价他人的能力。
简单的说，愚蠢的人无法意识到自己有多愚蠢。

Share this page!

Enter URL or ID to Unroll