Thread Reader
Share this page!
×
Post
Share
Email
Enter URL or ID to Unroll
×
Unroll Thread
You can paste full URL like: https://x.com/threadreaderapp/status/1644127596119195649
or just the ID like: 1644127596119195649
How to get URL link on X (Twitter) App
On the Twitter thread, click on
or
icon on the bottom
Click again on
or
Share Via icon
Click on
Copy Link to Tweet
Paste it above and click "Unroll Thread"!
More info at
Twitter Help
Y11
@seclink
Im a Hacker , and sharing my understanding of AI and GPT. ---- 关注 创业(冷启动)|AI , AIGC |XR:空间计算 | 安全技术|RAG | 认知心理学|智能体
Subscribe
Save as PDF
May 31, 2024
•
4 tweets
•
1 min read
OpenAI分享他们在RAG技术的最佳实践:
客户需求:他们有大量文档(比如10万份),希望模型只基于这些文档进行知识检索。
解决方案:
1.
直接将PDF和docx文件嵌入,准确率是45%。
2.
经过20次调优迭代,解决细节小Bug - 准确率到65%
3.
基于规则进行优化,譬如先判断问题属于什么领域(退一步思考),然后再回答,效果提升到85%
4.
发现数据里有一些是结构化数据(如表格),为此定制提取解决,准确率提升到98%。
视频地址:
OpenAI分享他们在RAG技术的最佳实践 - 2:
客户需求:文本生成SQL(利用自然语言问题和数据库模式生成语法正确的SQL查询,比如给定一个数据库模式和一个问题,能否生成相应的SQL查询)。
解决方案:
1.
首先,我们用最简单的方法,比如余弦相似性,寻找类似问题的SQL查询,进行问题相似性搜索。
我们测试了不同的嵌入和提示工程,但结果不太好。
后来,我们意识到不同的数据库模式对问题的答案可能完全不同。
2.
所以针对一个问题进行相似性搜索意义不大,但用预设答案进行搜索可能效果更好。
我们使用预设的文档嵌入,生成一个假设的SQL查询进行相似性搜索,性能大大提升。
对于这个特定问题,我们尝试了上下文检索,通过简单过滤将问题按难度排名,只带回同等难度的例子,这带来了改进。
我们还尝试了一些先进技术,比如链式推理,让系统识别列、表,最后构建查询。
但我们决定采用更简单的方法进行自我一致性检查,让系统构建查询并运行,出错时给出提示,再次尝试。
3.
我们从69%开始,然后添加了一些示例,得到了几个改进点,这表明RAG可以进一步改进。
我们尝试这个问题,看到性能提升了3%,然后使用答案,假设的文档嵌入使我们进一步提升了5%。
4.
我们决定试试微调,看能否更进一步。先建立了我们的基线,与上一张幻灯片里的69%基线一样,使用简单的提示工程技术。
然后,用简单的提示工程对GBT 4进行微调,结果模型准确率提升到接近82%。
再稍微调整模型使用um rag技术,把一些示例动态注入上下文窗口,准确率达到83.5%。
这些都很简单,没有复杂的数据预处理或后处理。
结果显示简单的微调和提示工程也能接近最先进的技术。
Save as PDF
Apr 8, 2024
•
7 tweets
•
1 min read
1/n
有没有发现,我们的很多行为模式,都在反复踏入心理学/社会学家总结出来的概念巢穴。
我们都是一些基因预设好、随时犯同样错误的可怜人。
这里随便举几个例子。
简单化归因(Causal Reductionism):
事情的发生基本上不会只有一个原因,往往是许多原因共同作用的结果。但我们的大脑无法处理复杂的信息,因此我们一般喜欢将结果归因于单一原因,把因果关系简化为一条容易理解的线索。显然这种做法就把事物复杂的本来面目给简单化了。
2/n
邓宁-克鲁格效应(Dunning-Kruger Effect):
能力欠缺的人做出错误的结论和决定,但无法正确认识到自身的不足,辨别错误行为。这是一种认知偏差。
能力欠缺者们沉浸在自我营造的虚幻优势中,常常高估自己,无法客观评价他人的能力。
简单的说,愚蠢的人无法意识到自己有多愚蠢。