宝玉 Profile picture
May 9 3 tweets 2 min read Twitter logo Read on Twitter
这篇文章大致讲清楚了Embedding和如何借助Embedding做PDF问答,原文翻译如下(略有删改):

向量数据库和Embedding是现在 AI 领域的热门话题。

Pinecone 是一家向量数据库公司,估值约为 10 亿美元,刚刚融资 1 亿美元。Shopify、Brex、Hubspot 等公司都在他们的 AI… twitter.com/i/web/status/1… ImageImageImageImage
推荐看OpenAI的官方文档《Introducing text and code embeddings》的介绍:

openai.com/blog/introduci…

另外还有OpenAI的系列Embedding相关的Cookbook,例如:

github.com/openai/openai-…
另外我以前写的这篇也可以作为一个参考😄

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 宝玉

宝玉 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @dotey

May 6
沉浸式双语翻译插件的技术不复杂,但是最难的部分不是技术,而是针对各个网站写规则做适配,这都是体力活,需要日积月累的一点点叠加更新,并且要保持更新。

所以如果你想做一个,很快就能做一个出来,但大概率你用的时候就会发现各种各样的小问题,想要体验上赶上它需要不少时间!何况它还是免费的!
举几个沉浸式双语翻译插件技术小细节的例子:

它默认只翻译当前页面可见部分的内容,这样可以帮助你减少Tokens的消耗,也可以让当前页面的内容能优先显示出来,这背后需要借助浏览器的IntersectionObserver接口以及针对这个事件的处理。
它对于导航文字这样的短文字是不换行的,减少对布局的破坏,而对于正文段落才是换行的,这背后需要有什么时候该换行什么时候不该换行的判断的逻辑在里面。
Read 6 tweets
May 5
想让Midjourney帮我画一个黛玉葬花的工笔画,试了一堆prompt都不好使,它甚至不认识锄头(hoe) In this scene, Lin Daiyu, a...Lin Daiyu, a graceful and e...ImageImage
这幅画虽然和主题关系不大,但画本身还不错 Image
补一下prompt In this scene, Lin Daiyu, a...
Read 4 tweets
Apr 17
刚测试了一下让GPT4提问的技巧,很实用!
我的prompt:

“请帮我写一篇有关AI对软件工程影响的文章,你在写之前可以先思考怎么写,有需要我补充信息的地方,把问题列出来,我会回答你的问题。” Image
然后GPT-4就给我提了5个问题:

在开始撰写这篇文章之前,请允许我提出一些问题,以便更好地了解您的需求和期望:

1. 您希望这篇文章的主题重点是什么?例如,是否关注AI如何改变软件开发过程,还是如何提高软件工程的效率和质量?
3. 您希望这篇文章的长度是多少?有没有篇幅限制?
3. 有没有特定的技术、工具或案例,您希望我在文章中包含?
4. 您希望文章中包含关于AI对软件工程师的未来影响的讨论吗?
5. 您希望文章的目标读者是谁?比如说是软件工程师、企业决策者还是广泛的受众?

请随时向我提供您的建议和期望,我将尽力满足您的要求。”
Read 4 tweets
Apr 16
1/n 现在基于自然语言和文档进行对话的背后都是使用的基于嵌入的向量搜索。OpenAI在这方面做的很好,它的Cookbook(github.com/openai/openai-… )上有很多案例,最近他们对文档做了一些更新。
2/n GPT擅长回答问题,但是只能回答它以前被训练过的问题,如果是没有训练过的数据,比如一些私有数据或者最新的数据该怎么办呢?

这种情况下通常有两种办法,一种是微调(fine-tuning),一种是嵌入(embedding)。
3/n 微调就是在大模型的数据基础上做二次训练,事先准备好一批prompt-complition(类似于问答Q&A)的数据,生成新的模型,这个模型将会包含微调后的数据。

而嵌入则是每次向ChatGPT发送消息(prompt)的时候,把你自己数据结果带上。
Read 11 tweets
Apr 16
1/n 我解释一下为什么我觉得像WebLLM这样在浏览器中直接运行大语言模型(LLM)的项目是极具意义的。

我们拿ChatGPT、ChatGLM(清华的LLM)和WebLLM三者做一个简单对比:
2/n ChatGPT当然效果最好,但是它是OpenAI所有的,需要联网的,如果你想内网部署或者不能联网,那就没法用它,尤其是像国内,双向被禁了!

ChatGLM和WebLLM都能本机运行,但它们两的差别就像是C/S和B/S的差别。
3/n ChatGLM是本机可以运行的LLM,也能充分发挥机器性能,但是运行它的话,你需要有Python运行环境,下载模型等一系列操作,如果后续模型升级,客户端需要一系列升级操作

作为内部服务器是挺好的,个人用的话,对于专业人士来说除了烦一点也没大问题,但对非专业人士来说是很麻烦的事情
Read 5 tweets
Apr 3
一个集成了LangChain和ChatGPT的GitHub Action,当发现CI错误,会尝试帮助你修改代码自动修复错误。

做Demo挺好的,现阶段用在实际开发环境还是有风险,AI生成的代码还不可控。

视频演示中的测试Repo(不是源码):
github.com/xpluscal/selfh…
原理是:在GitHub里面定义了一个Aciton,如果有CI错误自动触发,将错误信息传给LangChain,找出错误文件,如果找到错误文件名,尝试让GPT去修复,将GPT提供的修复代码给LangChain,并解析出错误代码提交PR。

但我觉得应该不需要LangChain,直接GPT足够了。
它这个演示的Demo其实包含了源码的,请教一下为啥它要用LangChain来解析文件名和解析GPT的输出?直接给GPT不就完了?

github.com/xpluscal/selfh…
Read 5 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(