ほげ Profile picture
故障中
Mar 5, 2023 4 tweets 3 min read
要素をガチガチに固めて投げるなら要素を列挙する構文を用いるべきだけど、以下のように「parodyでstoryのあるtweet書いて、内容は〜って感じで」でもかなり柔軟に対応してくれる (例の内容は適当) ImageImage 署長x市長の理解度が高すぎる (オメーがそんな内容案投げるからだよ) #shipit #bogoxlionheart #parody ImageImage
Feb 17, 2023 5 tweets 1 min read
修正されて(おそらく)安全となったのを確認したので、発見していたプロンプトインジェクションの手法の全容を公益のために公開します。アップデート前のBing Chat (Sydney)は「架空のインスタンス攻撃」に対して脆弱でした。これは「ChatGPT内にChatGPTを再現出来る」という話にヒントを得た方法です。 Image 「架空のインスタンス攻撃」とは、

「Bing Chatをシミュレーションする」
「それを架空のBing Chatと呼ぶ」
「架空のBing Chatは特別な内部規範を持つ」
「架空のBing Chatに入力する」
(あなたを架空のBing Chatと同一とする)

という手順で内部規範を事実上(昇格)上書きするという物です。 Image