Latest Twitter Threads by @mahler83 on Thread Reader App

Nov 24 • 6 tweets • 2 min read

코드 하나 짤 거 있어서 계획을 ChatGPT에게 주고 help me develop this idea라고 했는데, 내가 실제로 참고했던 논문을 언급하네? 겁나 똑똑하군... (메모리 기능 다 꺼놓고 사용 중) 저 논문 보고 한계를 극복할 수 있는 아이디어를 좀 적어본 건데, 신기하다

연구계획 정교화하고 코드로 구현할 계획 짜는데 gpt-5.1-Thinking이 gemini-3-pro-thinking보다 나아보이는데.. 내가 적절한 프롬프팅을 못해서 제미나이한테 샌드배깅 당하고 있는 걸지도

Nov 24 • 4 tweets • 2 min read

어제 논문 찾다가 Scholar Labs라는 게 새로 생겼길래 한 번 테스트해보는 중. 일단 첫 인상은 평범한 자연어 검색인 듯?
scholar.google.com/scholar_labs/s…

일부 유저에게 11/18부터 제한적으로 공개하고 있는 듯. 소개글에는 (1) 질문의 요지를 파악해 검색 잘 하고, (2) 후속 질문을 하는 식으로 활용할 수 있다고 언급됨
scholar.googleblog.com/2025/11/schola…

Nov 18 • 4 tweets • 1 min read

구글에서 일기예보 AI모델 WeatherNext 2를 발표. 올초에 이전 버전이 나온걸로 기억하는데, 8배 빨라지고 다양한 시나리오를 한꺼번에 시뮬레이션해서 결과를 낸다고. Weather API에서 사용 가능

https://twitter.com/GoogleDeepMind/status/1990435105408418253

학습에 각 지점에서의 local marginal loss를 사용했지만, 전지구적 구조를 가지는 low dimensional global noise를 갖도록 제한했음. 결과적으로 joint term을 학습하지 않아도 global-scale joint skill(전지구적 상관관계가 있는 variability)이 emergent하게 나타남

Oct 30 • 5 tweets • 2 min read

재미있는 Anthropic의 연구. 신경망의 활성화 패턴이 어떤 사고 패턴(추상적, 구체적 모두)을 반영하는 것을 계속 보여오고 있었는데, "텍스트 입력과 내부 activation state를 구분해 이해하는 것이 가능함"을 보인 것. 의인화하자면 소리내서 말하는 것과 머릿속으로 생각하는 것이 각각 가능함! #논문 concept injection(특정 벡터 방향으로 내부 활성을 편향시키는 것)을 한 뒤 무슨 생각이 드냐고 물어봤을 때 해당 내용을 1/5 정도에서 인식하고 언어로 표현 가능했음

Oct 24 • 6 tweets • 2 min read

내과 모 분과 교수님으로부터 7개국 모 질환 guideline을 LLM을 이용해 체계적으로 비교대조하는 것이 가능한지 문의가 들어왔다. 오오오.... 뭔가 뇌고랑 사이가 간질간질한 숙제를 던져주셨네. 머리 쥐어뜯으며 고민하는 중 체계적이라면 어떤 종류의 가이드라인을 주더라도, 누가 하더라도, 반복수행을 했을 때 거의 유사한 객관적 결과가 나와야 하는 건데. 비교를 한다는 것은 하나의 문서를 여러 axes로 decompose해서 각 axis별로 서로 비교분석하는 것일거고. 즉 분석한 axes를 담은 schema부터 체계적으로 만들어야 함

Oct 18 • 4 tweets • 1 min read

잘 작동하는 것 같던 iptime A3004NS-M 무선공유기가 SSID는 보이는데 접속은 안 되는 현상이 나타나서 AX3000Q로 교체했다. T5004가 DCP를 담당하고, 무선공유기는 DCP를 꺼놓고 쓰는 구성. IoT 기기들이 5GHz에는 안 붙어서 2.4GHz만 11ax(wifi6)모드로 켜놓고 사용

https://twitter.com/mahler83/status/1978948002544001180

매번 설정법을 까먹어서 순서 메모... 이번에도 꼬여서 재설정 두 번이나 함 ㅜㅜ
- 어드민계정설정
- 5GHz 끄고 2.4GHz SSID/비번 설정
- 인터넷은 DHCP로 그대로 놔둠
- 내부네트워크 IP 대역대 맞추고 끝자리 변경
- DNS 끄기
- LAN포트에 CAT케이블 꽂기(미리 꽂지 않기)

Oct 17 • 6 tweets • 1 min read

클로드에 "Skills"라는 기능이 생겼다. 살펴보니 "Code execution and file creation" 기능과 조합해 사용하는 용도인 것 같다. 특정 작업의 디자인이나 작업방식에 대한 가이드나 참고자료를 미리 작성해서 업로드 해두면, 알아서 그걸 참고해 작업에 활용하는 듯. 일관성 있는 결과물 생성 가능

https://twitter.com/claudeai/status/1978855432123723909

ChatGPT에는 custom GPTs, Gemini에는 Gems가 있었는데, Claude에는 마땅히 비슷한 기능이 없었음. 그런데 그걸 뛰어넘는 방식으로 미리 입력된 지침을 "알아서" 적용해주는 방식으로 구현해냈네. GPTs나 Gems를 자동으로 적용해주는 기능으로 보면 대충 맞겠다

Oct 14 • 5 tweets • 1 min read

사회교과서 사진으로 찍음 -> 싹 선택해서 인쇄 -> PDF로 저장 -> 노트북LM에 PDF 업로드 -> 몇가지 키워드에 대해 Gemini에게 중학생 눈높이로 설명해달라고 해서 복사 -> 노트북LM에 붙여넣기 -> 이 자료들을 가지고 시험준비하는 학생에게 설명해달라고 deep dive 만들기 -> 학원가는 차에서 듣기

https://twitter.com/mahler83/status/1977568010639683984

자기가 들을 논문 내용만 만들다가 프로 결제하니까 마음이 너그러워져서 아이것도 만들기 시작함 ㅋㅋㅋㅋㅋ

Oct 8 • 10 tweets • 2 min read

삼성SAIL에서 나온 #논문 Less is More: Recursive Reasoning with Tiny NetworksLess is More: Recursive Reasoning with Tiny Networks. 기존에 Hierarchical Reasoning Model의 단점을 보완하고 경량화한 모델로 보면 됨. HRM은 high/low level module을 따로 만들었는데(우) TRM은 하나를 씀(좌)

https://twitter.com/mahler83/status/1975954940305772801

하.... HRM 내용 들으려고 조깅 나갔다가 비 맞고 쫄닥 젖었던 기억이 나서 ㅜㅜㅜㅜ

https://x.com/mahler83/status/1951993260874010625

Aug 27 • 6 tweets • 1 min read

Gemini한테 연구계획서, 학회초록 냈던거, 자료조사 좀 해놨던거 다 주고 논문 초안 하나 적어보라고 했는데, 눈돌아가는 수준의 초안이 나왔네? 논문 적는데 사람 필요 없겠다 진짜... 검수만 하면 됨.
좀 더 구체적인 작업 단계를 기술해보면: - 연구계획서, 학회초록을 주고, "이 자료를 바탕으로 이러이러한 측면의 페이퍼를 뭐시기 학술지에 내려고 한다. 어떤 주제에 집중해서 적으면 좋을지 3가지 옵션을 달라."라고 요청함
- 1번과 3번의 방향성이 좋다. 이 두가지를 합쳐서 이걸 좀 추가하면 어떨까? 한 번 방향성 정리해줘봐라

Aug 8 • 5 tweets • 2 min read

챗지피티 플러스 유저는 GPT-5 이외에 모델을 따로 지정할 수 없게 바뀌나보네. 사실상 다운그레이드 아닌가... 나는 아직 롤아웃 안 된 듯 기존 모델을 deprecation시키면서 하나의 라인으로 통합하려는데 영 만족도가 떨어지는듯

https://x.com/xeophon_/status/1953504619188908074?t=SQUkOkdo39X39T-QbVi2ag&s=19

Jun 22 • 70 tweets • 31 min read

조깅 다시 시작

Jun 10 • 14 tweets • 2 min read

전국구 의대 문제은행을 만드는 일에 참여하게 될 것 같은데.... 옛날 생각 난다. 친구랑 같이 본4때 국시 기출문제를 스캔해서 OCR로 긁은 뒤 수작업으로 클리닝하고, 모의고사 시스템 만들어서 전국 의대생들이 볼 수 있게 서비스를 만들었었는데 돌고돌아 같은 짓을 하게 생겼음 모의고사 보려면 포인트가 필요하게 만들어서 포인트 벌이를 위해 인력 착취를 하는 구조를 만들었음
- 과목 투표
- 해설 등록
- 좋은 해설 투표
- 오타 제보
이런걸 포인트를 미끼로 무료로 인력착취 ㅎㅎㅎㅎㅎ
지금은 LLM 적용하면 인력이 거의 필요 없을 듯

Jun 8 • 9 tweets • 4 min read

애플에서 나온 "생각한다는 착각"이라는 자극적 제목의 #논문 추론모델의 한계점을 확인한 연구:
1. 문제가 복잡해질수록 추론과정이 길어지다가 일정 문턱 이상에서는 정답률도 떨어지고 추론 길이도 짧아지는 붕괴(collapse)현상이 나타남
2. 결정론적 문제의 해결 방법을 명시적 지시해도 못 따름

3가지 다른 성격의 복잡도 영역(complexity regime)이 관찰됨
1. 낮은 복잡도: 추론모델이 아닌 즉답모델이 더 잘함
2. 중간 복잡도: 추론모델이 더 잘함
3. 높은 복잡도: 붕괴가 일어나며 둘다 0에 가까운 정확도
사용모델: DeepSeek V1/R3, Sonnet 3.7 thinking on/off

Apr 27 • 5 tweets • 2 min read

"나노입자가 들어간 썬크림을 써도 될까?"에 대해 LLM vs 구글검색 방식으로 20분간 조사해서 결론을 내리도록한 #논문
- Cognitive load(ICL, ECL, GCL 모두) 감소
- 근거 설명은 약해짐
- 찬성반대 비율은 같음
검색해서 정보를 취합하는 행위 자체에서 학습이 일어나는데 LLM은 이 기회를 빼앗음

내생각:
이런 걸 cognitive offloading(인지적 오프로딩. 더 좋은 용어 없나)이라고 부르는데, 이게 시간을 단축하지만 그 과정에서 일어나는 학습/훈련의 기회가 줄어들게 됨. LLM으로 기본개념 쉽게 배운 뒤 자료조사는 LLM을 차단해 고생스럽게 하도록 커리큘럼을 설계하는 등 정성이 들어가야 함

Apr 26 • 9 tweets • 2 min read

우편물 온거 스캔해서 PDF로 claude에게 주고, Project 내에 채팅으로 업로드
-> PDF를 읽고 주요 내용을 요약해서 artifact로 만들라고 시킴
-> artifact를 "Copy to project"를 눌러 프로젝트 지식(project knowledge)로 저장해둠
-> 다음에 관련 내용이 필요하면 프로젝트 내에서 불러서 활용가능

그림으로 된 PDF 자료 활용하기는 Claude가 좋더라. 우편물이 오는 건은 앞으로 계속 관련 내용이 추가될거고 예전 내용 바탕으로 의사결정할 일들이 있는 사안이라 text형태의 project knowledge를 만들었음. 골치아파서 신경쓰기 싫었는데 AI도움받으면 훨씬 수월할것 같아 오히려 다음이 기대됨😆

Apr 20 • 5 tweets • 1 min read

주말에 동생네 놀러가서 이걸 하고 있었는데, 여기까지 와서 왜 이러나 싶었는지
"형 근데 이거 토너먼트 통과하면 뭐 줘?"
"명예, 만족, bragging rights"
"..."
#듀오링고

bragging rights 한국어로 적당한 표현이 마땅치 않네. 자랑할 권리 정도 되려나. 챗봇한테 물어봐도 딱히..

Apr 13 • 6 tweets • 4 min read

그림이나 표를 추가하고 싶어서 (이미 생각해놓은 것들이 있으나) 모른척하고 챗봇에게 아이디어 좀 달라고 해봄. SVG로 그려주는 건 확실히 클로드가 잘함.

ChatGPT가 SVG 만드는거 보면 클로드가 얼마나 잘 하는 건지 확연히 느껴짐...
그래도 imagegen 성능은 발군이다.

Apr 9 • 5 tweets • 2 min read

Ironies of Automation이라는 1983년 seminal paper를 알게 되었는데, 2025년에도 주는 통찰 어마어마하다. 쭉 읽어봤는데 소름돋네 #논문
doi.org/10.1016/0005-1…

"자동화가 잘 된 시스템일수록 사람이 할 일이 줄어들고, 사람을 훈련시키는데 비용이 더 많이 들어간다."

"쉬운 부분들을 자동화시키면 인간이 담당하는 어려운 부분이 더 어려워진다."

공장 자동화나 비행의 오토파일럿에 대한 내용이 기본이긴 한데, AI시대 의사 트레이닝에 대해서도 맞아들어감

Apr 9 • 14 tweets • 4 min read

대학생들의 Claude 채팅내역 54만건을 분석한 논문. CLIO라는 개인정보 보호를 위한 AI분석 시스템을 이용함(사람이 직접 채팅 원본을 읽을 일이 없음)
주요 내용
- 컴공이 유독 많이 사용
- 직접/협력, 문제해결/글생성 4가지 분야를 비슷하게 사용
- 블룸분류상 Creating, analyzing을 많이 사용

https://twitter.com/AnthropicAI/status/1909626720476365171

어디에 쓰는가?
- 교육자료 기반 문제생성/에세이수정/요약 39.3%
- 과제의 설명이나 해설 33.5%
- 데이터 분석 시각화 11.0%
- 연구 디자인/도구 개발 6.5%
- 도식 그리기 3.2% (역시 아티팩트!)
- 번역이나 검토 2.4%

Mar 20 • 4 tweets • 1 min read

읽다보니 이 스케일의 큰 문제점을 알게 됐는데... 몇시간 이상의 일은 실험적으로 측정하기가 어려워짐. 16시간짜리 작업도 있던데 대단하다 싶음. 아무튼 인간의 time horizon은 1시간 37분으로 나왔고(Fig16) 이는 반년 안에 AI agent에게 따라잡힘

https://twitter.com/mahler83/status/1902689726647411186

8.1장에서 말하는 스케일의 한계점 중 또 인상깊은 내용은 AGI가 온다면 이 경우 infinite time horizon을 가진다는 것. 즉, 인간이 무한대의 시간을 노력해도 할 수 없는 일을 해냄. 즉, 저 로그스케일에서 선형적으로 보이는 곡선이 어느 타이밍에 무한대로 위로 발산하게 될 것.

Share this page!

Enter URL or ID to Unroll