말러팔삼 Profile picture
배우는 것과 가르치는 것을 좋아하는 골수이과. 트위터에서의 인격과 현실에서의 인격은 별개입니다. 연구자를 위한 LLM 강의: https://t.co/Ex6kLgbR9T LLM파이썬 강의: https://t.co/dVOghJIa3F
Oct 30 5 tweets 2 min read
재미있는 Anthropic의 연구. 신경망의 활성화 패턴이 어떤 사고 패턴(추상적, 구체적 모두)을 반영하는 것을 계속 보여오고 있었는데, "텍스트 입력과 내부 activation state를 구분해 이해하는 것이 가능함"을 보인 것. 의인화하자면 소리내서 말하는 것과 머릿속으로 생각하는 것이 각각 가능함! #논문 concept injection(특정 벡터 방향으로 내부 활성을 편향시키는 것)을 한 뒤 무슨 생각이 드냐고 물어봤을 때 해당 내용을 1/5 정도에서 인식하고 언어로 표현 가능했음 Image
Oct 24 6 tweets 2 min read
내과 모 분과 교수님으로부터 7개국 모 질환 guideline을 LLM을 이용해 체계적으로 비교대조하는 것이 가능한지 문의가 들어왔다. 오오오.... 뭔가 뇌고랑 사이가 간질간질한 숙제를 던져주셨네. 머리 쥐어뜯으며 고민하는 중 체계적이라면 어떤 종류의 가이드라인을 주더라도, 누가 하더라도, 반복수행을 했을 때 거의 유사한 객관적 결과가 나와야 하는 건데. 비교를 한다는 것은 하나의 문서를 여러 axes로 decompose해서 각 axis별로 서로 비교분석하는 것일거고. 즉 분석한 axes를 담은 schema부터 체계적으로 만들어야 함
Oct 18 4 tweets 1 min read
잘 작동하는 것 같던 iptime A3004NS-M 무선공유기가 SSID는 보이는데 접속은 안 되는 현상이 나타나서 AX3000Q로 교체했다. T5004가 DCP를 담당하고, 무선공유기는 DCP를 꺼놓고 쓰는 구성. IoT 기기들이 5GHz에는 안 붙어서 2.4GHz만 11ax(wifi6)모드로 켜놓고 사용 매번 설정법을 까먹어서 순서 메모... 이번에도 꼬여서 재설정 두 번이나 함 ㅜㅜ
- 어드민계정설정
- 5GHz 끄고 2.4GHz SSID/비번 설정
- 인터넷은 DHCP로 그대로 놔둠
- 내부네트워크 IP 대역대 맞추고 끝자리 변경
- DNS 끄기
- LAN포트에 CAT케이블 꽂기(미리 꽂지 않기)
Oct 17 6 tweets 1 min read
클로드에 "Skills"라는 기능이 생겼다. 살펴보니 "Code execution and file creation" 기능과 조합해 사용하는 용도인 것 같다. 특정 작업의 디자인이나 작업방식에 대한 가이드나 참고자료를 미리 작성해서 업로드 해두면, 알아서 그걸 참고해 작업에 활용하는 듯. 일관성 있는 결과물 생성 가능 ChatGPT에는 custom GPTs, Gemini에는 Gems가 있었는데, Claude에는 마땅히 비슷한 기능이 없었음. 그런데 그걸 뛰어넘는 방식으로 미리 입력된 지침을 "알아서" 적용해주는 방식으로 구현해냈네. GPTs나 Gems를 자동으로 적용해주는 기능으로 보면 대충 맞겠다
Oct 14 5 tweets 1 min read
사회교과서 사진으로 찍음 -> 싹 선택해서 인쇄 -> PDF로 저장 -> 노트북LM에 PDF 업로드 -> 몇가지 키워드에 대해 Gemini에게 중학생 눈높이로 설명해달라고 해서 복사 -> 노트북LM에 붙여넣기 -> 이 자료들을 가지고 시험준비하는 학생에게 설명해달라고 deep dive 만들기 -> 학원가는 차에서 듣기 자기가 들을 논문 내용만 만들다가 프로 결제하니까 마음이 너그러워져서 아이것도 만들기 시작함 ㅋㅋㅋㅋㅋ
Oct 8 10 tweets 2 min read
삼성SAIL에서 나온 #논문 Less is More: Recursive Reasoning with Tiny NetworksLess is More: Recursive Reasoning with Tiny Networks. 기존에 Hierarchical Reasoning Model의 단점을 보완하고 경량화한 모델로 보면 됨. HRM은 high/low level module을 따로 만들었는데(우) TRM은 하나를 씀(좌) Image
Image
하.... HRM 내용 들으려고 조깅 나갔다가 비 맞고 쫄닥 젖었던 기억이 나서 ㅜㅜㅜㅜ
Aug 27 6 tweets 1 min read
Gemini한테 연구계획서, 학회초록 냈던거, 자료조사 좀 해놨던거 다 주고 논문 초안 하나 적어보라고 했는데, 눈돌아가는 수준의 초안이 나왔네? 논문 적는데 사람 필요 없겠다 진짜... 검수만 하면 됨.
좀 더 구체적인 작업 단계를 기술해보면: - 연구계획서, 학회초록을 주고, "이 자료를 바탕으로 이러이러한 측면의 페이퍼를 뭐시기 학술지에 내려고 한다. 어떤 주제에 집중해서 적으면 좋을지 3가지 옵션을 달라."라고 요청함
- 1번과 3번의 방향성이 좋다. 이 두가지를 합쳐서 이걸 좀 추가하면 어떨까? 한 번 방향성 정리해줘봐라
Aug 8 5 tweets 2 min read
챗지피티 플러스 유저는 GPT-5 이외에 모델을 따로 지정할 수 없게 바뀌나보네. 사실상 다운그레이드 아닌가... 나는 아직 롤아웃 안 된 듯 기존 모델을 deprecation시키면서 하나의 라인으로 통합하려는데 영 만족도가 떨어지는듯
Jun 22 70 tweets 31 min read
조깅 다시 시작 Image 2 Image
Jun 10 14 tweets 2 min read
전국구 의대 문제은행을 만드는 일에 참여하게 될 것 같은데.... 옛날 생각 난다. 친구랑 같이 본4때 국시 기출문제를 스캔해서 OCR로 긁은 뒤 수작업으로 클리닝하고, 모의고사 시스템 만들어서 전국 의대생들이 볼 수 있게 서비스를 만들었었는데 돌고돌아 같은 짓을 하게 생겼음 모의고사 보려면 포인트가 필요하게 만들어서 포인트 벌이를 위해 인력 착취를 하는 구조를 만들었음
- 과목 투표
- 해설 등록
- 좋은 해설 투표
- 오타 제보
이런걸 포인트를 미끼로 무료로 인력착취 ㅎㅎㅎㅎㅎ
지금은 LLM 적용하면 인력이 거의 필요 없을 듯
Jun 8 9 tweets 4 min read
애플에서 나온 "생각한다는 착각"이라는 자극적 제목의 #논문 추론모델의 한계점을 확인한 연구:
1. 문제가 복잡해질수록 추론과정이 길어지다가 일정 문턱 이상에서는 정답률도 떨어지고 추론 길이도 짧아지는 붕괴(collapse)현상이 나타남
2. 결정론적 문제의 해결 방법을 명시적 지시해도 못 따름 Image 3가지 다른 성격의 복잡도 영역(complexity regime)이 관찰됨
1. 낮은 복잡도: 추론모델이 아닌 즉답모델이 더 잘함
2. 중간 복잡도: 추론모델이 더 잘함
3. 높은 복잡도: 붕괴가 일어나며 둘다 0에 가까운 정확도
사용모델: DeepSeek V1/R3, Sonnet 3.7 thinking on/off Image
Image
Apr 27 5 tweets 2 min read
"나노입자가 들어간 썬크림을 써도 될까?"에 대해 LLM vs 구글검색 방식으로 20분간 조사해서 결론을 내리도록한 #논문
- Cognitive load(ICL, ECL, GCL 모두) 감소
- 근거 설명은 약해짐
- 찬성반대 비율은 같음
검색해서 정보를 취합하는 행위 자체에서 학습이 일어나는데 LLM은 이 기회를 빼앗음 Image 내생각:
이런 걸 cognitive offloading(인지적 오프로딩. 더 좋은 용어 없나)이라고 부르는데, 이게 시간을 단축하지만 그 과정에서 일어나는 학습/훈련의 기회가 줄어들게 됨. LLM으로 기본개념 쉽게 배운 뒤 자료조사는 LLM을 차단해 고생스럽게 하도록 커리큘럼을 설계하는 등 정성이 들어가야 함
Apr 26 9 tweets 2 min read
우편물 온거 스캔해서 PDF로 claude에게 주고, Project 내에 채팅으로 업로드
-> PDF를 읽고 주요 내용을 요약해서 artifact로 만들라고 시킴
-> artifact를 "Copy to project"를 눌러 프로젝트 지식(project knowledge)로 저장해둠
-> 다음에 관련 내용이 필요하면 프로젝트 내에서 불러서 활용가능 Image 그림으로 된 PDF 자료 활용하기는 Claude가 좋더라. 우편물이 오는 건은 앞으로 계속 관련 내용이 추가될거고 예전 내용 바탕으로 의사결정할 일들이 있는 사안이라 text형태의 project knowledge를 만들었음. 골치아파서 신경쓰기 싫었는데 AI도움받으면 훨씬 수월할것 같아 오히려 다음이 기대됨😆
Apr 20 5 tweets 1 min read
주말에 동생네 놀러가서 이걸 하고 있었는데, 여기까지 와서 왜 이러나 싶었는지
"형 근데 이거 토너먼트 통과하면 뭐 줘?"
"명예, 만족, bragging rights"
"..."
#듀오링고 Image bragging rights 한국어로 적당한 표현이 마땅치 않네. 자랑할 권리 정도 되려나. 챗봇한테 물어봐도 딱히..
Apr 13 6 tweets 4 min read
그림이나 표를 추가하고 싶어서 (이미 생각해놓은 것들이 있으나) 모른척하고 챗봇에게 아이디어 좀 달라고 해봄. SVG로 그려주는 건 확실히 클로드가 잘함. Image
Image
Image
Image
ChatGPT가 SVG 만드는거 보면 클로드가 얼마나 잘 하는 건지 확연히 느껴짐...
그래도 imagegen 성능은 발군이다. Image
Image
Apr 9 5 tweets 2 min read
Ironies of Automation이라는 1983년 seminal paper를 알게 되었는데, 2025년에도 주는 통찰 어마어마하다. 쭉 읽어봤는데 소름돋네 #논문
doi.org/10.1016/0005-1…Image "자동화가 잘 된 시스템일수록 사람이 할 일이 줄어들고, 사람을 훈련시키는데 비용이 더 많이 들어간다."

"쉬운 부분들을 자동화시키면 인간이 담당하는 어려운 부분이 더 어려워진다."

공장 자동화나 비행의 오토파일럿에 대한 내용이 기본이긴 한데, AI시대 의사 트레이닝에 대해서도 맞아들어감 Image
Apr 9 14 tweets 4 min read
대학생들의 Claude 채팅내역 54만건을 분석한 논문. CLIO라는 개인정보 보호를 위한 AI분석 시스템을 이용함(사람이 직접 채팅 원본을 읽을 일이 없음)
주요 내용
- 컴공이 유독 많이 사용
- 직접/협력, 문제해결/글생성 4가지 분야를 비슷하게 사용
- 블룸분류상 Creating, analyzing을 많이 사용 어디에 쓰는가?
- 교육자료 기반 문제생성/에세이수정/요약 39.3%
- 과제의 설명이나 해설 33.5%
- 데이터 분석 시각화 11.0%
- 연구 디자인/도구 개발 6.5%
- 도식 그리기 3.2% (역시 아티팩트!)
- 번역이나 검토 2.4% Image
Mar 20 4 tweets 1 min read
읽다보니 이 스케일의 큰 문제점을 알게 됐는데... 몇시간 이상의 일은 실험적으로 측정하기가 어려워짐. 16시간짜리 작업도 있던데 대단하다 싶음. 아무튼 인간의 time horizon은 1시간 37분으로 나왔고(Fig16) 이는 반년 안에 AI agent에게 따라잡힘 8.1장에서 말하는 스케일의 한계점 중 또 인상깊은 내용은 AGI가 온다면 이 경우 infinite time horizon을 가진다는 것. 즉, 인간이 무한대의 시간을 노력해도 할 수 없는 일을 해냄. 즉, 저 로그스케일에서 선형적으로 보이는 곡선이 어느 타이밍에 무한대로 위로 발산하게 될 것.
Mar 20 8 tweets 3 min read
우와 최근에 본 논문 중에서 가장 중요한 논문이 아닌가 싶은데? Task를 사람이 수행하는데 걸리는 시간으로 정량화 했을 때 AI agent가 수행할 수 있는 task의 길이가 7개월마다 2배로 길어지고 있다는 결과. 이걸 계속해서 추적분석하면 인류의 미래가 그려지지 않을까 싶다. #논문 여러가지 task 목록이 있고, 이걸 사람에게 시켜서 얼마나 걸리는지 측정하고, 여러가지 agent들에게 시켜서 성공률을 측정함. 50% 성공할 수 있는 task의 길이가 얼마나 되는지를 agent의 능력으로 정량화할 수 있음. 역시나 가장 최근에 나온 Sonnet 3.7이 최고이고 능력치는 1시간 정도 됨. Image
Image
Mar 13 6 tweets 2 min read
gemini 2.0 flash에 유튜브 입력 기능이 추가됨. 보통의 유튜브 요약 기능은 자막을 바탕으로 동작하는데, 제미나이는 동영상을 직접 볼 수가 있어서 퀄리티 차이가 많이 날 듯! gemini 2.0 flash에 native image generation 기능도 공개됨. 반복적으로 말하지만 어마어마하게 유용한 기능!!
Feb 3 6 tweets 2 min read
조금 전 발표된 ChatGPT Deep Research 기능은 Plus 요금제로는 사용 불가. 200불씩 내는 Pro에서만 사용 가능이네. 구글만세 Deep Researcher에 대한 후기. 이 분은 본사 직원이고 사전사용이 가능했음. 가족의 암에 대한 리서치에 활용 사례