需要阅读的论文list

读了《Unsupervised Person Image Synthesis in Arbitrary Poses》这篇发现还需要补充阅读的

绿色表示已读

[1] S. E. Reed, Z. Akata, S. Mohan, S. Tenka, B. Schiele, and H. Lee. Learning what and where to draw. In NIPS, 2016.

pose conditional adversarial networks

如题,主要是在讲给GAN网络一些条件,比如告诉网络在什么位置(location)生成什么内容(text)。文中提出了三个不同条件的网络,一个是提供文本信息+边界框坐标,转化为高阶特征后结合输入噪声通过G网络生成图像,第二个是提供文本+关键点信息,第三个是提供部分条件信息(例如只给出头部和尾部位置)。

比较值得借鉴的地方在于作者对输入信息转化为高阶特征的处理,文本嵌入和关键点编码为特征图,以文本描述和对象位置为条件生成目标图像。

具体分析可参考这篇博客【论文阅读】Learning What and Where to Draw

[2] J.- Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. arXiv preprint arXiv:1703.10593, 2017.

Cycle-GANs

主要思想见下图:

同样附一篇详细分析的博客带你理解CycleGAN,并用TensorFlow轻松实现

看完[2]以后发现需要再补两篇

[2-1] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017.

[2-2] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In ECCV, pages 694–711. Springer, 2016.

[2-1]是和[2]同一拨人搞的,[2]是unpaired的图片,而[2-1]是paired的图片,前者中有对后者的多次引用,严格意义上说应该是先有的paired图片的translation再有的unpaired。[2-1]只用了条件GAN,是pix2pix的做法,[2]中因为是在两个domain之间寻找mapping function,所以提出了cycleGAN。

[2-1]提出了cGAN,可以作为一种通用的图像转换方法(image-to-image translation),不必纠结于具体的损失函数的设计,通过判别器判别生成的图像和GT,相当于自适应的学习了loss function,尤其cGAN还有很好的结构化输出。另外cGAN的贡献还在于:generator使用了U-Net的网络结构,通过跨层(i层和n-i层)之间的连接保持了输入输出图像之间的关联,discriminator提出了PatchGAN的结构,只惩罚每一个局部patch的fake,有利于高频信息的提取,结合L1 loss(L1 loss重点关注低频信息,会造成图像模糊)取得了最好的结果。

参考博客:经典重温 Pix2Pix:Image-to-Image Translation with Conditional Adversarial Networks

[2-2]应该是[2]的基础,看起来这篇文章非常重要,因为cycleGAN论文中对网络结构的描述很少,而文中提及他们所用的G网络就是来源于[2-2]中的网络结构。这篇文章是李飞飞团队的成果,已经被引692次,值得一读。

[3] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. In CVPR, 2016. 

loss functions used in image style transfer that aim at producing new images of high perceptual quality

introduced the content-style loss to maintain high perceptual quality in the problem of image style transfer

[4] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super resolution. In ECCV, 2016. 

The generator is implemented as the variation of the network from Johnson et al.[4] proposed by [2] as it achieved  impressive results for the image-to-image translation problem.
 


三篇关于pose keypoints detection的

[5] S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Convolutional pose machines. In CVPR, 2016.

[6] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. In CVPR, 2017. 

[7] T. Simon, H. Joo, I. Matthews, Y. Sheikh. Hand Keypoint Detection in Single Images using Multiview Bootstrapping. In CVPR, 2017. 


几篇关于用GAN做segmentation的

[8] Luc, P., Couprie, C., Chintala, S., Verbeek, J.: Semantic segmentation using adversarial networks. In: NIPS workshop on adversarial training (2016)

第一篇用GAN做分割的论文,把GAN中的G网络换成一个segmentor,D网络变形为raw image和label map双输入的网络,尽可能区分输入的是segmentor生成的label map还是GT.

[9] Moeskops P, Veta M, Lafarge M W, et al. Adversarial Training and Dilated Convolutions for Brain MRI Segmentation[J]. 2017:56-64.

[10] Zhu W, Xiang X, Tran T D, et al. Adversarial Deep Structural Networks for Mammographic Mass Segmentation[J]. 2017.

上面是两篇用GAN做医学影像分割的论文

### 关于论文阅读工具推荐 对于学术研究者来说,选择合适的论文阅读工具有助于提高效率和理解力。以下是一些常用的论文管理与阅读工具: - **Zotero**: 这是一款免费开源的参考文献管理和生产性工具,能够帮助用户收集、组织以及引用研究成果[^1]。它支持多种文件格式导入导出,并且具备强大的标注功能。 - **Mendeley Desktop**: 提供了一个直观界面来整理个人图书馆中的PDF文档,同时允许添加笔记及高亮显示重要部分[^2]。 - **Paperpile**: 集成Google Docs的功能使得团队协作更加便捷;通过浏览器扩展可以直接从网页保存文章到云端账户里[^3]。 - **ReadCube Papers**: 不仅可以同步跨设备访问资料库,还特别强调了增强型PDF查看器体验——比如智能摘要生成、实体链接等特性[^4]。 ```python import zotero from mendeley import Mendeley def manage_references(zotero_api_key, library_id): """ 使用 Zotero API 来获取参考文献列表 参数: zotero_api_key (str): 用户的 Zotero API 密钥. library_id (int): 图书馆 ID. 返回: list: 参考文献条目组成的列表. """ zot = zotero.Zotero(library_id=library_id, api_key=zotero_api_key) items = zot.everything(zot.top()) return [item['data']['title'] for item in items] mendeley_client = Mendeley('your-client-id', 'your-secret').start_device_flow() ``` ### 论文高效阅读技巧 为了更有效地理解和吸收复杂的技术内容,在进行深入学习之前应该先快速浏览全文以获得整体印象。具体做法如下所示: - 初步扫描:关注标题、作者名单、摘要以及结论段落即可形成初步判断[^5]。 - 细节探索:针对感兴趣的部分展开细读,注意实验设计思路及其合理性评估[^6]。 - 总结归纳:尝试用自己的话概括主要发现点并与已有知识体系建立联系[^7]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值