|
能用简体吗 |
侠骨嶙峋,文心锦绣,珩璜茂矩人中秀。 |
老大陆 发表于 2019-12-19 19:05 简体容易啊,用wps 繁转简。 下回贴简体的。 |
有沒有一些 OCR 程式可以幫助去加快整理的速度呢? 我有一個"千百OCR3.0.7的程序。但未能通曉操作的方法。 我把它放上來,大家不防試試。 |
187.81 KB, 阅读权限: 10, 下载次数: 25
1.9 MB, 阅读权限: 10, 下载次数: 42
1.9 MB, 阅读权限: 10, 下载次数: 31
谢谢楼上分享好软件 |
mytncr 发表于 2019-12-30 00:03 这个软件用在简体横版,还是很好用,但用在古籍竖版,不是很靠谱!但还是谢谢你! |
平静的海 发表于 2020-1-4 15:40 横排不清晰,还是有错别字 |
mytncr 发表于 2019-12-30 00:03 楼主辛苦啦。 主要是这些古繁体字使用频率太低,导致AI不能增强训练权重进而导致识别不好。 这段时间太忙,等我忙过这一阵,专门训练一套识别看看效果。 |
角木蛟。入东西有利 |
照见五蕴皆空 发表于 2020-4-7 06:06 这个要是能 搞出来,真是功德无量, |
各种各样的术数简直太多了 |
楼主您好,目前文字识别大概效果如上图。 1、目前有一些生僻字软件一时半会,是识别不出来的。 2、文章需要有一定古文基础和术数基础的人来校正。 星海词林的价值是值得肯定的。 如果有兴趣一起完成识别校正工作,请论坛私信给发给我微信。 |
本帖最后由 mytncr 于 2020-7-31 22:42 编辑 照见五蕴皆空 发表于 2020-7-19 11:46 看來閣下運用這個軟件的成績很好.但星海詞林太多頁數.要做起來太費時間. 不知閣下能否說一下你這個軟件的運行方法和細節呢? |
mytncr 发表于 2020-7-31 22:40 软件自己组合做的,不太方便分享出来。 星海词林 大概 4600多页,如果都要转换过来,每天抽时间转换的话大概半个月到一个月左右即可,难的是断句和矫正一些难以识别的错别字。 如果只校正《流行图说》大概300页左右,可以先做来试试。 另外古代和现代的星宿距星应该是有变化和差异,有些星宿度数不匹配,这个校正也是一个大工程。 有兴趣的话可以一起做一下。 |
本帖最后由 mytncr 于 2020-8-2 01:10 编辑 照见五蕴皆空 发表于 2020-8-1 11:55 軟件不能公開沒有關係.可否把流行圖説放上來幾頁,讓我試試校正. |
照见五蕴皆空 发表于 2020-7-19 11:46 您的 OCR 軟件對古籍文字識別很不錯, 可以召集天機論壇的會員們, 一同參與校正及斷句? |
mytncr 发表于 2020-8-2 01:07 链接:https://pan.baidu.com/s/1k7i0uNNnbzGClHigdKs5LQ 提取码:aohy 试着识别《造化》一册,文档已经上面网盘链接,请查看。 |
天機 发表于 2020-8-2 07:29 链接:https://pan.baidu.com/s/1k7i0uNNnbzGClHigdKs5LQ 提取码:aohy 天机版主好, 靠软件识别其实还是不够完美的,目前文字识别水平仅限于此啦, 短期内很难再有更好的识别效果,即使识别率再次提升,依然需要人工来辅助。 与其在等待几年,临渊羡鱼不如退而结网啦。 其实要真正开始的话,,慢慢来,每天做一点,大概几个月甚至半年也能完成。 所以我想征集有一定知识积累的论坛同好们,共同来协作、完成校正完成这一浩瀚 的经典著作。 如果天机版主能穿针引线帮助建立群组,组织分工,人越多则完成的越快,那就再好不过啦。 |
资料收藏,谢谢分享 |
照见五蕴皆空 发表于 2020-8-3 04:33 谢谢先生的胸襟,愿意开放您所亲自设计的OCR软件。 《星海詞林》的内容浩瀚,转换成文字跟文字内容的校对断句都是一项浩大的工程。而且需要对于七政四餘、二十八星宿及古文阅读有一定基础的爱好者参与,才能够加快文字化的转换过程。而且需要参加者能够承诺足够的时间,并且中途不会因为其他不可控的因素而放弃,否则这一项初心非常好的计划,很可能会无法按预期进行。 我会找时间试着发帖,如果能够招募到8~10位的同好们,很可能进展速度会好一点,如果只是聊聊几位有兴趣的参加者,估计很难向前推进。 |
照见五蕴皆空 发表于 2020-7-19 11:46 兄台,请联系我。qq 2639657861 |
你可否先下载论坛里那个高清的星海词林,再用的软件校正一下,应该会快点的 |
Powered by Discuz! X3.4
© 2001-2023 Discuz! Team.