2020-01-24

Periodic-table


1. Periodic table
  1.1 元素的排列
  1.2 表中的行与列
  1.3 元素区块
  1.4 周期表中的一些趋势
  1.5 元素周期律的本质
  1.6 电子排布
2. 更多相关链接
  2.1 维基学院(课程)查找:periodic_table
  2.2 维基书籍(教科书)查找:periodic_table
  2.3 一些有趣的元素周期表
  2.4 扩展信息链接
3. 生命元素
  3.1 宏量元素
  3.2 各种常量元素在人体内的作用
  3.3 人体中的元素占比

1. Periodic table

https://zh.wikipedia.org/wiki/元素周期表
化学元素周期表是根据质子数从小至大排序的化学元素列表。列表大体呈长方形,某些元素周期中留有空格,使化学性质相似的元素处在同一族中,如卤素及惰性气体。这使周期表中形成元素分区。由于周期表能够准确地预测各种元素的特性及其之间的关系,因此它在化学及其他科学范畴中被广泛使用,作为分析化学行为时十分有用的框架。
https://en.wikipedia.org/wiki/Periodic_table
前94种元素都是天然存在的,元素95至118仅在实验室或核反应堆中合成。
https://baike.baidu.com/item/元素周期表/282048
俄国化学家门捷列夫(Dmitri Mendeleev)于1869年总结发表此周期表(第一代元素周期表),此后不断有人提出各种类型周期表不下170余种,归纳起来主要有:
  • 短式表(以门捷列夫为代表);
  • 长式表(维尔纳式为代表)(中国教学长期使用此表);
  • 特长表(以波尔塔式为代表);
  • 平面螺线表和圆形表(以达姆开夫式为代表);
  • 立体周期表(以莱西的圆锥柱立体表为代表)...

1.1 元素的排列

当原子结构的奥秘被发现时,编排依据由相对原子质量改为原子的质子数﹙核外电子数或核电荷数﹚,形成现行的元素周期表。
原子半径由左到右依次减小,上到下依次增大。按照元素在周期表中的顺序给元素编号,得到原子序数。原子序数跟元素的原子结构有如下关系:
质子数=原子序数=核外电子数=核电荷数

1.2 表中的行与列

  • 横,行称为: 周期(periods): 将电子层数相同的元素放在同一行,称为一个周期(periods),共7个周期,这7个周期又可分成短周期(1、2、3)、长周期(4、5、6、7)。
  • 纵,列称为: 族(groups): 将最外层电子数相同的元素放在同一列。有相似化学性质的元素放在同一列,称为一个族(groups),有16个族。(VIII族包含三个纵列)

1.3 元素区块

https://zh.wikipedia.org/wiki/元素分区
https://zh.wikipedia.org/wiki/元素周期表#區塊
由于外层电子壳层的重要性,因此周期表中不同的区域有时被称为“区块”,根据最后一颗电子所在的支壳层命名。主要分区有:
  • s区块包括首两族(碱金属和碱土金属),再加上氢和氦;
  • p区块包括13至18族,其中包含了所有的类金属;
  • d区块包含3至12族,其中包含所有的过渡金属;
  • f区块通常整个显示在周期表的下方,包含所有的镧系元素和锕系元素。

1.4 周期表中的一些趋势

https://zh.wikipedia.org/wiki/元素周期表#週期性趨勢
https://zh.wikipedia.org/wiki/元素周期表#/media/File:Periodic_trends_zh-hans.svg
https://zh.wikipedia.org/wiki/元素周期律
结合元素周期表,元素周期律可以表述为:
  • 随着原子序数的增加,元素的性质呈周期性的递变规律:
  • 同一周期中,失电子能力逐渐减弱,获电子能力逐渐增强,金属性逐渐减弱,非金属性逐渐增强。
  • 同一周期中,元素的最高正氧化数从左到右递增(没有正价的除外),最低负氧化数从左到右递增(第一周期除外,第二周期的O、F元素除外)。
  • 同一周期中,从左到右,元素核外电子层数相同,最外层电子数依次递增,原子半径随着原子序数的增加而减小(0族元素除外)。
  • 同一族中,元素的金属性从上到下递增,非金属性从上到下递减;
  • 同一族中,由上而下,最外层电子数相同,核外电子层数逐渐增多,元素性质相近。
  • 同一族中,原子半径随着原子序数的增加而增大。
  • 如果粒子的电子排布相同,则阴离子的半径比阳离子大,且半径随着电荷数的增加而减小。(如O2−>F−>Na+>Mg2+)
注意:以上规律不适用于稀有气体。
此外还有一些对元素金属性、非金属性的判断依据,可以作为元素周期律的补充:
  • 元素单质的还原性越强,金属性就越强;单质氧化性越强,非金属性就越强。
  • 元素的最高价氢氧化物的碱性越强,元素金属性就越强;最高价氢氧化物的酸性越强,元素非金属性就越强。
  • 元素的气态氢化物越稳定,非金属性越强。
还有一些根据元素周期律得出的结论:
  • 元素的金属性越强,其第一电离能就越小;非金属性越强,其第一电子亲和能就越大。
另外: 元素周期律有一个很方便的记忆方法:越靠近非金属元素的元素非金属性越强,越靠近金属元素的元素金属性越强。

1.5 元素周期律的本质

电子构型是元素性质的决定性因素,而元素周期律是电子构型呈周期性、递变性变化规律的体现。为了达到稳定状态,不同的原子选择不同的方式。
同一周期元素中,轨道越“空”的元素越容易失去电子,轨道越“满”的越容易得电子。随着从左到右价层轨道由空到满的逐渐变化,元素也由主要显金属性向主要显非金属性逐渐变化。
同一族元素中,由于周期越高,价电子的能量就越高,就越容易失去,因此排在下面的元素一般比上面的元素更具有金属性。具有同样价电子构型的原子,理论上得或失电子的趋势是相同的,这就是同一族元素性质相近的原因。

1.6 电子排布

https://zh.wikipedia.org/wiki/电子排布
电子排布,或称电子排序、电子构型,指电子在原子、分子或其他物理结构中的每一层电子层上的排序及排列形态。
正如其他基本粒子,电子遵从量子物理学,而不是一般的经典物理学;电子也因此有波粒二象性。而且,根据量子物理学中的《哥本哈根诠释》,任一特定电子的确实位置是不会知道的(轨道及轨迹放到一旁不计),直至侦测活动进行使电子被侦测到。在空间中,该测量将会检测的电子在某一特定点的概率,和在这一点上的波函数的绝对值的平方成正比。
电子能够由发射或吸收一个量子的能量从一个能级跃迁到另一个能级,其形式是一个光子。由于泡利不相容原理,没有两个以上的电子可以存在于某个原子轨道(轨道不等于电子层);因此,一个电子只可跨越到另有空缺位置的轨道。
知道不同的原子的电子构型有助了解元素周期表中的元素的结构。这个概念也有用于描述约束原子的多个化学键。在块体材料的研究中这一理念可以说明激光器和半导体的奇特性能。

2. 更多相关链接

2.1 维基学院(课程)查找:periodic_table

https://en.wikiversity.org/wiki/The_periodic_table
元素周期表/周期趋势:
https://en.wikiversity.org/wiki/The_periodic_table/Periodic_Trends

2.2 维基书籍(教科书)查找:periodic_table

https://en.wikibooks.org/wiki/General_Chemistry/Periodic_Table

https://en.wikibooks.org/wiki/Department:Science
https://en.wikibooks.org/wiki/General_Chemistry
https://en.wikibooks.org/wiki/General_Biology
https://en.wikibooks.org/wiki/General_Astronomy/Print_version
https://en.wikibooks.org/wiki/Blender_3D:_Noob_to_Pro

2.3 更多元素周期表

动态元素周期表,具有交互式布局: https://ptable.com/
元素周期表的INTERNET数据库: http://www.meta-synthesis.com/webbook//35_pt/pt_database.php
样品周期表: http://www.periodictable.com/
视频周期表: http://www.periodicvideos.com/
Web元素: http://www.webelements.com/
扩展周期表: https://en.wikipedia.org/wiki/Extended_periodic_table

2.4 扩展信息链接

元素周期表相关文章清单: https://en.wikipedia.org/wiki/List_of_periodic_table-related_articles
化学元素清单: https://en.wikipedia.org/wiki/List_of_chemical_elements
元素周期表的历史: https://en.wikipedia.org/wiki/History_of_the_periodic_table
化学元素发现时间表: https://en.wikipedia.org/wiki/Timeline_of_chemical_element_discoveries
替代元素周期表: https://en.wikipedia.org/wiki/Alternative_periodic_tables
通常出于教学的原因,已经设计了超过一千种,因为化学元素之间的所有相关性并非都可以通过标准元素周期表有效地捕获。

化学时间表: https://en.wikipedia.org/wiki/Timeline_of_chemistry
化学史: https://en.wikipedia.org/wiki/History_of_chemistry

3. 生命元素

https://zh.wikipedia.org/wiki/生命元素
生命元素是指生命所必需的元素。
在天然的条件下,地球上或多或少地可以找到90多种元素,根据目前掌握的情况,多数科学家比较一致的看法,生命元素共有28种,包括氢、硼、碳、氮、氧、氟、钠、镁、硅、磷、硫、氯、钾、钙、钒、铬、锰、铁、钴、镍、铜、锌、砷、硒、溴、钼、锡和碘。
硼是某些绿色植物和藻类生长的必需元素,而哺乳动物并不需要硼,因此,人体必需元素实际上为27种。在27种生命必需的元素中,按体内含量的高低可分为宏量元素和微量元素。

3.1 宏量元素

https://zh.wikipedia.org/wiki/宏量元素
常量元素,又称宏量元素、大量元素,指在体内含量丰富的元素。常量元素指在体内含量占生物体总质量0.01%以上的化学元素。
人体元素
  • (人体宏量元素: 碳、氢、氧、氮、磷、硫、氯、钾、钠、钙、镁), 这些元素在人体中的含量均在0.04%-62.8%之间,这11种元素共占人体总质量的99.97%。
  • (人体微量元素: 氟、硅、钒、铬、锰、铁、钴、镍、铜、锌、砷、硒、溴、钼、锡和碘)。

3.2 各种常量元素在人体内的作用

人体内拥有11种常量元素,其中四种组成了身体的大部分:碳、氢、氧和氮。
  • : 作为生命的必须元素,碳和其它物质(一般是其它生命主要元素)组成了所有的有机化合物。碳之所以可以组成有机化合物的骨架,是因为碳原子的共价键可以与其它碳原子连接成为长碳链。
  • : 氢是另外一中生命要素。有机化合物和水分子都包括至少一个氢原子,其中水在人体内占了大约70%。水可以帮助排毒并辅助代谢,水还可以保护器官,使其正常运作。氢原子可以和碳原子接触0形成共价键,共价键使氢和碳原子组成碳氢化合物,一种由氢和碳组成的有机化合物。碳氢化合物可以经过一些化学反应衍生成为其它有机物。
  • : 氧在大多数有机物中都存在,它也是组成水的元素之一。在一些有机物(例如甲酸)内,氧原子和其它原子组合成为含氧酸,其中有一些是有机酸。含氧的酸性羧基可以帮助脂肪酸和甘油脱水结合成为三酸甘油酯,一种储存多余能量的方式。人体内基本上所有有机化合物都含有氧原子(碳氢化合物没有氧原子,但是人体内只有微量肠道细菌代谢后的甲烷)。
  • : 虽说氮是大气层中含量最丰富的气体,但是人体无法利用氮气。人体内的有机氮来源于一些细菌经过固氮作用形成的氨。这些氨溶解于水后经过植物根部以铵的形式被吸收。氮和其它元素组成了生物碱、氨基酸和核碱基。氨基酸可以组成蛋白质,而核碱基可以于磷酸和脱氧核糖或核糖组成DNA和RNA。
  • : 磷是一种以磷酸的形式由植物的根吸收。磷酸在人体内十分重要,磷酸和其它化合物组成了生物必须的DNA(储存基因)、RNA(使DNA的基因转化为蛋白质)、三磷酸腺苷(储存和制造能量)、磷酸钙(组成骨骼和牙齿)和磷脂(组成细胞膜)。磷的存在和生活息息相关,例如围绕神经细胞轴突的髓鞘(由鞘磷脂组成)可以使神经冲动得以传播进入器官(例如肌肉和腺体)。磷脂是组成细胞膜的主要成分。
  • : 半胱氨酸、甲硫氨酸和牛磺酸等一些含有氨基的有机酸里面有硫原子。而牛磺酸可以抑制神经冲动,用于控制痉挛,而含硫的氨基酸组成了蛋白质和生命重要的一部分:甲硫氨酸可以增进食欲,标识蛋白质的形成,并携带人体需要的硫和甲基;半胱氨酸可以帮助解毒和修复放射线损害。
  • : 血液和细胞内液电解质主要成分,也是胃酸的主要成分。
  • : 血液和细胞内液电解质主要成分。
  • : 血液和细胞外液电解质主要成分。
  • : 骨和牙齿的结构; 作用在细胞信号传导,代谢,组织维持中。
  • : 骨头结构中重要的角色。
https://zh.wikipedia.org/wiki/微量营养素

3.3 人体中的元素占比

https://zh.wikibooks.org/wiki/初中化学/地壳及人体中的元素
人体中的50多种元素在自然界中都可以找到。人体中含量较多的元素有11种,他们约占人体质量的99.95%。
在人体中含量超过0.01%的元素,称为常量元素;含量在0.01%以下的元素,称为微量元素。
一些微量元素在人体中的含量虽然很小,却是维持正常生命活动所必需的。
在人体中,含量较多的四种元素是氧气、碳、氢、氮,其余的元素主要以无机盐的形式存在于水溶液中。
它们有些是构成任务组织的重要材料;有些能够调节人体的新陈代谢,促进身体健康。
元素名称 含量(质量分数)
O 65.00%
C 18.00%
H 10.00%
N 3.00%
Ca 2.00%
P 1.00%
K 0.35%
S 0.25%
Na 0.15%
Cl 0.15%
Mg 0.05%
Fe,Co,Cu,Zn,Cr,Mn,Mo,F,I,Se等 0.05%

https://ja.wikipedia.org/wiki/元素構成比



2020-01-23

wikipedia123

wikipedia
1. 维基百科
2. 更多维基项目
3. 有关维基百科的电影列表
4. 维基软件
5. 维基百科相关列表
6. 其他知识分享列表
7. 补充:维基百科使用中好用的关键字

1. 维基百科

https://www.wikipedia.org/
https://en.wikipedia.org/wiki/Wikipedia
维基百科(英语:Wikipedia,/ˌwɪkiˈpiːdiə/)
是一种多语言在线百科全书。创建并维护为开放协作项目。使用基于Wiki的编辑系统的志愿者编辑社区。
它是万维网上最大,最流行的一般参考文献,也是截至2020年1月Alexa排名的最受欢迎的网站之一。
它的唯一功能是免费内容和没有商业广告,由非营利组织维基媒体基金会负责营运。,主要通过资助捐赠。
维基历史: https://en.wikipedia.org/wiki/History_of_wikis
维基百科争议清单: https://en.wikipedia.org/wiki/List_of_Wikipedia_controversies

https://meta.wikimedia.org/wiki/List_of_Wikipedias
Wikipedia(维基百科)官方的所有约300种语言的列表。
包含每种语言已有多少文章,有多少用户参与,活跃用户数量等。

互联网上使用的语言
https://en.wikipedia.org/wiki/Languages_used_on_the_Internet
https://szosoft.blogspot.com/2020/01/languages-used-on-internet.html

英文维基百科(约600万文章);中文维基百科(100多万文章)。(2020年1月数据)
https://en.wikipedia.org/wiki/
https://zh.wikipedia.org/wiki/

2. 更多维基项目

https://zh.wikipedia.org/wiki/维基媒体计划
类别 名称 链接 简述 (Free - 自由,免费)
Content projects

内容项目
维基百科 https://www.wikipedia.org/ Free 协作百科全书
维基导游 https://www.wikivoyage.org/ Free 旅行指南
维基词典 https://www.wiktionary.org/ Free 多语言字词典
维基书籍(教科书) https://www.wikibooks.org/ Free 教科书和手册
维基学院(课程) https://www.wikiversity.org/ Free 课程资料
维基资源(文库) https://www.wikisource.org/ Free 图书馆
维基新闻 https://www.wikinews.org/ Free 内容的新闻
维基数据 https://www.wikidata.org/ Free 知识库
维基语录 https://www.wikiquote.org/ Free 名人名言的集锦
维基共享资源 https://commons.wikimedia.org/ Free 多媒体资料库
维基物种 https://species.wikimedia.org/ Free 物种目录
孵化器 https://incubator.wikimedia.org/ 用于开发中的语言版本
"Technical and development" projects
"技术与发展"项目
维基元数据 https://meta.wikimedia.org/ 协调各维基计划
错误跟踪器 https://phabricator.wikimedia.org/ MediaWiki的错误跟踪器
Wikimedia技术文档 https://wikitech.wikimedia.org/ 技术项目和基础结构有关的文档的所在地。
测试 https://test.wikipedia.org/ 用于测试软件更改
维基应用程序 https://www.mediawiki.org/ Free & open Wiki应用程序及文档
托管环境 https://wikitech.wikimedia.org/wiki/Help:Cloud_Services_Introduction 用于社区管理的软件项目,工具和数据分析
"Outreach and administration" projects
"外联和行政"项目
Wikimedia外联 https://outreach.wikimedia.org/ 外联Wiki是一些外联和协作计划的所在地。
Wikimedia国际会议 https://wikimania.wikimedia.org/ 每年3天的会议,讨论,聚会,培训和研讨会。
Wikimedia邮件服务 https://lists.wikimedia.org/ Wikimedia公共邮件列表
Wikimedia统计 https://stats.wikimedia.org/ Wikimedia统计
维基媒体 https://www.wikimedia.org/
维基媒体基金会 https://wikimediafoundation.org/ 基金会公共关系

3. 有关维基百科的电影列表

https://en.wikipedia.org/wiki/List_of_films_about_Wikipedia
  • 维基百科的真相(https://en.wikipedia.org/wiki/The_Truth_According_to_Wikipedia)是由IJsbrand van Veelen执导的有关 Wikipedia的2008年荷兰 纪录片,最初在 VPRO Backlight上放映。纪录片检查了维基百科的可靠性,以及专家与业余编辑之间的二分法。影片包括维基百科共同创始人吉米·威尔士( Jimmy Wales)和拉里·桑格( Larry Sanger)的评论,《业余爱好者的崇拜》安德鲁·基恩( Andrew Keen), O'Reilly Media 首席执行官 蒂姆·奥赖利和前主编,首席的大英百科全书 罗伯特·麦克亨利。Keen认为,专家应该在Web 2.0现象期间充当信息保护者的角色。Sanger的分析支持了这一观点。该影片以荷兰语和英语版本发行(带有字幕的其他语言的采访)。
  • 数字真相(https://en.wikipedia.org/wiki/Truth_in_Numbers%3F)是2010年的美国 纪录片,探讨在线用户可编辑的百科全书 Wikipedia的历史和文化含义。这部电影试图回答是否应该委托所有个人还是仅仅是专家来编辑一本百科全书。给出了网站的历史和背景,以及维基百科创始人 Jimmy Wales和 Larry Sanger的评论。出现在电影评论家包括作家霍华德·津恩,莱恩·唐尼的华盛顿邮报,鲍勃·希弗的 CBS新闻,前者大英百科全书首席罗伯特·麦克亨利( Robert McHenry)和中央情报局前局长詹姆斯·伍尔西( James Woolsey)。纪录片讨论了对Wikipedia不利的事件,包括 Essjay争议和 Wikipedia传记争议。
  • “人是知识”(People are Knowledge)是在研究项目过程中拍摄的电影,探讨了如何在Wikipedia上采用其他引用方法。影片记录了一系列有关公开知识以及随后的口头引用的特定情况。它由Priya Sen,Zen Marie和Achal Prabhala制作。

4. 维基软件

https://en.wikipedia.org/wiki/List_of_wiki_software
https://en.wikipedia.org/wiki/Comparison_of_wiki_software
https://zh.wikipedia.org/wiki/Wiki软件比较
以下表格中列出部分Wiki引擎的技术信息。
https://en.wikipedia.org/wiki/Wiki_software
https://zh.wikipedia.org/wiki/Wiki軟體
https://en.wikipedia.org/wiki/Wiki_hosting_service

https://zh.wikipedia.org/wiki/维基媒体计划#软件项目及其他后台项目

5. 维基百科相关列表

https://en.wikipedia.org/wiki/List_of_wikis
https://zh.wikipedia.org/wiki/Wiki網站列表
https://zh.wikipedia.org/wiki/在线百科全书列表
https://en.wikipedia.org/wiki/List_of_online_encyclopedias

6. 其他知识分享列表

学术数据库和搜索引擎列表: https://en.wikipedia.org/wiki/List_of_academic_databases_and_search_engines
谷歌学术: https://en.wikipedia.org/wiki/Google_Scholar
博客清单: https://en.wikipedia.org/wiki/List_of_blogs
按知识分支列出的百科全书: https://en.wikipedia.org/wiki/List_of_encyclopedias_by_branch_of_knowledge
在线数据库列表: https://en.wikipedia.org/wiki/List_of_online_databases
在线词典列表: https://en.wikipedia.org/wiki/List_of_online_dictionaries
多语言MediaWiki网站列表: https://www.mediawiki.org/wiki/Sites_using_MediaWiki/multilingual
维基百科列表: https://en.wikipedia.org/wiki/List_of_Wikipedias
Wikiversity学习资源列表: https://en.wikiversity.org/wiki/Wikipedia#Learning_resources

7. 补充:维基百科使用中好用的关键字

想要查询某个主题的相关信息,可使用如下关键字
历史: History_of_ https://en.wikipedia.org/wiki/History_(disambiguation)
时间线: Timeline_of_ https://en.wikipedia.org/wiki/List_of_timelines
列表: List_of_ https://en.wikipedia.org/wiki/List_of_lists_of_lists
对比: Comparison_of_ https://en.wikipedia.org/wiki/Category:Comparisons
大纲: Outline_of_
类别: Category: https://en.wikipedia.org/wiki/Category:Lists  https://en.wikipedia.org/wiki/Category:Lists_of_topics

比如:
https://en.wikipedia.org/wiki/History_of_the_periodic_table 元素周期表的历史
https://en.wikipedia.org/wiki/Timeline_of_chemical_element_discoveries 化学元素发现时间表
https://en.wikipedia.org/wiki/List_of_periodic_table-related_articles 元素周期表相关文章清单


Languages-used-on-the-Internet

Languages-used-on-the-Internet
1. 互联网上使用的语言
  1.1 网站内容语言
  1.2 按语言互联网用户
  1.3 维基百科文章统计
2. 综合以上表格数据出图表(2019数据)
  2.1 前10种语言的网页内容数量
  2.2 前10大语言的维基百科文章数量

1. 互联网上使用的语言

https://en.wikipedia.org/wiki/Languages_used_on_the_Internet
万维网上访问最多的网站的网页中,略有一半以上是英文的,并提供了许多其他语言的各种信息。
据W3Techs称,其他主要语言是俄语,德语,西班牙语,法语,日语,葡萄牙语,意大利语和波斯语。
在现有的7,000多种语言中,只有几百种被认为是用于万维网上的网页的。

1.1 网站内容语言

截至2019年12月,W3Techs估计使用各种内容语言的万维网上排名前1000万的网站所占的百分比:
https://en.wikipedia.org/wiki/Languages_used_on_the_Internet#Content_languages_for_websites
https://w3techs.com/technologies/history_overview/content_language

1.2 按语言互联网用户

截至2019年4月30日,InternetWorldStats按语言对互联网用户数量的估计:
https://en.wikipedia.org/wiki/Languages_used_on_the_Internet#Internet_users_by_language
https://www.internetworldstats.com/stats7.htm

1.3 维基百科文章统计

https://meta.wikimedia.org/wiki/List_of_Wikipedias

2. 综合以上表格数据出图表(2019数据)

统计前10种语言的互联网用户数量与互联网内容的关系
TOP TEN LANGUAGES IN THE INTERNET Internet Users % of World (Participation) content languages for websites Wiki Articles (万篇) 语言
English 25.20% 56.00% 600 英语
Russian 2.50% 7.30% 159 俄语
Spanish 7.90% 4.70% 157 西班牙语
German 2.10% 4.50% 239 德语
French 3.30% 3.40% 217 法文
Japanese 2.70% 3.10% 119 日本
Portuguese 3.90% 2.60% 102 葡萄牙语
Chinese 19.30% 1.50% 109 中文
Arabic 5.20% 0.70% 103 阿拉伯语
Indonesian 3.90% 0.50% 52 印尼文
(Other) 24.00% 15.70%
(其他)

2.1 前10种语言的网页内容数量

2.2 前10大语言的维基百科文章数量



2020-01-22

Simple-English

Simple English
1. Basic English
  1.1 设计原则: 
  1.2 基本英语单词列表850个
  1.3 规则: 
  1.4 质疑
  1.5 维基百科:基本英语组合词表
  1.6 简单英文维基百科
  1.7 简易英语词典
  1.8 其他
2. 受控自然语言
  2.1 现有的受控自然语言包括:
  2.2 受控语言的十个规则
  2.3 使用受控语言的好处
3. 国际辅助语言
4. 全球语言系统
5. World language
6. 更多语言概念及相关链接
7. 更多相关链接

1. Basic English

https://simple.wikipedia.org/wiki/Basic_English
https://en.wikipedia.org/wiki/Basic_English
基本英语是由语言学家和哲学家查尔斯·凯·奥格登(Charles Kay Ogden)创建的一种基于英语的控制语言,它是一种国际辅助语言,并且是辅助英语教学的辅助语言。
从本质上讲,基本英语是常规英语的简化子集。它在奥格登的《基本英语:规则与语法通论》(1930年)一书中进行了介绍。

1.1 设计原则:

奥格登(Ogden)尝试通过指定语法限制和可控制的小词汇量来简化英语,同时使母语人士保持正常的英语水平,从而广泛使用释义。
最值得注意的是,奥格登只允许使用18个动词,他称之为“操作员”。
他的通论说“基本英语中没有'动词'”,其基本假设是,英语中名词的使用非常简单,而动词的使用/缀合则不是,动词的消除将是一个受欢迎的简化。

1.2 基本英语单词列表850个

奥格登基础英语今天所幸存的是基本的850个单词列表,这些列表被用作世界各地(尤其是在亚洲)教授的英语初学者的词汇。
https://en.wiktionary.org/wiki/Appendix:Basic_English_word_list
850个词按类别 http://ogden.basic-english.org/wordcat.html
850个词按类别(图) http://ogden.basic-english.org/wordpic.html
https://en.wiktionary.org/wiki/Appendix:1000_basic_English_words

1.3 规则:

基本英语包含一个简单的语法,用于修改或组合其850个单词以谈论其他含义(形态派生或词尾变化)。语法是基于英语的,但是要简单得多。
https://en.wikipedia.org/wiki/Basic_English#Rules
https://simple.wikipedia.org/wiki/Basic_English#Rules_of_word_use
  • (名词复数Plural) -s / -es / -ies change singular nouns into plural nouns. (: drinks, boxes, or countries.)
  • (动词 > 形容词) -ing / -ed change verbs into adjectives. (煮沸boiling, 混合mixed)
  • (动词 > 名词) -ing / -er change verbs into nouns. (prisoner, building)
  • (形容词+ly > 副词) -ly changes adjectives into adverbs. (紧密地 tightly)
  • (比较级,更,最) -er / -est or more / most describe amounts. (更便宜 cheaper)
  • (反意表达 un-) un- changes the meanings of adjectives into their opposites. Negatives(不明智 unwise)
  • (疑问句questions) The opposite word order with do makes questions.
  • ('操作'(动词)和代词的变化与普通英语相同) 'Operators' (verbs) and pronouns change as in normal English. (例如,我去找他,他去找我。I go to him, He goes to me)
  • (复合词Compound) Make combined words (compounds) from two nouns (for example "milkman") or a noun and a direction ("sundown").
  • (国际单词International) Measures, numbers, money, days, months, years, clock time, and international words are in English forms. E.g. Date/Time: 20 May 1972 at 21:00 (度量,数字,货币,天,月,年,时钟时间和国际字为英语形式。例如,日期/时间:1972年5月20日21:00)
  • (用行业或科学的话。例如,在该语法中,一些特殊的单词用于教学语言,而不是基础英语的一部分:复数,变体,名词,形容词,副词,限定词,运算符,代词和指示语。)

1.4 质疑

https://en.wikipedia.org/wiki/Basic_English#Criticism
作为英语作为第二语言的教学辅助手段,基础英语因其核心词汇的选择及其语法限制而受到批评。
1944年,可读性专家Rudolf Flesch在《哈珀杂志》上发表了一篇文章,“基础英语有多基础?” 他声称:“这不是基础,也不是英语。”
他抱怨的实质是词汇过于局限,结果,文本最终变得笨拙,而且比必要的难度更大。
他还争辩说,“基本”词汇表中的单词是任意选择的,并且指出,没有任何经验研究表明它简化了语言。

1.5 维基百科:基本英语组合词表

https://simple.wikipedia.org/wiki/Wikipedia:Basic_English_combined_wordlist
这是最大的基础英语组合单词列表​​。这是高级学生从基本英语转换为标准英语时会了解的信息。因此,任何一个知道所有这些单词的学生都远远超出了基础英语。
它实际上包含2600多个单词,并结合了五个单独的单词列表:(总计:2626个)
  • 基本 Basic: 850 Basic English words.
  • 国际 International: 179 international words:
    • 50 international nouns.
    • 12 names of sciences. 科学
    • 12 title and organizational names. 组织
    • 50 general utility names. 通用实用程序
    • 5 onomatopoeic (sounds like) words. 拟声词
    • 50 words about time and numbers.
    • 附录 Addendum: 1293 words used as an addendum.[4]
  • 复合 Compound: 215 compound words (made up of Basic English words).[5]
  • 后缀 Endings: 91 new words made from adding the allowed endings: -er, -ed, -ing, -ly, -s, and the prefix un-.

1.6 简单英文维基百科

https://en.wikipedia.org/wiki/Simple_English_Wikipedia
该网站的既定目标是为“具有不同需求的人,例如学生,儿童,成人和青少年提供百科全书。学习困难和试图学习英语的人们。
该项目使用了大约1500个常用英语单词,是由查尔斯·凯·奥格登(Charles Kay Ogden)在1920年代创造的850字的辅助国际语言。
简单的英语Wikipedia的基本演示风格使其非常适合初学者学习英语。[6] [7]它较简单的词结构和语法,尽管从原始信息的角度来看有损,但可以使信息易于理解。

https://simple.wikipedia.org/wiki/Main_Page
在此处撰写文章时:
使用基本英语词汇和较短的句子。这使人们能够理解通常复杂的术语或短语。https://simple.wikipedia.org/wiki/Basic_English
写好页面。最好的百科全书页包含有用且写得很好的信息。
使用页面进行学习和教导。这些页面可以帮助人们学习英语。您也可以使用它们创建新的Wikipedia以帮助其他人。
简单并不意味着简短。用简单英语写作意味着使用简单的单词。这并不意味着读者想要基本信息。文章不必太短就可以简单;扩展文章,添加细节,但使用基本词汇表。https://simple.wikipedia.org/wiki/Vocabulary
大胆!您的文章不一定是完美的,因为其他编辑者会对其进行修复并使其变得更好。最重要的是,不要害怕开始撰写更好的文章。

1.7 简易英语词典

https://en.wiktionary.org/wiki/simple:

1.8 其他

普通英语 https://en.wikipedia.org/wiki/Plain_English
简单的英语  https://en.wikipedia.org/wiki/Simple_English
特殊英语,美国之音广播服务使用的一种英语形式 https://en.wikipedia.org/wiki/Special_English

简化的技术英语,一种最初为航空航天工业维护手册开发的受控语言
https://en.wikipedia.org/wiki/Simplified_Technical_English
ASD-STE100 简体技术英语是1980年代初期开发的一种受控语言(称为AECMA简体英语),可帮助英语维护文档的用户理解其阅读内容。它最初适用于民用航空。然后,它也成为包括陆路和海上车辆在内的国防项目的要求。结果,今天,许多维护手册都是用STE编写的。

2. 受控自然语言

https://en.wikipedia.org/wiki/Controlled_natural_language
受控自然语言(CNL)是自然语言的子集,通过限制语法和词汇量来获得自然语言的子集,以减少或消除歧义和复杂性。传统上,受控语言分为两种主要类型:那些可提高人类读者(例如非母语人士)可读性的语言,以及能够对语言进行可靠的自动语义分析的语言。

第一类语言(通常称为“简化”或“技术”语言),例如ASD简化技术英语,Caterpillar技术英语,IBM的Easy English,在业界用于提高技术文档的质量,并且可能简化文档的(半)自动翻译。这些语言通过诸如“保持句子简短”,“避免使用代词 ”,“仅使用字典认可的单词”和“仅使用主动语态 ”之类的一般规则限制作者。[1]

第二种语言具有形式逻辑基础,即它们具有形式语法和语义,并且可以映射到现有的形式语言,例如一阶逻辑。因此,这些语言可以作为知识表示语言,[2]和这些语言的书写由全自动支持一致性和冗余校验,查询应答等

2.1 现有的受控自然语言包括:

2.2 受控语言的十个规则

https://en.wikipedia.org/wiki/Controlled_language_in_machine_translation#A_controlled_language_with_ten_rules
每种语言的语法规则都不同。因此,受控语言的规则因一种语言而异。并没有针对所有语言都能获得最佳结果的规则。但是,有一些规则可以减少许多语言中大多数文本的歧义。根据Uwe Muegge的文章“针对统一翻译优化的受控语言”(2002年),应应用以下十个规则:
  • 撰写少于25个字的句子。  简短(结构合理);避免歧义和从属;评估信息。
  • 写只表达一个主意的句子。  简单的句子;避免(动名词,并置等)。
  • 如果您想表达相同的内容,请写下相同的句子。  不要害怕重复;避免同义词。
  • 写出语法上完整的句子。  语法和正字法正确的句子;避免省略号。
  • 编写具有简单语法结构的句子。  避免并列,从属,相对代词等。
  • 以活动形式写句子。  避免被动语态。
  • 写出重复名词而不是代词的句子。  避免代词,比如: it, their, 等。
  • 写一些使用文章来识别名词的句子。  使用: the, this, 等。
  • 用一般词典中的单词写句子。  请勿使用专业用语
  • 写只使用正确拼写单词的句子。  避免错误。

2.3 使用受控语言的好处

https://en.wikipedia.org/wiki/Controlled_language_in_machine_translation#Benefits_of_using_a_controlled_language
它使产生的文本更易于阅读,更易理解,更易于保留,并具有更好的词汇和风格。引入受控语言的原因包括:
  • 更具可读性和可理解性的文档提高了产品的可用性。
  • 受控语言保证在通常比较主观和非结构化的环境中提供客观和结构化的支持。
  • 工具驱动的受控语言环境可实现许多编辑任务的自动化,并为创作过程提供客观的质量指标。
  • 语言的限制和控制程度更高,生成的源文档更加统一和标准化,并且翻译记忆库系统中的匹配率更高,并且翻译成本更便宜。
  • 专为机器翻译设计的受控语言将显着提高机器生成的翻译建议的质量,并将减少人工翻译的时间和成本。
https://sites.google.com/site/controllednaturallanguage/

3. 国际辅助语言

https://en.wikipedia.org/wiki/International_auxiliary_language
几个世纪以来,统治社会的语言一直是通用语言,有时已经接近国际水平。
过去使用拉丁语,希腊语和地中海式的Lingua Franca,最近在世界许多地方都使用了(标准)阿拉伯语,标准中文,英语,法语,葡萄牙语,俄语和西班牙语

为简化国际交流而建议的计划或构建的语言,例如世界语,伊多语和国际语。
但是,它也可以指由国际共识确定的这种语言的概念,甚至包括标准化的自然语言(例如,国际英语),并且也已与构建通用语言的项目相关。

国际上对辅助语言的批评
在19世纪末期已经普遍存在并且如今仍时有耳闻的一种批评是,一种国际语言可能会加速少数民族语言的灭绝。一种反应是,即使发生这种情况,收益也将超过成本;另一个回应是,人们普遍认为辅助语的支持者,特别是世界语运动中的支持者,也是保护和促进少数民族语言的措施的支持者和文化。
尽管被称为国际语言,但大多数这些语言在历史上都是基于西欧语言构建的。

4. 全球语言系统

https://en.wikipedia.org/wiki/Global_language_system
  • 首先,拉丁语(欧洲): 拉丁语起源于罗马。在统治着众多国家的罗马帝国的统治下,拉丁语的使用沿地中海沿岸,欧洲的南半部延伸,向北至北向稀疏,然后进入日耳曼和凯尔特人的土地。因此,拉丁语从公元前27年到公元476年发展成为欧洲的中心语言。
  • 其次,汉语(中国): 由于秦始皇在公元前221年统一了中国,汉代前古典版本在当代中国得到了广泛使用。
  • 第三,梵文(南亚): 梵文在南亚国家中广泛传播的印度教和佛教教义中开始在南亚广泛使用。
  • 第四,阿拉伯语(中亚): 阿拉伯帝国的扩展也导致在非洲-欧亚大陆上阿拉伯语作为一种语言的使用增加。
  世界语言金字塔
根据David Graddol(1997)在他的《英语的未来》一书中,世界语言构成了一个“等级金字塔”,如下所示:
https://upload.wikimedia.org/wikipedia/commons/9/94/The_world_language_hierarchy_%28adapted_from_Graddol%2C_1997%29.jpg
  • 主要的语言:英语,法语。
  • 区域语言(联合国的语言标有星号):阿拉伯文 *,普通话 *,英语*,法语*,德语,俄语 *,西班牙语 *,印度斯坦尼语
  • 国家语言:服务于180多个州的大约80种语言。
  • 国家内部的官方语言(和其他“安全”语言):全世界大约600种语言(例如Marathi)。
  • 本地语言:世界上6,000多种语言中的其余语言。
  翻译系统
一位历史社会学家约翰·海尔布隆(Johan Heilbron)解释说,全球语言体系也出现在国际翻译过程中:“翻译和这些隐含的活动隐含并依赖于世界翻译体系,包括源文化和目标文化”。
全球语言之间的层次关系反映在全球翻译系统中。语言越“中央”,其充当桥梁或车辆语言以促进外围语言和半中心语言之间的交流的能力就越大。
Heilbron的全球翻译语言系统版本有四个级别:
  • 级别1:超级中心位置-当前,英语在全球翻译市场中占有最大的市场份额;所有书籍的翻译中有55–60%来自英语。它强烈支配着书籍翻译系统的层次性。
  • 第2级:居中地位–德语和法语分别占全球翻译市场的10%。
  • 级别3:半中心地位-有7或8种语言“既不是全球范围内的中心,也不是非常边缘化的”,占世界市场的1%至3%?(如西班牙语,意大利语和俄语)。
  • 级别4:外围位置-“全世界翻译量不到1%的语言”所用的语言,包括中文,印地语,日语,马来语,斯瓦希里语,土耳其语和阿拉伯语。尽管有大量发言者,但“与更多的中央语言相比,他们在翻译经济中的作用是外围的”。

5. World language

https://en.wikipedia.org/wiki/World_language
当今世界上使用最广泛的语言(并且可能是传播速度最快的世界语言)是英语,全球有超过11亿的母语和第二语言用户。
基于类似的理由,法语和西班牙语也通常被归类为世界语言。
其他可能的世界语言包括阿拉伯语,汉语,俄语和葡萄牙语

从历史上看,埃及语,古希腊语,拉丁语,古典中文,波斯语,梵语和古典阿拉伯语也曾作为世界语言使用,这是因为它们在世界大部分地区曾是通用语言。

https://en.wikipedia.org/wiki/Standard_language
多中心语言具有相互影响的标准变体。例子是英语,法文和葡萄牙文,德文,韩文和塞尔维亚-克罗地亚文,西班牙文和瑞典文,亚美尼亚文和普通话;而单中心语言,例如俄语和日语,则有一个标准化的习语。

https://en.wikipedia.org/wiki/Official_language
官方语言,也被称为国家的语言,是一种语言在特定给予特殊的法律地位的国家,州或其他司法管辖区。通常,一国的官方语言是指政府使用的语言(司法,立法,行政)。[1] “官方语言”一词通常不是指某个民族或国家所使用的语言,而是其政府所使用的语言,[2]是指“任何一种法律都不能改变一种民族的表达方式”。

6. 更多语言概念及相关链接

自然语言
https://en.wikipedia.org/wiki/Natural_language
在神经心理学,语言学和语言哲学中,自然语言或普通语言是指通过使用和重复在人类中自然进化而无需进行有意识的计划或预想的任何语言。
自然语言可以采用不同的形式,例如语音或签名。它们与构造语言和形式语言(例如用于编程计算机或学习逻辑的语言)有所区别。

构造语言
https://en.wikipedia.org/wiki/Constructed_language
构造语言(有时称为conlang)是一个语言,其音韵,语法,和词汇,代替具有开发自然,有意识地设计出来。
构造语言也可以称为人工语言,计划语言或发明语言,在某些情况下还可以称为虚构语言。计划的语言是经过专门设计的语言。它们是故意控制干预的结果,因此是语言计划的一种形式.
创建一种构建的语言有很多可能的原因,例如,简化了人类之间的交流(请参阅国际辅助语言和代码);给小说或相关的构筑物增加现实感;用于语言学,认知科学和机器学习领域的实验; 用于艺术创作 ; 和语言游戏。

构造语言列表
https://en.wikipedia.org/wiki/List_of_constructed_languages
https://en.wikipedia.org/wiki/List_of_constructed_languages#Auxiliary_languages
https://en.wikipedia.org/wiki/List_of_constructed_languages#Controlled_languages

通用语列表  https://en.wikipedia.org/wiki/List_of_lingua_francas

按母语使用者列出的语言列表  https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers
按发言人总数列出的语言  https://en.wikipedia.org/wiki/List_of_languages_by_total_number_of_speakers

语言监管者名单  https://en.wikipedia.org/wiki/List_of_language_regulators

7. 更多相关链接

语言决定论  https://en.wikipedia.org/wiki/Linguistic_determinism
该理论的最强形式是语言决定论,它认为语言完全决定了认知过程的范围。现在,人们普遍认为语言决定论的假设是错误的。
他被誉为“语言如监狱”。尽管语言确定论在历史上起着相当重要的作用,但如今在主流语言学家中已声名狼藉。

尼采著名地写道:“我们不再考虑是否不想在语言限制下这样做”,最初被错误地翻译为“如果我们拒绝在语言监狱中这样做,我们就必须停止考虑”。
“语言的监狱”这个短语代表了关于语言决定论的极端立场。尽管尼采的立场并不像监狱里的观点那么激烈,但他确实相信语言是思想的基础,从根本上塑造和影响了思想。
这是他对为何存在文化差异的解释:由于语言不同,因此思维过程也不同。[2]
尼采还写道,有“权力的意志,除了什么都没有”,这是尼采表达语言的一种固定方式,它负责人类的欲望,思想和行为,这是尼采的另一种方式。
这代表了语言确定性,使语言成为人们因此而陷入的“监狱”。根据尼采的说法,餐桌或雨天之类的东西在语言中没有单词时是无法理解的。
https://en.wikipedia.org/wiki/Linguistic_determinism#Supporting_Arguments
https://en.wikipedia.org/wiki/Linguistic_determinism#Criticism

语言相对论
https://en.wikipedia.org/wiki/Linguistic_relativity
通常用两种形式之一来定义该原理:强假设(由第二次世界大战之前的一些早期语言学家持有)和弱假设(主要由一些现代语言学家持有)。
强版本,语言决定思维和语言类别限制,并确定认知范畴。
弱版本,语言类和使用只影响思考和决策。

语言与思想
https://en.wikipedia.org/wiki/Language_and_thought
https://en.wikipedia.org/wiki/Language_and_thought#Other_schools_of_thought
E-prime是一种与英语相同的构造语言,但缺少所有形式的“ be ”。它的支持者声称,教条式思维似乎依赖于“成为”语言构造,因此通过删除它,我们可能会阻止教条主义。

语言相对论和颜色命名辩论
https://en.wikipedia.org/wiki/Linguistic_relativity_and_the_color_naming_debate
颜色辩论有两个正式方面,即普遍主义者和相对主义者。
普遍主义方面声称,所有人的生物学都是一样的,因此颜色术语的发展具有绝对的普遍性约束。
相对论者断言,颜色术语的变化是跨语言的(从语言到语言),这表明存在更多的文化特定现象。
由于颜色同时表现出生物学和语言方面的问题,因此它已成为研究语言与思想之间关系的重点。
在2006年辩论的回顾中,保罗·凯(Paul Kay)Terry Regier得出结论:“颜色命名存在普遍限制,但同时,不同语言之间的颜色命名差异也会导致颜色认知和/或感知方面的差异。”

形式语言
https://en.wikipedia.org/wiki/Formal_language

语法框架
https://en.wikipedia.org/wiki/Grammar#Frameworks

https://en.wikipedia.org/wiki/Programming_language
https://en.wikipedia.org/wiki/Lists_of_programming_languages

https://en.wikipedia.org/wiki/Logic
https://en.wikipedia.org/wiki/List_of_logic_symbols

数学原理中使用的符号列表
https://en.wikipedia.org/wiki/List_of_notation_used_in_Principia_Mathematica
数学符号列表
https://en.wikipedia.org/wiki/List_of_mathematical_symbols

https://en.wikipedia.org/wiki/Lists_of_languages

https://en.wikipedia.org/wiki/Language_game
https://en.wikipedia.org/wiki/Word_game
https://en.wikipedia.org/wiki/Word_play

由具有记录能力的单词组成的单词游戏的分类法
http://www.questrel.com/records.html

https://en.wikipedia.org/wiki/Lists_of_extinct_languages

语言纯粹主义  https://en.wikipedia.org/wiki/Linguistic_purism
语言分裂主义  https://en.wikipedia.org/wiki/Language_secessionism
语言帝国主义  https://en.wikipedia.org/wiki/Linguistic_imperialism
英语 – 英语语言纯粹主义  https://en.wikipedia.org/wiki/Linguistic_purism_in_English

标记语言列表  https://en.wikipedia.org/wiki/List_of_markup_languages

类别:受控英语  https://en.wikipedia.org/wiki/Category:Controlled_English

2020-01-10

Character-encoding-translation


1. 文本编辑器转换
2. 命令行转换
3. 查看文件信息
4. VLC字幕乱码相关链接
5. 更多字符转换工具列表
6. 更多链接

1. 文本编辑器转换

  • linux(默认 utf-8) 下可用gedit,mousepad等将文本文件转换为utf-8编码
  • Windows(默认 utf-16) 下可用记事本另存为utf-8格式

2. 命令行转换

  • 文件内容可以用iconv来转换;
  • 中文的文件名用convmv来转换。
  • 更好的傻瓜型命令行工具enca,它不但能智能的识别文件的编码,而且还支持成批转换。
convmv -f GBK -t UTF-8 *.mp3
不过这个命令不会直正的转换,你可以看到转换前后的对比。如果要直正的转换要加上参数 --notest
convmv -f GBK -t UTF-8 --notest *.mp3

convmv -f GBK -t UTF-8 --notest --nosmart file

enca -x utf-8 *.srt
enconv

iconv -f GBK -t UTF-8 -o new-file origin-file

iconv 工具是 GNU libc 库组成部分,因此它在所有 Linux 发行版中都是开箱即用的。

3. 查看文件信息

>file the.art.of.self.defense.2019.ass
the.art.of.self.defense.2019.ass: ISO-8859 text, with CRLF line terminators
>
> file --mime-encoding the.art.of.self.defense.2019.ass
the.art.of.self.defense.2019.ass: iso-8859-1

> file -i the.art.of.self.defense.2019.ass
the.art.of.self.defense.2019.ass: text/plain; charset=iso-8859-1

> file text.txt
text.txt: UTF-8 Unicode text
> file --mime-encoding text.txt
text.txt: utf-8
> file -i text.txt
text.txt: text/plain; charset=utf-8

> iconv -f iso-8859-1 -t utf-8 tt2.ass > tt21.ass
> file tt21.ass
tt21.ass: UTF-8 Unicode text, with CRLF line terminators

4. VLC字幕乱码相关链接

2009-12-19
https://www.linuxidc.com/Linux/2009-12/23535.htm
1. 首先启动VLC,按Ctrl+P,左下角的显示设置 选 全部
2. 依次点开:视频-字幕/OSD-文本渲染器 右侧的字体栏中,选择一个中文字体。(我选的是/usr/share/fonts/truetype/wqy/wqy-zenhei.ttc)
3. 接着点开:输入/编码-其它编码器-字幕 右侧的 字幕文本编码 选 GB18030
4. 然后 把 自动检测 UTF-8 字幕 格式化字幕 前面的勾去掉。(这条在新版中似乎已经不存在)

2009-4-27 13:31:41
https://bbs.feng.com/read-htm-tid-344593.html

VLC默认支持的字幕内码为utf-8,而我们从网上下载的.srt字幕基本上都是GBK码,因此解决方法有两种:1、把字幕文件转成utf-8编码;2、把VLC的默认字幕内码改为GBK。其中第二种方法是最方便,最一劳永逸的,因此我推荐大家使用第二种方法,具体步骤如下:

  1,打开VLC的Preferences窗口(按苹果键+,),依次选择Video -> Subtitles/OSD -> Text renderer,右边的设置区第一项为Font,点击Browse按钮选择一项中文字体,如下图:
  2,依次选择Preferences窗口左边菜单框的Input / Codecs -> Other codecs ->Subtitles,将右边的设置区中Subtitles text encoding设置为GBK,同时取消UTF-8 subtitlesautodetection前面的勾,如下图:
  3,重启VLC,好了,享受你的电影吧。

1. 打开VLC的Preferences窗口(Ctrl+P),点击右下角的all,在左边的索引中依次选择Video -> Subtitles/OSD -> Text renderer,右边的设置区第一项为Font,点击Browse按钮选择一项中文字体,如WenQuanYi Micro Hei。注:我也不知道其他什么字体支持中文,知道的可以给我留个言。
2. 依次选择Preferences窗口左边菜单框的Input / Codecs -> Subtitles codecs ->Subtitles,将右边的设置区中Subtitles text encoding设置为Universal Chinese (GB18030),同时取消 UTF-8 subtitlesautodetection前面的勾。

5. 更多字符转换工具列表

https://szosoft.blogspot.com/2020/01/unicode.html#210
https://zh.wikipedia.org/wiki/字符编码#字符转换工具
https://en.wikipedia.org/wiki/Character_encoding#Character_encoding_translation

6. 更多链接

https://szosoft.blogspot.com/2020/01/unicode.html
https://szosoft.blogspot.com/2020/01/locale.html

https://blog.csdn.net/jnbbwyth/article/details/6991425
linux下查看文件编码及修改编码

https://wiki.archlinux.org/index.php/Localization/Simplified_Chinese_(简体中文)#文件内容乱码

https://wiki.archlinux.org/index.php/Core_utilities#Nonessentials

2020-01-09

Locale


1. Locale 概述
2. Windows 区域设置
3 Linux Locale
 3.1 Linux Locale 语言环境名称格式
 3.2 常用区域描述(简写)日期习惯
 3.3 日期显示格式
 3.4 locale相关(环境)变量生效的优先顺序:
4 Linux Locale 操作(左边查看a,右边设置b)
 4.1a 查看已开启的语言环境
     4.1b 生成语言环境
 4.2a 查看Linux系统编码
     4.2b 设置系统区域设置
 4.3a 列出系统当前使用的字符集
5 更多链接

1. Locale 概述

https://en.wikipedia.org/wiki/Locale_(computer_software)
在计算中,语言环境是一组参数,用于定义用户的语言,区域以及用户希望在其用户界面中看到的任何特殊的变体首选项。
通常,语言环境标识符至少由语言代码和国家/地区代码组成。

https://zh.wikipedia.org/wiki/区域设置
区域设置(locale),也称作“本地化策略集”、“本地环境”,是表达程序用户地区方面的软件设定。
不同系统、平台、与软件有不同的区域设置处理方式和不同的设置范围,但是一般区域设置最少也会包括语言和地区。
操作系统的区域设置通常比较复杂。区域设置的内容包括:数据格式、货币金额格式、小数点符号、千分位符号、度量衡单位、通货符号、日期写法、日历类型、文字排序、姓名格式、地址等等。

https://zh.wikipedia.org/wiki/国际化与本地化
在信息技术领域,国际化与本地化(英文:internationalization and localization)是指修改软件使之能适应目标市场的语言、地区差异以及技术需要。
基于他们的英文单字长度过长,常被分别简称成i18n(18意味着在“internationalization”这个单字中,i和n之间有18个字母)及L10n。使用大写的L以利区分i18n中的i和易于分辨小写l与1。

Localisation Guide  相关资料的汇整...
http://docs.translatehouse.org/projects/localization-guide/en/latest/guide/start.html?id=guide/start#locales

2. Windows 区域设置

Windows 系统的每个区域设置(locale)是一个“语言”及一个排序规则。
  • Windows XP支持超过150个区域设置(locale);
  • Windows Vista支持超过200个区域设置(locale);
  • Windows 7支持至少365个区域设置(locale)。
[控制面板]下找到区域设置...选择适合的区域即可。

3 Linux Locale

https://wiki.archlinux.org/index.php/Locale
区域设置是使用glibc的渲染文本,正确地显示区域货币值,时间和日期格式,字符排列方式和其他一些本地化的特定标准和其他区域设置的程序或库。

3.1 Linux Locale 语言环境名称格式

language[_territory][.codeset][@modifier]
  • language 是ISO 639-1标准中定义的双字母的语言代码,
  • territory 是ISO 3166-1标准中定义的双字母的国家和地区代码,
  • codeset 是字符集的名称 (如 UTF-8等),
  • modifier 是某些 locale 变体的修正符。
参见: setlocale https://jlk.fjfi.cvut.cz/arch/manpages/man/setlocale.3

3.2 常用区域描述(简写)日期习惯

中文-中国大陆 zh-CN Y M D
英语-英国 en-GB D M Y
英语-美国 en-US M D Y

3.3 日期显示格式

$ LC_TIME=en_US.UTF-8 date
Thu 09 Jan 2020 07:52:05 PM CST
$ LC_TIME=en_GB.UTF-8 date
Thu Jan  9 19:52:26 CST 2020

3.4 locale相关(环境)变量生效的优先顺序:

  1. LANGUAGE 指定个人对语言环境值的主次偏好,例如zh_CN:en_US:en
  2. LC_ALL 这不是一个环境变量,是一个可被C语言库函数setlocale设置的宏,其值可覆盖所有其他的locale设定。因此缺省时此值为空
  3. LC_xxx 可设定locale各方面(category)的值,可以覆盖LANG的值。
  4. LANG 指定默认使用的locale值

4 Linux Locale 操作(左边查看a,右边设置b)

查看命令 a 设置命令 b
4.1a 查看已开启的语言环境 4.1b Generating locales 生成语言环境
$ locale 列出当前采用的各项本地策略,这些由LC_*环境变量定义
$ locale -a 列出系统中已经安装的所有locale
$ localedef --list-archive 列出已生成的可用语言环境, 或者

$ localectl list-locales
en_US.UTF-8
zh_CN.UTF-8

查看可开启的所有语言环境
$ cat /etc/locale.gen |wc -l
511 // 除去前面的注释文字,下面可开启的有486个(其中UTF-8的有312个;ISO-8859系的有153个;还有一些国家专用的如GB18030等)。
1.1 修改locale.gen, 取消en_US.UTF-8 UTF-8和其他必要的语言前面的注释符号
$ sudo vi /etc/locale.gen
en_US.UTF-8 UTF-8
zh_CN.GB18030 GB18030
zh_CN.GBK GBK
zh_CN.UTF-8 UTF-8
zh_CN GB2312

编辑完成后 :wq 保存退出.
1.2 生成(generate)语言环境
$ sudo locale-gen
Generating locales...
en_US.UTF-8... done
zh_CN.GB18030... done
zh_CN.GB2312... done
zh_CN.GBK... done
zh_CN.UTF-8... done
Generation complete.


4.2a 查看Linux/Unix操作系统编码: 4.2b 设置系统区域设置
$ echo $LANG
en_US.UTF-8
$ cat /etc/locale.conf
LANG=en_US.UTF-8
$ printenv 查看环境变量

4.3a 列出系统当前使用的字符集
$ locale charmap
UTF-8
查看系统已经安装的所有字符集
$ locale -m |wc -l 236 // 当前系统有236个
编辑: /etc/locale.conf, 写入LANG,比如: LANG=en_US.UTF-8 变量值在先前生成的语言环境中选择。

$ sudo vi /etc/locale.conf
LANG=en_US.UTF-8

或者运行

# localectl set-locale LANG = zh_CN.UTF-8

5 更多链接

https://wiki.archlinux.org/index.php/Localization/Simplified_Chinese_(简体中文)
要正确显示中文,必需设置正确的locale并安装合适的中文字体。

https://docs.oracle.com/cd/E19683-01/816-3981/overview-46/index.html
Documentation Home  > 国际语言环境指南  > 第 1 章 Solaris 国际化概述  > 使用语言环境种类进行本地化  > 日期格式 >
国际语言环境指南 > 日期格式 (下表显示在世界各地使用的一些日期格式。 请注意,即使在一个国家/地区内部,日期格式可能也有所不同)

https://www.ibm.com/support/knowledgecenter/zh/SSEPGG_10.5.0/com.ibm.db2.luw.admin.nls.doc/doc/r0004572.html
主页 > DB2 for Linux UNIX and Windows 10.5.0 > 开发用于访问和管理数据的代码 > 多文化支持 > 应用程序开发注意事项 >
基于地域代码的日期和时间格式

https://zh.wikipedia.org/wiki/各地日期和时间表示法

2020-01-06

Unicode

1. ASCII码 
2. 字符集
 2.1 Unicode 统一码 万国码
  2.1.1 Unicode的10大设计原则
  2.1.2 Unicode联盟
 2.2 UCS 通用编码字符集
 2.3 Unicode vs UCS (ISO 10646)
3. 字符编码
 3.1 现代编码模型
 3.2 字符转换工具
 3.3 Unicode的具体实现
 3.4 Unicode编码比较
4. 更多相关wiki链接
5. 补充: 字符集检测
6. 更多参考

Unicode 系统 简单的说:
  • 定义了一个标准(Unicode):字符与序列码点Code Point一一对应的字符集;
  • 发布了一系列的编码规则(UTF-8, UTF-16等):码点编码到计算机使用及存储的具体二进制格式

1. ASCII码

https://en.wikipedia.org/wiki/ASCII
https://zh.wikipedia.org/wiki/ASCII
ASCII (American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语,而其扩展版本EASCII则可以部分支持其他西欧语言,并等同于国际标准ISO/IEC 646。ASCII是 IEEE里程碑 之一。
But:
ASCII的局限在于只能显示26个基本拉丁字母、阿拉伯数字和英式标点符号,因此只能用于显示现代美国英语(且处理naïve、café、élite等外来语时,必须去除附加符号)。虽然EASCII解决了部分西欧语言的显示问题,但对更多其他语言无能为力
So:
为了让计算机方便处理多国文字,所以就有了Unicode(统一码 万国码). 现在的软件系统大多采用Unicode。

2. 字符集

2.1 Unicode 统一码 万国码

https://www.unicode.org/versions/
https://en.wikipedia.org/wiki/Unicode
https://zh.wikipedia.org/wiki/Unicode
Unicode (中文: 万国码、国际码、统一码、单一码) 是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。
该标准由非盈利的Unicode协会维护,截至2019年5月,最新版本Unicode 12.1包含字符超过13万个,涵盖150个现代和历史脚本,以及多个符号集和表情符号。
Unicode标准的字符库与ISO/IEC 10646同步,并且两者都是相同的。定义了每个字符的唯一标识(即字符的数字值,或者叫做代码点)

2.1.1 Unicode的10大设计原则

https://zh.wikipedia.org/wiki/Unicode#10大设计原则
《The Unicode Standard Version 6.2 – Core Specification》文档给出了 Unicode 的十大设计原则:
  • Universality:提供单一、综合的字符集,编码一切现代与大部分历史文献的字符。
  • Efficiency:易于处理与分析。
  • Characters, not glyphs:字符,而不是字形。
  • Semantics:字符要有良好定义的语义
  • Plain text:仅限于文本字符
  • Logical order:默认内存表示是其逻辑序
  • Unification:把不同语言的同一书写系统(scripts)中相同字符统一起来。
  • Dynamic composition:附加符号可以动态组合。
  • Stability:已分配的字符与语义不再改变。
  • Convertibility:Unicode 与其他著名字符集可以精确转换。

2.1.2 Unicode联盟

http://www.unicode.org/
https://en.wikipedia.org/wiki/Unicode_Consortium
https://zh.wikipedia.org/wiki/統一碼聯盟
Unicode协会(Unicode的公司)是一个非营利组织。它的主要目的是维护和发布Unicode标准,因为现存编码不能够在多语言电脑环境中使用,而且字符数有局限。
Unicode联盟有来自多个国家政府和各大软件商的代表参与。
Unicode联盟积极与各标准制订机构合作,包括国际标准化组织(ISO)、国际电工委员会(IEC)、万维网联盟(W3C)、互联网工程工作小组(IETF)和欧洲计算机制造协会(ECMA)等。
投票成员包括对文本处理标准感兴趣的计算机软件和硬件公司,包括Adobe,Apple Inc.,Berkeley,Emojipedia,Facebook,Google,华为,IBM,Microsoft,Monotype,Oracle Corporation,Yahoo!。和SAP SE。与Unicode标准相关的技术决定由Unicode技术委员会(UTC)做出。

2.2 UCS 通用编码字符集

https://en.wikipedia.org/wiki/Universal_Coded_Character_Set
https://zh.wikipedia.org/wiki/通用字符集
通用字符集(英语:Universal Character Set, UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。

2.3 Unicode vs UCS (ISO 10646)

https://zh.wikipedia.org/wiki/通用字符集#Unicode和ISO_10646的关系
https://en.wikipedia.org/wiki/Universal_Coded_Character_Set#Relationship_with_Unicode
历史上存在两个独立的尝试创立单一字符集的组织,因此最初制定了不同的标准。
  •   国际标准化组织(ISO)于1984年创建的ISO/IEC 制定标准(ISO 10646);
  •   由Xerox、Apple等软件制造商于1988年组成的统一码联盟 制定标准(Unicode)
1991年前后,两个项目的参与者都认识到,世界不需要两个不兼容的字符集。于是,它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。
从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。
两个项目仍都独立存在,并独立地公布各自的标准。但统一码联盟和ISO/IEC JTC1/SC2都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。
在发布的时候,Unicode一般都会采用有关字码最常见的字体,但ISO 10646一般都尽可能采用Century字体。

    ISO/IEC 10646-1:1993 = Unicode 1.1 (1993)
    ...
    ISO/IEC 10646:2017 = Unicode 12.0 (2019.05)

https://zh.wikipedia.org/wiki/通用字符集#Unicode和ISO_10646的异同
https://en.wikipedia.org/wiki/Universal_Coded_Character_Set#Differences_from_Unicode
  • 在两个标准里,所有的字符都在相同的位置并且有相同的名字,并会同步增修
  • ISO/IEC 10646标准,就像ISO/IEC 8859标准一样,只是一个简单的字符集表。它定义了一些编码的别名,指定了一些与标准有关的术语,并包括了规范说明,指定了怎样使用UCS连接其他ISO标准的实现,比如ISO/IEC 6429和ISO/IEC 2022。还有一些与ISO紧密相关的,比如ISO/IEC 14651是关于UCS字符串排序的。
  • Unicode标准,额外定义了许多与字符有关的语义符号学。Unicode详细说明了绘制某些语言(如阿拉伯语)表达形式的算法,处理双向文字(比如拉丁文和希伯来文的混合文字)的算法,排序与字符串比较所需的算法,等等。
  • Unicode使用更加广泛,因其具有更多的属性。

3. 字符编码

https://en.wikipedia.org/wiki/Character_encoding
https://zh.wikipedia.org/wiki/字符编码
字符编码(英语:Character encoding)、字集码是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。

3.1 现代编码模型

https://zh.wikipedia.org/wiki/字符编码#现代编码模型
https://en.wikipedia.org/wiki/Character_encoding#Unicode_encoding_model
  • 抽象字符表(Abstract character repertoire)是一个系统支持的所有抽象字符的集合。字符表可以是封闭的,即除非创建一个新的标准(ASCII和多数ISO/IEC 8859系列都是这样的例子),否则不允许添加新的符号;字符表也可以是开放的,即允许添加新的符号(统一码和一定程度上代码页是这方面的例子)。
  • 编码字符集(CCS:Coded Character Set)是将字符集C中每个字符映射到1个坐标(整数值对:x, y)或者表示为1个非负整数N。字符集及码位映射称为编码字符集。例如,在一个给定的字符表中,表示大写拉丁字母“A”的字符被赋予整数65、字符“B”是66,如此继续下去。
  • 字符编码表(CEF:Character Encoding Form),也称为"storage format",是将编码字符集的非负整数值(即抽象的码位)转换成有限比特长度的整型值(称为码元code units)的序列。这对于定长编码来说是个到自身的映射(null mapping),但对于变长编码来说,该映射比较复杂,把一些码位映射到一个码元,把另外一些码位映射到由多个码元组成的序列。
  • 字符编码方案(CES:Character Encoding Scheme),也称作"serialization format"。将定长的整型值(即码元)映射到8位字节序列,以便编码后的数据的文件存储或网络传输。在使用Unicode的场合,使用一个简单的字符来指定字节顺序是大端序或者小端序(但对于UTF-8来说并不需要专门指明字节序)。
  • 传输编码语法(transfer encoding syntax),用于处理上一层次的字符编码方案提供的字节序列。一般其功能包括两种:一是把字节序列的值映射到一套更受限制的值域内,以满足传输环境的限制,例如Email传输时Base64或者quoted-printable,都是把8位的字节编码为7位长的数据;另一是压缩字节序列的值,如LZW或者行程长度编码等无损压缩技术。

3.2 字符转换工具

https://zh.wikipedia.org/wiki/字符编码#字符转换工具
https://en.wikipedia.org/wiki/Character_encoding#Character_encoding_translation
Cross-platform Web browsers 大多数现代Web浏览器均具有自动字符编码检测功能。
一般是在菜单"查看"(View)/"字符编码"(Character Encoding)
International Components
For Unicode
一套C语言与Java语言的开源库,由IBM提供,用于Unicode等多语言编码的转换、实现。可从ICU4C使用uconv。
iconv 程序与编程API,用于字符编码转换
convert_encoding.py 基于Python的实用程序,用于在任意编码和行尾之间转换文本文件。
decodeh.py 用于启发性猜测编码方案的算法与模块.
luit 将输入和输出的编码转换为交互运行的程序的程序
file 新版本的Unix命令File做字符编码的检测.(cygwin与mac都有此命令)
chardet Mozilla的编码自动检测代码的Python语言实现.
charset 具有简单接口的C++模板库,可在C++/用户定义的流之间进行转换。
Charset定义了许多字符集,并允许您使用支持endianness的 Unicode格式。
Linux cmv 用于文件名转码的简单工具。
convmv 将文件名从一种编码转换为另一种。
cstocs 将捷克语和斯洛伐克语的文件内容从一种编码转换为另一种编码。
recode 将文件内容从一种编码转换为另一种
utrac 将文件内容从一种编码转换为另一种编码。
enca 分析给定文本文件的编码。
Windows enca 分析编码方法
Encoding.Convert .NET API
cscvt 转换工具
MultiByteToWideChar
/WideCharToMultiByte
Windows API 从ANSI转换为Unicode和从Unicode转换为ANSI

3.3 Unicode的具体实现

映射和编码
https://en.wikipedia.org/wiki/Unicode#Mapping_and_encodings
Unicode转换格式和通用编码字符集
https://en.wikipedia.org/wiki/Unicode#Unicode_Transformation_Format_and_Universal_Coded_Character_Set
Unicode定义了两种映射方法:Unicode转换格式(UTF)编码和通用编码字符集(UCS)编码。UCS-2是UTF-16的过时子集;UCS-4和UTF-32在功能上是等效的。

https://zh.wikipedia.org/wiki/Unicode#Unicode_的编码和实现
大概来说,Unicode 编码系统可分为编码方式和实现方式两个层次。
Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对 Unicode 编码的实现方式有所不同。
Unicode 的实现方式称为 Unicode转换格式(Unicode/UCS Transformation Format,简称为 UTF),即把Unicode字符转换为某种格式之意。Unicode可以通过不同的字符编码实现。
常见的有:
其他还有:
  • UTF-EBCDIC,类似于UTF-8的8位可变宽度编码,但旨在与EBCDIC兼容(不是Unicode标准的一部分);
  • UTF-32,一种32位固定宽度编码。(也称为UCS-4)为每个字符使用四个字节。与UCS-2一样,每个字符的字节数是固定的,从而有助于字符索引。但是与UCS-2不同,UTF-32能够编码所有Unicode代码点。但是,由于每个字符使用四个字节,因此UTF-32比其他编码占用更多的空间,因此并未得到广泛使用。https://en.wikipedia.org/wiki/UTF-32
  • 已过时的有: UTF-1,UTF-7等...

3.4 Unicode编码比较

https://en.wikipedia.org/wiki/Comparison_of_Unicode_encodings
八位环境
代码范围(十六进制) 转换为十进制
HEX2DEC(A2)
区间
容量
UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030
000000 - 00007F 0 - 127 127 1 2 4 1 1
000080 - 00009F 128 - 159 31 2 2 继承GB 2312/GBK
(例如多数汉字)

4 是其他所有字符。
0000A0 - 0003FF 160 - 1023 863 2
000400 - 0007FF 1024 - 2047 1023 3
000800 - 003FFF 2048 - 16383 14335 3
004000 - 00FFFF 16384 - 65535 49151 4
010000 - 03FFFF 65536 - 262143 196607 4 4 4
040000 - 10FFFF 262144 - 1114111 851967 5

4. 更多相关wiki链接

字体列表
https://en.wikipedia.org/wiki/List_of_typefaces#Unicode_fonts

开源Unicode字体
https://en.wikipedia.org/wiki/Open-source_Unicode_typefaces
比较
https://en.wikipedia.org/wiki/Open-source_Unicode_typefaces#Comparison

https://en.wikipedia.org/wiki/GB_2312

汉字编码
https://en.wikipedia.org/wiki/Chinese_character_encoding

中国文字
https://en.wikipedia.org/wiki/Chinese_characters
5.5繁体中文,简体中文和日语的比较

中日韩字符
https://en.wikipedia.org/wiki/CJK_characters
国际化中,CJK是中文,日文和韩文语言的统称,它们的书写系统中都包含汉字和派生词(统称CJK字符),有时还与其他脚本配对。
有时会包含越南语,因此缩写为CJKV,因为越南历史上也使用汉字。总的来说,CJKV人物通常包括汉字在中国,汉字,假名在日本,汉字,韩文在韩国和干旱自我或喃在越南。

https://en.wikipedia.org/wiki/Unicode_font
Unicode原则上与字体本身无关,将字体视为实现选择。
任何给定的角色都可能有许多变种,从更常见的粗体,斜体和基本字母形式到复杂的装饰风格。如果可以使用Unicode标准中定义的代码点访问字体中的字形,则该字体为“ Unicode兼容”。
由于TrueType和OpenType支持Unicode ,因此广泛使用基于Unicode的免费和零售字体。这些字体格式将Unicode代码点映射到字形,但是TrueType字体限制为65,535个字形。

Utility software 实用程序软件
https://en.wikipedia.org/wiki/Unicode_font#Application_of_Unicode_fonts
这是一些可以识别字体文件中存在的字符的实用程序软件的选择:

Character Map 字符映射表,Microsoft Windows附带的小程序 https://en.wikipedia.org/wiki/Character_Map_(Windows)
Font Book,Mac OS附带的应用程序 https://en.wikipedia.org/wiki/Font_Book
GNOME Character Map GNOME字符映射表,GNOME桌面环境随附的应用程序 https://en.wikipedia.org/wiki/GNOME_Character_Map
BabelMap,用于Windows的第三方软件 https://en.wikipedia.org/wiki/GNOME_Character_Map

字体管理软件
https://en.wikipedia.org/wiki/Font_management_software

https://en.wikipedia.org/wiki/TrueType
TrueType字体是一种轮廓字体 标准由开发苹果在80年代末期作为竞争对手的Adobe的Type 1字体中使用的PostScript。
它已成为经典Mac OS,macOS和Microsoft Windows操作系统上最常见的字体格式。
TrueType的主要优点最初是为字体开发人员提供了高度控制权,可以精确控制各种字体大小的字体的显示方式,直至特定像素。
由于当今使用的渲染技术千差万别,因此TrueType字体不再能够确定像素级别的控制。

https://en.wikipedia.org/wiki/OpenType
OpenType是可缩放计算机字体的格式。它建立在其前身TrueType的基础上,保留了TrueType的基本结构,并添加了许多复杂的数据结构来规定印刷行为。
OpenType是Microsoft Corporation的注册商标。
该规范在Microsoft萌发,在1996年公开发布之时Adobe系统也做出了贡献。
由于具有广泛的可用性和印刷灵活性,包括处理世界上所有书写系统的各种行为的规定,因此OpenType字体通常在主要的计算机平台上使用。

https://en.wikipedia.org/wiki/List_of_input_methods_for_Unix_platforms
Unix平台的输入法列表

5. 补充: 字符集检测

内容嗅探
https://en.wikipedia.org/wiki/Content_sniffing
内容嗅探(也称为媒体类型嗅探或MIME嗅探)是一种检查字节流的内容以尝试推断其中数据的文件格式的实践。内容嗅探通常用于补偿缺少准确的元数据,否则将需要正确的元数据才能正确解释文件。内容嗅探技术倾向于使用多种技术的混合物,这些技术依赖于大多数文件格式中的冗余:寻找文件签名和幻数,以及启发式包括搜索著名的代表性子字符串,使用字节频率和n- gram表以及贝叶斯推断。

https://en.wikipedia.org/wiki/Browser_sniffing

字符集检测
https://en.wikipedia.org/wiki/Charset_detection

https://en.wikipedia.org/wiki/International_Components_for_Unicode
Unicode的国际组件 -一个可以执行字符集检测的库。

6. 更多参考

Unicode 和 UTF-8 有什么区别?
https://www.zhihu.com/question/23374078
  •  Unicode 字符集: 为每一个「字符」分配一个唯一的 ID(学名为码位 / 码点 / Code Point)
  •  UTF-8 编码规则: 将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程)
字符编码笔记:ASCII,Unicode 和 UTF-8
http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
UTF-8 的编码规则很简单,只有二条:
  • 1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的 Unicode 码。因此对于英语字母,UTF-8 编码和 ASCII 码是相同的。
  • 2)对于n字节的符号(n > 1),第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。
英文: awesome-unicode
https://eng.getwisdom.io/awesome-unicode/
Unicode标准定义了当今所有主要语言中使用的字符代码。文字包括欧洲字母文字,中东从右到左文字以及许多亚洲文字。
Unicode标准还包括标点符号,变音符号,数学符号,技术符号,箭头,装饰符号,表情符号等。

很棒的软件包和库
https://eng.getwisdom.io/awesome-unicode/#awesomepackageslibraries
Unicode标准的原则
https://eng.getwisdom.io/awesome-unicode/#principlesoftheunicodestandard

About the Unicode Character Database
https://www.unicode.org/ucd/
https://dumps.codepoints.net/

语言工具
https://en.wikipedia.org/wiki/LanguageTool
LanguageTool是一个免费的开源 语法检查器,其所有功能都可以下载。
https://languagetool.org/

Diode

导航 (返回顶部) 1. Diode 1.1 Diode 概述 1.2 肖克利二极管方程 1.3 缩写 Abbreviations 2. 主要功能 2.1 单向电流 (Unidirectional current flow) 2.2 阈值电压 (Threshold...